bleu不可不看詳解

首先统计候选译文里每个词出现的次数,然后统计每个词在参考译文中出现的次数,Max表示3个参考译文中的最大值,Min表示候选译文和Max两个的最小值。 不要被这里的连加公式给欺骗了,它将候选段落的所有n-gram进行了截断统计作为分子,分母是候选段落的n-gram的个数。 随着深度自然语言的发展,对于模型结果的评估成为限制模型迭代的瓶颈。 怎样快速的判断模型翻译语句的质量成为亟待解决的问题,本文解释了BLEU评估方法,低成本,快速的实现对模型结果的评估,从而促进模型架构的发展。 前两个求和符号和分子中的含义一样,Count(n-gram’)表示n−gram′在candidate中的个数,综上可知,分母是获得所有的candidate中n-gram的个数。 通过一次次的改进、纠正,这样的BLEU算法已经基本可以快捷地给出相对有参考价值的评估分数了。

短译句就是这样,很容易得高分,所以必须要设计一个有效的惩罚措施去控制。 一般给出的reference是4句话,之所以给出多个句子,是因为单个句子可能无法和生成的句子做很好地匹配。 上面出现的错误可以理解为常用词干扰(over-generate “reasonable”words),比如the, on这样的词,所以极易造成翻译结果低劣评分结果却贼高的情况。 比如”你好”,reference是”hello”,机器给出的译文是”how are you”,机器给出的词语每一个一个词匹配上这个reference,那么BLEU值是0,这显然是有问题的。 所以reference越多样化,匹配成功概率越高。 另外,上面我们一个词一个词的去统计,以一个单词为单位的集合,我们统称uni-grams(一元组集)。

bleu: 计算公式

做不到也不需要很精确,它只是给出了一个评判的参考线而已。 首先,定一个名词叫“最佳匹配长度”(best match length),就是,如果译句长度和任意一个参考翻译的长度相同,就认为它满足最佳匹配长度。 改进思路:对于某个词组出现的次数,在保证不大于candidate中出现的个数的情况下,然后再reference寻找词组出现的最多次。 显然,这时候选翻译的精度得分又是1(12+12)!

  • 不要被这里的连加公式给欺骗了,它将候选段落的所有n-gram进行了截断统计作为分子,分母是候选段落的n-gram的个数。
  • BLEU的全名为:bilingual evaluation understudy,即:双语互译质量评估辅助工具。
  • 改进思路:对于某个词组出现的次数,在保证不大于candidate中出现的个数的情况下,然后再reference寻找词组出现的最多次。
  • 我们这里采取几何加权平均,并且将各n-gram的作用视为等重要的,即取权重服从均匀分布。
  • BLEU是做不到百分百的准确的,它只能做到个大概判断,它的目标也只是给出一个快且不差自动评估解决方案。

BLEU的全名为:bilingual evaluation understudy,即:双语互译质量评估辅助工具。 BLEU的设计思想:机器翻译结果越接近专业人工翻译的结果,则越好。 想知道一个句子翻译前后的表示是否意思一致,直接的办法是拿这个句子的标准人工翻译与机器翻译的结果作比较,如果它们是很相似的,说明我的翻译很成功。 因此,BLUE将机器翻译的结果与其相对应的几个参考翻译作比较,算出一个综合分数。 注意BLEU算法是句子之间的比较,不是词组,也不是段落。

bleu: BLEU详解

如果是这样,类似 ”the cat”两个相邻词一组就叫做bi-gram(二元组),以此类推:三元组、四元组、…、多元组(n-gram),集合变复数:n-grams。 根据n-gram可以划分成多种评价指标,常见的指标有BLEU-1、BLEU-2、BLEU-3、BLEU-4四种,其中n-gram指的是连续的单词个数为n。 事实是这样,随着n-gram的增大,精度得分总体上成指数下降的,而且可以粗略的看成随着n而指数级的下降。 我们这里采取几何加权平均,并且将各n-gram的作用视为等重要的,即取权重服从均匀分布。 BLEU是做不到百分百的准确的,它只能做到个大概判断,它的目标也只是给出一个快且不差自动评估解决方案。

bleu

柯文思

柯文思

Eric 於國立臺灣大學的中文系畢業,擅長寫不同臺灣的風土人情,並深入了解不同範疇領域。