METEOR (metric) — 术语解析

METEOR 是一个在自然语言处理（NLP）领域中用于指代几个相关但不同概念的名称。首先，它是一个著名的用于评估机器翻译质量的自动评估指标。此外，在2024年，有两个与大型语言模型（LLM）相关的独立研究项目也以此为名：一种进化学习方法和一种多模态语言模型。

作为翻译质量评估指标的METEOR

METEOR（Metric for Evaluation of Translation with Explicit ORdering 的缩写）是一种用于评估机器翻译质量的自动指标，由卡内基梅隆大学的研究员Satanjeev Banerjee和Alon Lavie于2005年提出^[1]。其目标是通过解决早期指标BLEU的一些缺点，来提高自动评估与人类判断之间的一致性，尤其是在单个句子层面上。

METEOR指标的主要特点：

同时考虑精确率和召回率：与只关注精确率（precision）的BLEU不同，METEOR计算精确率和召回率（recall）的调和平均数，这使得它能够对漏掉重要单词的翻译进行惩罚。
灵活的词语匹配：METEOR利用语言学特征将翻译与参考译文进行匹配。它不仅考虑精确匹配，还考虑单词的不同形式（通过词干提取）和同义词（通过WordNet）。
对词序错误的惩罚：该指标引入了一种惩罚机制，即使候选译文中的所有单词都与参考译文匹配，但如果词序不正确，也会受到惩罚。

这些改进使得METEOR指标与人类评估的相关性显著优于BLEU^[2]。该指标广泛应用于机器翻译、自动摘要和图像字幕评估等研究领域^[3]。

作为LLM进化学习方法的METEOR

2024年，一组中国研究人员提出了一种名为METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth的方法^[4]。该方法旨在高效地训练专精于特定领域（如金融、医疗）的LLM，而无需从头开始训练模型。

作者描述了一个LLM“进化”的三阶段框架：

从强模型到弱模型的数据蒸馏（weak-to-strong data distillation）：使用一个更强大的“教师”模型（如GPT-4）来生成训练语料库。在此过程中，领域模型首先生成解决方案的计划，然后强模型遵循该计划创建答案。这可以平衡知识分布，使目标模型能够更有效地吸收知识。
带外部反馈的迭代训练（guided iterative training）：在第一阶段训练出的模型独立解决任务，而强模型则扮演“裁判”的角色，评估答案并指出错误。这个反思循环可以培养领域模型的自我检查能力。
自我进化（self-evolution）：模型在没有外部监督者的情况下继续自我提升，利用已掌握的技能生成和修正新数据。

该方法为创建特定行业的紧凑且经济高效的LLM专家提供了一种实用途径^[5]。

作为多模态LLM的METEOR

同样在2024年，来自韩国科学技术院（KAIST）的一个研究团队推出了一款名为METEOR: Mamba-based Traversal of Rationales的大型多模态语言模型^[6]。该模型旨在全面理解视觉信息并生成对视觉问题的回答。

METEOR的一个关键特点是使用详细的推理过程（rationales）。该模型不只是给出最终答案，而是生成并依赖于一个隐藏的“推理链”——即对如何得出答案的逐步解释，类似于人类的推理方式。

METEOR的架构中包含一个基于Mamba模型的特殊模块，Mamba是一种能高效处理超长序列的架构。该模块负责编码长推理链，这些推理链可能包括对图像中物体的描述、它们的空间关系以及解决任务的步骤^[7]。

该模型已在复杂的的多模态基准测试（如MME、AI2D（图表理解）和MathVista（视觉环境下的数学问题求解））上成功通过测试。它取得了优异的成绩，且无需额外的外部计算机视觉模块，这表明它高效地利用了自身的参数^[7]。

注释

↑ Banerjee, S., and A. Lavie. «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments». ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT, 2005. [1]
↑ Lavie, A., and A. Agarwal. «METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments». ACL Workshop on Statistical Machine Translation, 2007. [2]
↑ «Evaluating Large Language Models: Powerful Insights Ahead». DataScienceDojo. [3]
↑ Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». arXiv preprint arXiv:2411.11933, 2024. [4]
↑ Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». ar5iv.org. [5]
↑ Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». NeurIPS 2024 (poster). [6]
↑ ^7.0 ^7.1 Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». arXiv preprint arXiv:2405.15574, 2024. [7]

[banerjee_2005-1] Banerjee, S., and A. Lavie. «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments». ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT, 2005. [1]

[lavie_2007-2] Lavie, A., and A. Agarwal. «METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments». ACL Workshop on Statistical Machine Translation, 2007. [2]

[ds_dojo-3] «Evaluating Large Language Models: Powerful Insights Ahead». DataScienceDojo. [3]

[meteor_evolutionary-4] Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». arXiv preprint arXiv:2411.11933, 2024. [4]

[meteor_evolutionary_ar5iv-5] Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». ar5iv.org. [5]

[neurips_meteor_mamba-6] Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». NeurIPS 2024 (poster). [6]

[arxiv_meteor_mamba-7] 7.0 ^7.1 Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». arXiv preprint arXiv:2405.15574, 2024. [7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

METEOR (metric) — 术语解析

Contents

作为翻译质量评估指标的METEOR

作为LLM进化学习方法的METEOR

作为多模态LLM的METEOR

注释

Navigation menu

METEOR (metric) — 术语解析

作为翻译质量评估指标的METEOR

作为LLM进化学习方法的METEOR

作为多模态LLM的METEOR

注释

Navigation menu

Search