FLORES-200 — FLORES-200(多语言翻译基准)

From Systems analysis wiki
Jump to navigation Jump to search

FLORES-200 是一个用于多语言机器翻译的评估数据集,涵盖了全球约 200 种语言。它由 Meta 公司的研究人员在“No Language Left Behind (NLLB)”项目框架下创建,并于 2022 年发布。FLORES-200 是先前数据集 FLORES-101 的扩展,旨在客观评估翻译质量,特别是针对低资源语言[1]

该数据集的一个关键特点是,所有文本均由专业翻译人员翻译,这确保了参考译文的高质量,使其成为比较机器翻译系统的可靠标准[2]

背景与创建

第一个版本 FLORES-101 于 2022 年推出,包含 3001 个来自英文维基百科的句子,并被翻译成 101 种语言[3]。该数据集填补了在评估低资源语言翻译系统方面的一个重要空白。

2022 年,Meta 公司在“No Language Left Behind”项目框架下将语料库扩展至 200 种语言,创建了 FLORES-200[4]。开发过程遇到了一些困难:

  • 许多新增语言的标准化程度低,且缺乏双语专业人才。
  • 部分语言并非直接从英语翻译,而是通过中介语言(如西班牙语、法语、俄语)进行翻译。
  • 对于某些语言,数据集中包含了不同的书写系统(例如拉丁字母和西里尔字母),以反映它们在不同社群中的使用情况[5]

组成与结构

FLORES-200 语料库包含 3001 个句子,这些句子选自 842 篇不同的网络文章和维基媒体项目文档。与第一版不同,其来源不仅包括维基百科,还涵盖了其他项目,如维基新闻(Wikinews)、维基教科书(Wikijunior)和维基导游(Wikivoyage)。这确保了主题的多样性(新闻、科学、文化、旅行等),从而可以全面地检验翻译质量。

每个英语句子都由专业人员翻译成约 200 种目标语言,形成一个完全对齐的平行语料库。该数据集分为三个部分:

  • dev (开发集) — 用于模型调优。
  • devtest (开发测试集) — 用于初步评估。
  • test (测试集) — 隐藏部分,用于在竞赛中公平地比较模型。

为了表示语言,数据集使用了 ISO 639-3 标准,并附带书写系统标识,例如,`eng_Latn` 代表使用拉丁字母的英语,`rus_Cyrl` 代表使用西里尔字母的俄语[5]

应用与意义

FLORES-200 已成为评估多语言机器翻译系统的关键标准。它被用于评估 Meta 的旗舰模型 — NLLB-200。在 FLORES-200 上的测试表明,与先前的顶尖系统相比,NLLB-200 在 BLEU 指标上的翻译质量平均提高了 44%[6]。对于一些非洲和印度的语言,准确率的提升超过了 70%[4]

Meta 公司已根据 Creative Commons BY-SA 4.0 许可证开放了该数据集及其使用工具的自由访问权限。因此,FLORES-200 迅速得到广泛应用,并成为科学研究、机器翻译竞赛(如 WMT)和语言保护倡议中的事实标准。2023 年,OLDI(Open Language Data Initiative)社区开始以 FLORES+ 的名义扩展该语料库[2]

链接

参考文献

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

  1. «FLoRes-200 Dataset». Papers With Code. [1]
  2. 2.0 2.1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]
  3. Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]
  4. 4.0 4.1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]
  5. 5.0 5.1 «Muennighoff/flores200». Hugging Face. [5]
  6. Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]