FLORES-200 — FLORES-200（多语言翻译基准）

FLORES-200 是一个用于多语言机器翻译的评估数据集，涵盖了全球约 200 种语言。它由 Meta 公司的研究人员在“No Language Left Behind (NLLB)”项目框架下创建，并于 2022 年发布。FLORES-200 是先前数据集 FLORES-101 的扩展，旨在客观评估翻译质量，特别是针对低资源语言^[1]。

该数据集的一个关键特点是，所有文本均由专业翻译人员翻译，这确保了参考译文的高质量，使其成为比较机器翻译系统的可靠标准^[2]。

背景与创建

第一个版本 FLORES-101 于 2022 年推出，包含 3001 个来自英文维基百科的句子，并被翻译成 101 种语言^[3]。该数据集填补了在评估低资源语言翻译系统方面的一个重要空白。

2022 年，Meta 公司在“No Language Left Behind”项目框架下将语料库扩展至 200 种语言，创建了 FLORES-200^[4]。开发过程遇到了一些困难：

许多新增语言的标准化程度低，且缺乏双语专业人才。
部分语言并非直接从英语翻译，而是通过中介语言（如西班牙语、法语、俄语）进行翻译。
对于某些语言，数据集中包含了不同的书写系统（例如拉丁字母和西里尔字母），以反映它们在不同社群中的使用情况^[5]。

组成与结构

FLORES-200 语料库包含 3001 个句子，这些句子选自 842 篇不同的网络文章和维基媒体项目文档。与第一版不同，其来源不仅包括维基百科，还涵盖了其他项目，如维基新闻（Wikinews）、维基教科书（Wikijunior）和维基导游（Wikivoyage）。这确保了主题的多样性（新闻、科学、文化、旅行等），从而可以全面地检验翻译质量。

每个英语句子都由专业人员翻译成约 200 种目标语言，形成一个完全对齐的平行语料库。该数据集分为三个部分：

dev (开发集) — 用于模型调优。
devtest (开发测试集) — 用于初步评估。
test (测试集) — 隐藏部分，用于在竞赛中公平地比较模型。

为了表示语言，数据集使用了 ISO 639-3 标准，并附带书写系统标识，例如，`eng_Latn` 代表使用拉丁字母的英语，`rus_Cyrl` 代表使用西里尔字母的俄语^[5]。

应用与意义

FLORES-200 已成为评估多语言机器翻译系统的关键标准。它被用于评估 Meta 的旗舰模型 — NLLB-200。在 FLORES-200 上的测试表明，与先前的顶尖系统相比，NLLB-200 在 BLEU 指标上的翻译质量平均提高了 44%^[6]。对于一些非洲和印度的语言，准确率的提升超过了 70%^[4]。

Meta 公司已根据 Creative Commons BY-SA 4.0 许可证开放了该数据集及其使用工具的自由访问权限。因此，FLORES-200 迅速得到广泛应用，并成为科学研究、机器翻译竞赛（如 WMT）和语言保护倡议中的事实标准。2023 年，OLDI（Open Language Data Initiative）社区开始以 FLORES+ 的名义扩展该语料库^[2]。

外部链接

参考文献

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

注释

↑ «FLoRes-200 Dataset». Papers With Code. [1]
↑ ^2.0 ^2.1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]
↑ Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]
↑ ^4.0 ^4.1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]
↑ ^5.0 ^5.1 «Muennighoff/flores200». Hugging Face. [5]
↑ Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]

[pwc_flores-1] «FLoRes-200 Dataset». Papers With Code. [1]

[flores_plus-2] 2.0 ^2.1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]

[flores101_paper-3] Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]

[meta_news-4] 4.0 ^4.1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]

[huggingface_flores-5] 5.0 ^5.1 «Muennighoff/flores200». Hugging Face. [5]

[nllb_paper-6] Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]

[1]

[2]

[3]

[4]

[5]

[6]

FLORES-200 — FLORES-200（多语言翻译基准）

Contents

背景与创建

组成与结构

应用与意义

外部链接

参考文献

注释

Navigation menu

FLORES-200 — FLORES-200（多语言翻译基准）

背景与创建

组成与结构

应用与意义

外部链接

参考文献

注释

Navigation menu

Search