FLORES-200 — FLORES-200
FLORES-200は、世界の約200言語を対象とした多言語機械翻訳のための評価データセットです。Meta社の研究者らによってNo Language Left Behind (NLLB)プロジェクトの一環として作成され、2022年に発表されました。FLORES-200は、先行するFLORES-101データセットの拡張版であり、特に低リソース言語における翻訳品質を客観的に評価することを目的としています[1]。
このデータセットの主な特徴は、すべてのテキストがプロの翻訳者によって翻訳されている点です。これにより、参照翻訳の品質が高く保証され、機械翻訳システムを比較するための信頼性の高い基準となっています[2]。
開発の経緯と構築
最初のバージョンであるFLORES-101は2022年に発表され、英語版ウィキペディアから抽出された3001文を101言語に翻訳したものでした[3]。このデータセットは、データが少ない言語の翻訳システム評価における重要なギャップを埋めました。
2022年、Meta社はNo Language Left Behindプロジェクトの一環として、このコーパスを200言語に拡張し、FLORES-200を構築しました[4]。開発にあたっては、いくつかの困難に直面しました:
- 追加された言語の多くは標準化のレベルが低く、バイリンガルの専門家が不足していました。
- 一部の言語は、英語から直接ではなく、仲介言語(スペイン語、フランス語、ロシア語)を介して翻訳されました。
- 特定の言語については、異なるコミュニティでの使用状況を考慮し、複数の書記体系(例:ラテン文字とキリル文字)が含まれました[5]。
構成と構造
FLORES-200コーパスは、Wikimediaプロジェクトの842のウェブ記事や文書から選ばれた3001文を含んでいます。最初のバージョンとは異なり、ソースにはウィキペディアだけでなく、ウィキニュース、ウィキジュニア、ウィキボヤージュなどの他のプロジェクトも含まれています。これにより、幅広いテーマ(ニュース、科学、文化、旅行)が網羅され、翻訳品質を多角的に検証することが可能になっています。
各英語文は、プロの翻訳者によって約200のターゲット言語に翻訳され、完全にアライメントされたパラレルコーパスを形成しています。データセットは3つの部分に分かれています:
- dev(開発用) — モデルのチューニング用。
- devtest(中間テスト用) — 事前評価用。
- test(最終テスト用) — コンペティションでモデルを公平に比較するための非公開部分。
言語の指定には、書記体系を含むISO 639-3標準が使用されます。例えば、ラテン文字の英語は`eng_Latn`、キリル文字のロシア語は`rus_Cyrl`と表記されます[5]。
応用と重要性
FLORES-200は、多言語機械翻訳システムを評価するための主要な標準となりました。MetaのフラッグシップモデルであるNLLB-200の評価に使用されました。FLORES-200でのテストにより、NLLB-200は先行する最先端システムと比較して、BLEUスコアで平均44%の翻訳品質向上を達成したことが示されました[6]。アフリカやインドの一部の言語では、精度の向上が70%を超えました[4]。
Metaは、このデータセットと関連ツールをCreative Commons BY-SA 4.0ライセンスの下で自由に利用できるよう公開しました。その結果、FLORES-200は急速に普及し、学術研究、機械翻訳コンペティション(例:WMT)、言語保存の取り組みにおける事実上の標準となりました。2023年には、OLDI (Open Language Data Initiative) コミュニティがFLORES+という名称でコーパスの拡張を開始しました[2]。
外部リンク
参考文献
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
脚注
- ↑ «FLoRes-200 Dataset». Papers With Code. [1]
- ↑ 2.0 2.1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]
- ↑ Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]
- ↑ 4.0 4.1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]
- ↑ 5.0 5.1 «Muennighoff/flores200». Hugging Face. [5]
- ↑ Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]