FLORES‑200

FLORES-200 — это оценочный набор данных для многоязычного машинного перевода, охватывающий около 200 языков мира. Он был создан исследователями компании Meta в рамках проекта No Language Left Behind (NLLB) и представлен в 2022 году. FLORES-200 является расширением предыдущего набора FLORES-101 и предназначен для объективной оценки качества перевода, особенно на малоресурсных языках^[1].

Ключевой особенностью датасета является то, что все тексты были переведены профессиональными переводчиками, что обеспечивает высокое качество эталонных переводов и делает его надёжным стандартом для сравнения систем машинного перевода^[2].

Предыстория и создание набора

Первая версия, FLORES-101, была представлена в 2022 году и содержала 3001 предложение из англоязычной Википедии, переведённое на 101 язык^[3]. Этот набор заполнил важный пробел в оценке систем перевода для языков с малым количеством данных.

В 2022 году в рамках проекта No Language Left Behind компания Meta расширила корпус до 200 языков, создав FLORES-200^[4]. Разработка столкнулась с рядом трудностей:

Многие добавленные языки имели низкую стандартизацию и недостаток двуязычных специалистов.
Часть языков была переведена не напрямую с английского, а через языки-посредники (испанский, французский, русский).
Для некоторых языков были включены разные системы письменности (например, латиница и кириллица), чтобы учесть их использование в разных сообществах^[5].

Состав и структура

Корпус FLORES-200 включает 3001 предложение, отобранное из 842 различных веб-статей и документов проектов Wikimedia. В отличие от первой версии, источники включают не только Википедию, но и другие проекты, такие как Wikinews, Wikijunior и Wikivoyage. Это обеспечивает широкое тематическое разнообразие (новости, наука, культура, путешествия), что позволяет всесторонне проверять качество перевода.

Каждое английское предложение было профессионально переведено на ~200 целевых языков, образуя полностью выровненный параллельный корпус. Набор разбит на три части:

dev (разработка) — для настройки моделей.
devtest (промежуточное тестирование) — для предварительной оценки.
test (финальное тестирование) — скрытая часть для честного сравнения моделей в соревнованиях.

Для обозначения языков используется стандарт ISO 639-3 с указанием скрипта, например, `eng_Latn` для английского на латинице или `rus_Cyrl` для русского на кириллице^[5].

Применение и значение

FLORES-200 стал ключевым стандартом для оценки многоязычных систем машинного перевода. Он был использован для оценки флагманской модели от Meta — NLLB-200. Тестирование на FLORES-200 показало, что NLLB-200 улучшила качество перевода в среднем на 44% по метрике BLEU по сравнению с предыдущими лучшими системами^[6]. Для некоторых языков Африки и Индии прирост точности превысил 70%^[4].

Meta открыла свободный доступ к датасету и инструментам для его использования под лицензией Creative Commons BY-SA 4.0. Благодаря этому FLORES-200 быстро получил широкое распространение и стал де-факто стандартом в научных работах, конкурсах по машинному переводу (например, WMT) и инициативах по сохранению языков. В 2023 году сообщество OLDI (Open Language Data Initiative) начало расширять корпус под названием FLORES+^[2].

Ссылки

Литература

Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

↑ «FLoRes-200 Dataset». Papers With Code. [1]
↑ ^2,0 ^2,1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]
↑ Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]
↑ ^4,0 ^4,1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]
↑ ^5,0 ^5,1 «Muennighoff/flores200». Hugging Face. [5]
↑ Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]

[pwc_flores-1] «FLoRes-200 Dataset». Papers With Code. [1]

[flores_plus-2] 2,0 ^2,1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]

[flores101_paper-3] Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]

[meta_news-4] 4,0 ^4,1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]

[huggingface_flores-5] 5,0 ^5,1 «Muennighoff/flores200». Hugging Face. [5]

[nllb_paper-6] Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]

[1]

[2]

[3]

[4]

[5]

[6]

FLORES‑200

Содержание

Предыстория и создание набора

Состав и структура

Применение и значение

Ссылки

Литература

Примечания

Навигация

FLORES‑200

Предыстория и создание набора

Состав и структура

Применение и значение

Ссылки

Литература

Примечания

Навигация

Поиск