FLORES‑200
FLORES-200 — это оценочный набор данных для многоязычного машинного перевода, охватывающий около 200 языков мира. Он был создан исследователями компании Meta в рамках проекта No Language Left Behind (NLLB) и представлен в 2022 году. FLORES-200 является расширением предыдущего набора FLORES-101 и предназначен для объективной оценки качества перевода, особенно на малоресурсных языках[1].
Ключевой особенностью датасета является то, что все тексты были переведены профессиональными переводчиками, что обеспечивает высокое качество эталонных переводов и делает его надёжным стандартом для сравнения систем машинного перевода[2].
Предыстория и создание набора
Первая версия, FLORES-101, была представлена в 2022 году и содержала 3001 предложение из англоязычной Википедии, переведённое на 101 язык[3]. Этот набор заполнил важный пробел в оценке систем перевода для языков с малым количеством данных.
В 2022 году в рамках проекта No Language Left Behind компания Meta расширила корпус до 200 языков, создав FLORES-200[4]. Разработка столкнулась с рядом трудностей:
- Многие добавленные языки имели низкую стандартизацию и недостаток двуязычных специалистов.
- Часть языков была переведена не напрямую с английского, а через языки-посредники (испанский, французский, русский).
- Для некоторых языков были включены разные системы письменности (например, латиница и кириллица), чтобы учесть их использование в разных сообществах[5].
Состав и структура
Корпус FLORES-200 включает 3001 предложение, отобранное из 842 различных веб-статей и документов проектов Wikimedia. В отличие от первой версии, источники включают не только Википедию, но и другие проекты, такие как Wikinews, Wikijunior и Wikivoyage. Это обеспечивает широкое тематическое разнообразие (новости, наука, культура, путешествия), что позволяет всесторонне проверять качество перевода.
Каждое английское предложение было профессионально переведено на ~200 целевых языков, образуя полностью выровненный параллельный корпус. Набор разбит на три части:
- dev (разработка) — для настройки моделей.
- devtest (промежуточное тестирование) — для предварительной оценки.
- test (финальное тестирование) — скрытая часть для честного сравнения моделей в соревнованиях.
Для обозначения языков используется стандарт ISO 639-3 с указанием скрипта, например, `eng_Latn` для английского на латинице или `rus_Cyrl` для русского на кириллице[5].
Применение и значение
FLORES-200 стал ключевым стандартом для оценки многоязычных систем машинного перевода. Он был использован для оценки флагманской модели от Meta — NLLB-200. Тестирование на FLORES-200 показало, что NLLB-200 улучшила качество перевода в среднем на 44% по метрике BLEU по сравнению с предыдущими лучшими системами[6]. Для некоторых языков Африки и Индии прирост точности превысил 70%[4].
Meta открыла свободный доступ к датасету и инструментам для его использования под лицензией Creative Commons BY-SA 4.0. Благодаря этому FLORES-200 быстро получил широкое распространение и стал де-факто стандартом в научных работах, конкурсах по машинному переводу (например, WMT) и инициативах по сохранению языков. В 2023 году сообщество OLDI (Open Language Data Initiative) начало расширять корпус под названием FLORES+[2].
Ссылки
Литература
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Примечания
- ↑ «FLoRes-200 Dataset». Papers With Code. [1]
- ↑ 2,0 2,1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]
- ↑ Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]
- ↑ 4,0 4,1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]
- ↑ 5,0 5,1 «Muennighoff/flores200». Hugging Face. [5]
- ↑ Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]