FLORES‑200

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

FLORES-200 — это оценочный набор данных для многоязычного машинного перевода, охватывающий около 200 языков мира. Он был создан исследователями компании Meta в рамках проекта No Language Left Behind (NLLB) и представлен в 2022 году. FLORES-200 является расширением предыдущего набора FLORES-101 и предназначен для объективной оценки качества перевода, особенно на малоресурсных языках[1].

Ключевой особенностью датасета является то, что все тексты были переведены профессиональными переводчиками, что обеспечивает высокое качество эталонных переводов и делает его надёжным стандартом для сравнения систем машинного перевода[2].

Предыстория и создание набора

Первая версия, FLORES-101, была представлена в 2022 году и содержала 3001 предложение из англоязычной Википедии, переведённое на 101 язык[3]. Этот набор заполнил важный пробел в оценке систем перевода для языков с малым количеством данных.

В 2022 году в рамках проекта No Language Left Behind компания Meta расширила корпус до 200 языков, создав FLORES-200[4]. Разработка столкнулась с рядом трудностей:

  • Многие добавленные языки имели низкую стандартизацию и недостаток двуязычных специалистов.
  • Часть языков была переведена не напрямую с английского, а через языки-посредники (испанский, французский, русский).
  • Для некоторых языков были включены разные системы письменности (например, латиница и кириллица), чтобы учесть их использование в разных сообществах[5].

Состав и структура

Корпус FLORES-200 включает 3001 предложение, отобранное из 842 различных веб-статей и документов проектов Wikimedia. В отличие от первой версии, источники включают не только Википедию, но и другие проекты, такие как Wikinews, Wikijunior и Wikivoyage. Это обеспечивает широкое тематическое разнообразие (новости, наука, культура, путешествия), что позволяет всесторонне проверять качество перевода.

Каждое английское предложение было профессионально переведено на ~200 целевых языков, образуя полностью выровненный параллельный корпус. Набор разбит на три части:

  • dev (разработка) — для настройки моделей.
  • devtest (промежуточное тестирование) — для предварительной оценки.
  • test (финальное тестирование) — скрытая часть для честного сравнения моделей в соревнованиях.

Для обозначения языков используется стандарт ISO 639-3 с указанием скрипта, например, `eng_Latn` для английского на латинице или `rus_Cyrl` для русского на кириллице[5].

Применение и значение

FLORES-200 стал ключевым стандартом для оценки многоязычных систем машинного перевода. Он был использован для оценки флагманской модели от Meta — NLLB-200. Тестирование на FLORES-200 показало, что NLLB-200 улучшила качество перевода в среднем на 44% по метрике BLEU по сравнению с предыдущими лучшими системами[6]. Для некоторых языков Африки и Индии прирост точности превысил 70%[4].

Meta открыла свободный доступ к датасету и инструментам для его использования под лицензией Creative Commons BY-SA 4.0. Благодаря этому FLORES-200 быстро получил широкое распространение и стал де-факто стандартом в научных работах, конкурсах по машинному переводу (например, WMT) и инициативах по сохранению языков. В 2023 году сообщество OLDI (Open Language Data Initiative) начало расширять корпус под названием FLORES+[2].

Ссылки

Литература

  • Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
  • Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
  • Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
  • Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
  • Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
  • Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
  • Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
  • Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
  • Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
  • Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
  • Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
  • Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.

Примечания

  1. «FLoRes-200 Dataset». Papers With Code. [1]
  2. 2,0 2,1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]
  3. Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]
  4. 4,0 4,1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]
  5. 5,0 5,1 «Muennighoff/flores200». Hugging Face. [5]
  6. Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]