FLORES-200 (PT)
FLORES-200 é um conjunto de dados de avaliação para tradução automática multilíngue, cobrindo cerca de 200 idiomas do mundo. Foi criado por pesquisadores da Meta como parte do projeto No Language Left Behind (NLLB) e apresentado em 2022. O FLORES-200 é uma extensão do conjunto anterior FLORES-101 e destina-se a avaliar objetivamente a qualidade da tradução, especialmente para línguas de baixos recursos[1].
Uma característica fundamental do conjunto de dados é que todos os textos foram traduzidos por tradutores profissionais, o que garante a alta qualidade das traduções de referência e o torna um padrão confiável para a comparação de sistemas de tradução automática[2].
Histórico e criação do conjunto de dados
A primeira versão, FLORES-101, foi apresentada em 2022 e continha 3001 sentenças da Wikipédia em inglês, traduzidas para 101 idiomas[3]. Esse conjunto preencheu uma lacuna importante na avaliação de sistemas de tradução para línguas com poucos dados.
Em 2022, como parte do projeto No Language Left Behind, a Meta expandiu o corpus para 200 idiomas, criando o FLORES-200[4]. O desenvolvimento enfrentou uma série de dificuldades:
- Muitos dos idiomas adicionados tinham baixa padronização e falta de especialistas bilíngues.
- Parte dos idiomas foi traduzida não diretamente do inglês, mas através de línguas intermediárias (espanhol, francês, russo).
- Para alguns idiomas, foram incluídos diferentes sistemas de escrita (por exemplo, latino e cirílico) para levar em conta seu uso em diferentes comunidades[5].
Composição e estrutura
O corpus FLORES-200 inclui 3001 sentenças, selecionadas de 842 artigos da web e documentos de projetos da Wikimedia. Diferente da primeira versão, as fontes incluem não apenas a Wikipédia, mas também outros projetos como Wikinews, Wikijunior e Wikivoyage. Isso garante uma ampla diversidade temática (notícias, ciência, cultura, viagens), o que permite uma verificação abrangente da qualidade da tradução.
Cada sentença em inglês foi traduzida profissionalmente para ~200 idiomas-alvo, formando um corpus paralelo completamente alinhado. O conjunto é dividido em três partes:
- dev (desenvolvimento) — para o ajuste de modelos.
- devtest (teste intermediário) — para avaliação preliminar.
- test (teste final) — uma parte oculta para uma comparação justa de modelos em competições.
Para designar os idiomas, utiliza-se o padrão ISO 639-3 com a especificação do script, por exemplo, `eng_Latn` para inglês em escrita latina ou `rus_Cyrl` para russo em escrita cirílica[5].
Aplicação e importância
O FLORES-200 tornou-se o padrão fundamental para a avaliação de sistemas multilíngues de tradução automática. Ele foi usado para avaliar o modelo principal da Meta — NLLB-200. Os testes no FLORES-200 mostraram que o NLLB-200 melhorou a qualidade da tradução em uma média de 44% na métrica BLEU em comparação com os melhores sistemas anteriores[6]. Para alguns idiomas da África e da Índia, o aumento na precisão ultrapassou 70%[4].
A Meta forneceu acesso aberto ao conjunto de dados e às ferramentas para seu uso sob a licença Creative Commons BY-SA 4.0. Graças a isso, o FLORES-200 rapidamente ganhou ampla adoção e se tornou o padrão de fato em trabalhos científicos, competições de tradução automática (como a WMT) e iniciativas de preservação de idiomas. Em 2023, a comunidade OLDI (Open Language Data Initiative) começou a expandir o corpus sob o nome FLORES+[2].
Links
Literatura
- Liang, P. et al. (2022). Holistic Evaluation of Language Models (HELM). arXiv:2211.09110.
- Chang, Y. et al. (2023). A Survey on Evaluation of Large Language Models. arXiv:2307.03109.
- Ni, S. et al. (2025). A Survey on Large Language Model Benchmarks. arXiv:2508.15361.
- Biderman, S. et al. (2024). The Language Model Evaluation Harness (lm-eval): Guidance and Lessons Learned. arXiv:2405.14782.
- Kiela, D. et al. (2021). Dynabench: Rethinking Benchmarking in NLP. arXiv:2104.14337.
- Ma, Z. et al. (2021). Dynaboard: An Evaluation‑As‑A‑Service Platform for Holistic Next‑Generation Benchmarking. arXiv:2106.06052.
- Goel, K. et al. (2021). Robustness Gym: Unifying the NLP Evaluation Landscape. arXiv:2101.04840.
- Xu, C. et al. (2024). Benchmark Data Contamination of Large Language Models: A Survey. arXiv:2406.04244.
- Liu, S. et al. (2025). A Comprehensive Survey on Safety Evaluation of LLMs. arXiv:2506.11094.
- Chiang, W.-L. et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
- Boubdir, M. et al. (2023). Elo Uncovered: Robustness and Best Practices in Language Model Evaluation. arXiv:2311.17295.
- Huang, L. et al. (2023). A Survey on Hallucination in Large Language Models. arXiv:2311.05232.
Referências
- ↑ «FLoRes-200 Dataset». Papers With Code. [1]
- ↑ 2.0 2.1 «FLORES+ Translation and Machine Translation Evaluation for the Erzya Language». Proceedings of the Ninth Conference on Machine Translation (WMT24). [2]
- ↑ Goyal, N., et al. «The Flores-101 Evaluation Benchmark for Low-Resource and Multilingual Machine Translation». Transactions of the Association for Computational Linguistics. [3]
- ↑ 4.0 4.1 «New AI Model Translates 200 Languages, Making Technology Accessible to More People». Meta Newsroom. [4]
- ↑ 5.0 5.1 «Muennighoff/flores200». Hugging Face. [5]
- ↑ Costa-jussà, M.R., et al. «No Language Left Behind: Scaling Human-Centered Machine Translation». arXiv:2207.04672. [6]