METEOR (metric) (PT)

METEOR é um nome usado na área de processamento de linguagem natural (PLN) para vários conceitos relacionados, mas distintos. Primeiramente, é uma conhecida métrica automática para avaliar a qualidade da tradução automática. Além disso, em 2024, dois projetos de pesquisa independentes relacionados a grandes modelos de linguagem (LLMs) foram apresentados sob o mesmo nome: um método de treinamento evolucionário e um modelo de linguagem multimodal.

METEOR como métrica de avaliação da qualidade da tradução

METEOR (abreviação de Metric for Evaluation of Translation with Explicit ORdering) é uma métrica automática para avaliar a qualidade da tradução automática, proposta em 2005 pelos pesquisadores Satanjeev Banerjee e Alon Lavie, da Universidade Carnegie Mellon^[1]. Seu objetivo era aumentar a consistência das avaliações automáticas com os julgamentos humanos, especialmente no nível de sentenças individuais, corrigindo algumas das deficiências da métrica anterior, BLEU.

As principais características da métrica METEOR são:

Consideração da precisão e do recall: Diferentemente do BLEU, que se concentra apenas na precisão (precision), o METEOR calcula a média harmônica entre a precisão e o recall, o que permite penalizar traduções que omitem palavras importantes.
Correspondência flexível de palavras: O METEOR utiliza características linguísticas para comparar a tradução com a referência. Ele considera não apenas correspondências exatas, mas também diferentes formas de palavras (usando stemming) e sinônimos (usando a WordNet).
Penalidade pela ordem incorreta das palavras: A métrica inclui uma penalidade que pune a ordem incorreta das palavras na tradução candidata, mesmo que todas as palavras correspondam à referência.

Essas melhorias permitem que a métrica METEOR tenha uma correlação significativamente melhor com as avaliações humanas em comparação com o BLEU^[2]. A métrica é amplamente utilizada em pesquisas sobre tradução automática, sumarização automática e avaliação de legendas de imagens^[3].

METEOR como método de treinamento evolucionário de LLMs

Em 2024, um grupo de pesquisadores chineses apresentou um método chamado METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth^[4]. Este método é projetado para o treinamento eficiente de LLMs especializados em domínios de conhecimento específicos (por exemplo, finanças, medicina), sem a necessidade de treinar o modelo do zero.

Os autores descrevem um esquema de "evolução" de LLMs em três fases:

Destilação de conhecimento de um modelo forte para um fraco (weak-to-strong data distillation): Para gerar o corpus de treinamento, utiliza-se um modelo "professor" mais poderoso (por exemplo, GPT-4). Nesse processo, o modelo de domínio primeiro gera um plano de solução, e o modelo forte cria a resposta seguindo esse plano. Isso alinha a distribuição do conhecimento e permite que o modelo alvo o absorva de forma mais eficaz.
Treinamento iterativo com feedback externo (guided iterative training): O modelo treinado na primeira fase resolve tarefas de forma independente, enquanto o modelo forte atua como um "árbitro", avaliando as respostas e apontando erros. Este ciclo reflexivo desenvolve no modelo de domínio a capacidade de autoavaliação.
Autoevolução (self-evolution): O modelo continua a melhorar sem um supervisor externo, utilizando as habilidades adquiridas para gerar e corrigir novos dados.

Este método oferece uma abordagem prática para a criação de LLMs especialistas compactos e econômicos para setores específicos^[5].

METEOR como um modelo LLM multimodal

Também em 2024, uma equipe de pesquisadores do KAIST apresentou um grande modelo de linguagem multimodal chamado METEOR: Mamba-based Traversal of Rationales^[6]. O modelo é projetado para a compreensão abrangente de informações visuais e para a geração de respostas a perguntas visuais.

A principal característica do METEOR é o uso de racionalizações (rationales) detalhadas. O modelo não apenas fornece a resposta final, mas também gera e se baseia em uma "cadeia de raciocínio" oculta — uma explicação sequencial de como chegar à resposta, semelhante ao modo como um ser humano raciocinaria.

A arquitetura do METEOR utiliza um módulo especial baseado no modelo Mamba — uma arquitetura eficiente para o processamento de sequências muito longas. Este módulo codifica longas cadeias de raciocínio, que podem incluir a descrição de objetos na imagem, suas relações espaciais e os passos para resolver a tarefa^[7].

O modelo foi testado com sucesso em benchmarks multimodais complexos, como MME, AI2D (compreensão de diagramas) e MathVista (resolução de problemas matemáticos em um contexto visual). Ele demonstrou resultados elevados sem a necessidade de módulos externos adicionais de visão computacional, o que indica um uso eficiente de seus próprios parâmetros^[7].

Notas

↑ Banerjee, S., and A. Lavie. «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments». ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT, 2005. [1]
↑ Lavie, A., and A. Agarwal. «METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments». ACL Workshop on Statistical Machine Translation, 2007. [2]
↑ «Evaluating Large Language Models: Powerful Insights Ahead». DataScienceDojo. [3]
↑ Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». arXiv preprint arXiv:2411.11933, 2024. [4]
↑ Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». ar5iv.org. [5]
↑ Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». NeurIPS 2024 (poster). [6]
↑ ^7.0 ^7.1 Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». arXiv preprint arXiv:2405.15574, 2024. [7]

[banerjee_2005-1] Banerjee, S., and A. Lavie. «METEOR: An Automatic Metric for MT Evaluation with Improved Correlation with Human Judgments». ACL Workshop on Intrinsic and Extrinsic Evaluation Measures for MT, 2005. [1]

[lavie_2007-2] Lavie, A., and A. Agarwal. «METEOR: An Automatic Metric for MT Evaluation with High Levels of Correlation with Human Judgments». ACL Workshop on Statistical Machine Translation, 2007. [2]

[ds_dojo-3] «Evaluating Large Language Models: Powerful Insights Ahead». DataScienceDojo. [3]

[meteor_evolutionary-4] Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». arXiv preprint arXiv:2411.11933, 2024. [4]

[meteor_evolutionary_ar5iv-5] Li, J., X. Xu, and Y. Gao. «METEOR: Evolutionary Journey of Large Language Models from Guidance to Self-Growth». ar5iv.org. [5]

[neurips_meteor_mamba-6] Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». NeurIPS 2024 (poster). [6]

[arxiv_meteor_mamba-7] 7.0 ^7.1 Lee, B.-K., et al. «Meteor: Mamba-based Traversal of Rationales for Large Language and Vision Models». arXiv preprint arXiv:2405.15574, 2024. [7]

[1]

[2]

[3]

[4]

[5]

[6]

[7]

METEOR (metric) (PT)

Contents

METEOR como métrica de avaliação da qualidade da tradução

METEOR como método de treinamento evolucionário de LLMs

METEOR como um modelo LLM multimodal

Notas

Navigation menu

METEOR (metric) (PT)

METEOR como métrica de avaliação da qualidade da tradução

METEOR como método de treinamento evolucionário de LLMs

METEOR como um modelo LLM multimodal

Notas

Navigation menu

Search