Benchmarks de julgamento de gramaticalidade
Métrica: Acurácia de classificação de sentenças gramaticais vs. não gramaticais
6 de maio de 2026
| # | Modelo | Score | Δ | |
|---|---|---|---|---|
| 01 | LLM com probe linear interno Generaliza para benchmarks humanos; resultados em múltiplos idiomas | supera probabilidade de string em benchmarks de julgamento gramatical | — | |
| 02 | LLM via probabilidade de string Desempenho melhor em plausibilidade semântica do que o probe | inferior ao probe em gramaticalidade, superior em plausibilidade semântica | — |
Um estudo publicado em 6 de maio de 2026 analisou como modelos de linguagem de grande escala (LLMs) representam gramaticalidade de maneira implícita, indo além da simples probabilidade de string. Os autores, incluindo pesquisadores do MIT e Stanford, investigaram se LLMs internalizam uma distinção gramatical independente das métricas de likelihood normalmente usadas em benchmarks.
Metodologia
O trabalho usou um conjunto de sentenças gramaticais e sentenças sinteticamente corrompidas, obtidas por perturbações em textos naturais. Um probe linear foi treinado para distinguir entre as duas classes, utilizando apenas representações internas dos modelos. O desempenho desse probe foi comparado com julgamentos baseados na probabilidade de string gerada pelo próprio LLM.
Resultados principais
O probe linear generalizou para benchmarks de julgamento gramatical humanos, superando o método tradicional baseado em probabilidade de string. Em tarefas de plausibilidade semântica, onde ambas as frases são gramaticais mas diferem em sentido, o probe teve desempenho inferior à probabilidade de string. Notavelmente, o probe treinado em inglês demonstrou generalização para outros idiomas, superando a métrica de string em múltiplos benchmarks multilingues. A correlação entre os scores do probe e as probabilidades de string foi apenas moderada, sugerindo que os modelos internalizam uma noção de gramaticalidade distinta.
Limitações e próximos passos
Apesar dos avanços, os autores destacam que os probes ainda não capturam nuances semânticas e que a relação entre gramaticalidade e plausibilidade permanece aberta para investigação futura. O estudo reforça que LLMs aprendem sinais gramaticais de forma implícita, mas não necessariamente os separam de outros fenômenos linguísticos.
Mais detalhes e resultados completos estão disponíveis no paper original.