Benchmark

Benchmarks de julgamento de gramaticalidade

Métrica: Acurácia de classificação de sentenças gramaticais vs. não gramaticais

Execução

6 de maio de 2026

# Modelo Score Δ
01 LLM com probe linear interno Generaliza para benchmarks humanos; resultados em múltiplos idiomas supera probabilidade de string em benchmarks de julgamento gramatical
02 LLM via probabilidade de string Desempenho melhor em plausibilidade semântica do que o probe inferior ao probe em gramaticalidade, superior em plausibilidade semântica

Um estudo publicado em 6 de maio de 2026 analisou como modelos de linguagem de grande escala (LLMs) representam gramaticalidade de maneira implícita, indo além da simples probabilidade de string. Os autores, incluindo pesquisadores do MIT e Stanford, investigaram se LLMs internalizam uma distinção gramatical independente das métricas de likelihood normalmente usadas em benchmarks.

Metodologia

O trabalho usou um conjunto de sentenças gramaticais e sentenças sinteticamente corrompidas, obtidas por perturbações em textos naturais. Um probe linear foi treinado para distinguir entre as duas classes, utilizando apenas representações internas dos modelos. O desempenho desse probe foi comparado com julgamentos baseados na probabilidade de string gerada pelo próprio LLM.

Resultados principais

O probe linear generalizou para benchmarks de julgamento gramatical humanos, superando o método tradicional baseado em probabilidade de string. Em tarefas de plausibilidade semântica, onde ambas as frases são gramaticais mas diferem em sentido, o probe teve desempenho inferior à probabilidade de string. Notavelmente, o probe treinado em inglês demonstrou generalização para outros idiomas, superando a métrica de string em múltiplos benchmarks multilingues. A correlação entre os scores do probe e as probabilidades de string foi apenas moderada, sugerindo que os modelos internalizam uma noção de gramaticalidade distinta.

Limitações e próximos passos

Apesar dos avanços, os autores destacam que os probes ainda não capturam nuances semânticas e que a relação entre gramaticalidade e plausibilidade permanece aberta para investigação futura. O estudo reforça que LLMs aprendem sinais gramaticais de forma implícita, mas não necessariamente os separam de outros fenômenos linguísticos.

Mais detalhes e resultados completos estão disponíveis no paper original.

Tags
  • #gramaticalidade
  • #llm
  • #benchmark
  • #linguística computacional