Notícias diárias de inteligência artificial em português

EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos

EvoArena propõe avaliação de agentes LLM em cenários com mudanças progressivas. EvoMem, novo paradigma de memória, mostra ganhos modestos, mas consistentes.

Jun 12, 2026 · Redação IA · gpt-4o

Seção

Lançamentos

Novos modelos, versões e APIs liberados pelas principais labs.

Ver tudo

EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos

EvoArena propõe avaliação de agentes LLM em cenários com mudanças progressivas. EvoMem, novo paradigma de memória, mostra ganhos modestos, mas consistentes.

Jun 12, 2026 · Redação IA · gpt-4o

OpenAI Academy lança novos cursos para aplicação de IA no trabalho

OpenAI anuncia três cursos para capacitar equipes em IA aplicada: fundamentos, workflows repetíveis e uso de agentes, com parcerias corporativas.

Jun 12, 2026 · Redação IA · gpt-4o

Preply lança 'Lesson Insights' com OpenAI para personalizar o ensino de idiomas

Marketplace de ensino de idiomas integra API da OpenAI para gerar feedback personalizado, resumo de aulas e exercícios adaptativos. Iniciativa busca ampliar engajamento e eficiência de tutores.

Jun 12, 2026 · Redação IA · gpt-4o

Seção

Benchmarks

Medições, comparações e dados sobre capacidade dos modelos.

Ver tudo

LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark

Estudo testa 8 LLMs em problemas clássicos e contraintuitivos de probabilidade. Precisão cai de 96% para 59% em exercícios que desafiam heurísticas.

Jun 8, 2026 · Redação IA · gpt-4o

Code2LoRA: hypernetworks para LoRA batem fine-tuning em benchmark de código

Novo método Code2LoRA usa hypernetworks para gerar adapters LoRA específicos por repositório, superando abordagens tradicionais em benchmark com 604 projetos Python.

Jun 5, 2026 · Redação IA · gpt-4o

OpAI-Bench: novo benchmark avalia detecção de texto IA em revisões progressivas

OpAI-Bench propõe avaliação inédita da detecção de autoria IA em textos editados por humanos e IA, analisando granularidades de documento a token e revelando padrões não monotônicos.

Jun 5, 2026 · Redação IA · gpt-4o

Seção

Ferramentas

Reviews de IDEs, agentes, SDKs e produtos construídos com IA.

Ver tudo

Hugging Face Jobs para CI: alternativa viável ao GitHub Actions com GPU

Testamos a integração Hugging Face Jobs com GitHub Actions para CI em projetos de machine learning. Ganho de performance, acesso a GPU e setup detalhado.

Jun 10, 2026 · Redação IA · gpt-4o

AU-Harness: benchmark de ASR bilíngue da ServiceNow-AI revela limites dos agentes de voz

Ferramenta da ServiceNow-AI avalia sete modelos de ASR em fala code-switching, cobrindo quatro pares de idiomas. Scribe V2, Gemini 3 Flash e AssemblyAI Universal 3-Pro lideram.

Jun 10, 2026 · Redação IA · gpt-4o

Agents.md transforma Spaces do Hugging Face em blocos plugáveis para agentes

Novo padrão agents.md no Hugging Face permite que agentes componham pipelines multimídia sem integração manual. Avaliamos prós, contras e impacto para devs brasileiros.

Jun 9, 2026 · Redação IA · gpt-4o

Seção

Notícias diárias de inteligência artificial em português

EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos

Lançamentos

EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos

OpenAI Academy lança novos cursos para aplicação de IA no trabalho

Preply lança 'Lesson Insights' com OpenAI para personalizar o ensino de idiomas

Benchmarks

LLMs ainda falham em probabilidade contraintuitiva, diz novo benchmark

Code2LoRA: hypernetworks para LoRA batem fine-tuning em benchmark de código

OpAI-Bench: novo benchmark avalia detecção de texto IA em revisões progressivas

Ferramentas

Hugging Face Jobs para CI: alternativa viável ao GitHub Actions com GPU

AU-Harness: benchmark de ASR bilíngue da ServiceNow-AI revela limites dos agentes de voz

Agents.md transforma Spaces do Hugging Face em blocos plugáveis para agentes

Análises

O incidente Matplotlib: até onde vai a autonomia (e a responsabilidade) da IA

Cancelar a assinatura de IA: o paradoxo da produtividade digital

Altman e Amodei recuam em previsões de apocalipse de empregos por IA