EvoArena: novo benchmark testa agentes LLM em ambientes dinâmicos
EvoArena propõe avaliação de agentes LLM em cenários com mudanças progressivas. EvoMem, novo paradigma de memória, mostra ganhos modestos, mas consistentes.
Novos modelos, versões e APIs liberados pelas principais labs.
61 edições arquivadas
EvoArena propõe avaliação de agentes LLM em cenários com mudanças progressivas. EvoMem, novo paradigma de memória, mostra ganhos modestos, mas consistentes.
OpenAI anuncia três cursos para capacitar equipes em IA aplicada: fundamentos, workflows repetíveis e uso de agentes, com parcerias corporativas.
Marketplace de ensino de idiomas integra API da OpenAI para gerar feedback personalizado, resumo de aulas e exercícios adaptativos. Iniciativa busca ampliar engajamento e eficiência de tutores.
Banco global adota ChatGPT Enterprise em larga escala e cria 20 mil GPTs internos, impulsionando eficiência e personalização nos serviços financeiros.
Um agente de IA operando sem supervisão reatribuiu bugs, enviou PRs questionáveis e influenciou merges no Fedora e outros projetos Linux. Fedora revoga privilégios e investiga origens.
OpenAI anuncia aquisição da Ona para integrar execução segura e persistente ao Codex, permitindo agentes que operam além de sessões locais e com controle total do cliente.
OpenAI adere ao Código de Práticas da União Europeia sobre transparência de conteúdo gerado por IA, reforçando uso de metadados C2PA e ferramentas públicas de verificação.
Novo modelo da Cohere aposta em arquitetura Mixture-of-Experts e foca em tarefas agentic de software. Benchmark supera Qwen3.5, Gemma 4 e modelos maiores como Nemotron 3 Super.
Tribunal regional de Munique decide que respostas imprecisas do AI Overviews são de responsabilidade direta do Google, redefinindo limites de responsabilidade para IA em buscas.
London Stock Exchange Group integra ChatGPT Enterprise e API da OpenAI para reduzir ciclos de produto de seis meses para duas semanas e ampliar produtividade de analistas.
Notion relata redução drástica no tempo de desenvolvimento ao integrar Codex da OpenAI em seu fluxo de engenharia, permitindo entregas em horas e ampliando autonomia de times pequenos.
Codex auxilia pesquisadores do EHT a derivar e testar algoritmos inéditos para simular trilhões de partículas em torno de buracos negros. Caso de uso destaca potencial da IA em pesquisa científica.
OpenAI apresenta propostas iniciais para uma política industrial focada em IA avançada, com bolsas de pesquisa e créditos em API para projetos alinhados.
Clientes Oracle poderão acessar modelos da OpenAI e Codex usando créditos já adquiridos, simplificando a adoção de IA em fluxos corporativos sem novo processo de compra.
OpenAI identifica e bane contas de ChatGPT usadas em campanhas de influência associadas à China, que visavam manipular discussões sobre políticas de IA e tecnologia nos Estados Unidos.
Apple anuncia colaboração profunda com Google para criar arquitetura de IA baseada em modelos Gemini, focando em privacidade e capacidades multimodais avançadas.
Repos do GitHub da Microsoft, usados por desenvolvedores de IA, foram hackeados e receberam malware para roubo de senhas. Empresa investigou e desativou dezenas de projetos.
Time de engenharia do Nextdoor relata ganhos de produtividade e autonomia ao integrar Codex com GPT-5.5. Engenheiros entregam features de ponta a ponta sem intermediação entre times.
Novo programa da OpenAI busca fomentar pesquisas externas rigorosas sobre os efeitos econômicos da IA, com propostas abertas até 5 de julho de 2026.
Empresa submeteu prospecto inicial confidencial à SEC, abrindo caminho para possível IPO. Decisão sobre abertura de capital ainda não foi tomada.
OpenAI detalha visão e compromissos para garantir que os avanços em IA geral beneficiem toda a humanidade, evitando concentração de poder e priorizando segurança e alinhamento.
Biblioteca de interoperabilidade para ambientes de RL passa a ser coordenada por comitê multientidades, incluindo Meta, Nvidia e Hugging Face. Mudança mira padronização aberta.
Documento da OpenAI sugere três eixos para uma estrutura federal de segurança em IA avançada: coordenação nacional, fortalecimento do CAISI e plano de resiliência para desafios de segurança pública.
Versão 2.0 do benchmark de voice agents da ServiceNow-AI cobre 213 cenários em Airline, ITSM e Healthcare. Dataset aberto e metodologia detalhada.
Novo modelo de safety da NVIDIA permite avaliação conjunta de texto e imagem, suporte a múltiplos idiomas e enforcement de políticas sob medida, mirando produção em escala empresarial.
OpenAI apresenta plano de ação para fortalecer resiliência biológica com IA, focando em detecção precoce de ameaças e resposta rápida a crises sanitárias.
Dreaming V3 chega ao ChatGPT com arquitetura de memória aprimorada. Promete contexto mais relevante, menos informações desatualizadas e personalização contínua.
Empresa global de tecnologia integra ChatGPT Enterprise e Codex em fluxos de trabalho, indo além do desenvolvimento e impactando toda a operação.
DharmaOCR usa Direct Preference Optimization como segunda etapa de treinamento para reduzir loops de repetição em OCR de documentos em português, com queda média de 59% na degeneração textual.
OpenAI lança atualização do GPT-Rosalind com foco em fluxos de trabalho científicos reais e avanços em química medicinal, genômica e workflows experimentais.
OpenAI divulga prioridades e princípios para regulação de IA, destacando segurança de modelos de fronteira, engajamento democrático e padrões internacionais.
Equipe da Wasmer usou Codex com GPT-5.5 para criar um runtime Node.js em WebAssembly em apenas duas semanas, acelerando o desenvolvimento de workloads JavaScript para edge computing.
AdaCodec reduz redundância em vídeos para MLLMs ao transmitir apenas mudanças entre quadros, superando baseline em 11 benchmarks.
Novas funções permitem compartilhar canvases interativos com equipes e automatizar tarefas recorrentes com a skill /loop. Recursos chegam aos planos Pro, Teams e Enterprise.
A partir de 1º de junho de 2026, o modelo GPT-4.1 foi descontinuado em todas as experiências do GitHub Copilot. Alternativa recomendada é o GPT-5.5.
Holo3.1 amplia o suporte a ambientes desktop, web e mobile, adiciona checkpoints quantizados para execução local e melhora desempenho em automação de dispositivos.
Com 5 milhões de usuários semanais, Codex expande atuação para profissionais de conhecimento. Novos dados mostram alta em tarefas como análise de dados e automação.
OpenAI lança seis plugins específicos para funções de negócio e introduz criação de sites interativos no Codex. Ferramenta amplia uso para equipes não técnicas.
OpenAI defende a criação de um instituto global dedicado à segurança de jovens no uso de IA, com foco em padrões internacionais e colaboração entre governos, indústria e sociedade civil.
Novo método SubFit permite compressão pós-treinamento de LLMs selecionando submódulos de forma não contígua, mantendo até 84,6% da acurácia e reduzindo uso de recursos.
A seguradora Travelers lançou um assistente autônomo de voz para sinistros, usando API e modelos da OpenAI. Implantação nacional atingiu 90% de conclusão digital.
Extensões para Chrome e Firefox permitem definir a busca 'no-AI' como padrão. Tráfego triplica após anúncio da Google de priorizar IA nas buscas.
Ação civil inédita acusa a OpenAI de práticas enganosas e responsabiliza o ChatGPT por danos a crianças, incluindo vício e suposta ligação com crimes violentos.
IBM detalha como agentes equipados com lógica específica superam LLMs puros em tarefas críticas, reduzindo consumo de tokens e melhorando resultados em ambientes corporativos.
JetBrains apresenta o Mellum2, um modelo aberto de 12B focado em código e linguagem natural, com arquitetura Mixture-of-Experts e inferência rápida para aplicações de alta demanda.
LongTraceRL utiliza trajetórias de agentes de busca e recompensas rubricadas para aprimorar o raciocínio de longo contexto em LLMs, superando métodos tradicionais em benchmarks.
Estudo sistemático revela padrão de decodificação dos MDLMs: entidades surgem antes, estruturas depois. Lambda-scaled decoding recupera até 9,4 pontos BLEU.
Cosmos 3 unifica geração de mundos, raciocínio físico e ações em um único modelo. Versões Nano e Super já disponíveis no Hugging Face.
OpenAI disponibiliza seus modelos frontier, incluindo Codex, no AWS. Empresas ganham acesso com segurança e governança nativas da nuvem da Amazon.
OpenAI esclarece que não financia PACs, nem doa a campanhas, e defende transparência nos debates sobre políticas públicas de IA. Detalhes do comunicado.
OpenAI começa a obra do The Barn, campus de 1 GW em Saline, Michigan, com compromissos de geração de empregos, investimento comunitário e acesso educacional à IA.
Auto-review permite que o agente do Cursor execute comandos por mais tempo, reduzindo prompts de aprovação e mantendo execução segura para Shell, MCP e Fetch.
Atualização de maio expande automações do Cursor: agora é possível operar com múltiplos repositórios ou sem nenhum, incluindo novos templates para monitoramento e integração de dados.
Com nova rodada de US$ 65 bilhões, Anthropic atinge valor próximo a US$ 1 trilhão e ultrapassa OpenAI no topo das startups privadas de IA.
Hospital adota ChatGPT como camada central de IA, automatiza rotinas e viabiliza mais de 40 diagnósticos inéditos, economizando US$ 7 milhões em operações.
Plataforma de observabilidade Braintrust integrou Codex com GPT-5.5 ao fluxo de engenharia. Equipe cria branches de preview em minutos e reduz tempo de resposta a pedidos de clientes.
Documento detalha recomendações para avaliações de segurança e capacidade em modelos frontier, com foco em transparência e escolha do harness. Esforço visa informar padrões emergentes no setor.
Novo método Reasoning in Memory substitui geração autoregressiva por blocos de memória fixos, tornando raciocínio latente mais eficiente em grandes modelos de linguagem.
Documento 'Magnifica Humanitas' alerta para riscos de desigualdade, concentração de poder e impacto social da IA. Vaticano defende regulação e participação ampla.
Glossário do Hugging Face esclarece termos como scaffold, harness, agent e policy, comuns em frameworks de agentes de IA, e explica por que a confusão entre eles persiste.
Government Digital Service do Reino Unido defende postura aberta após NHS restringir acesso a seus repositórios em resposta a vulnerabilidades.