IAs são aprovadas em 7 de 10 problemas de matemática

O resultado, anunciado na semana passada, surpreendeu: sete dos dez problemas receberam ao menos uma solução correta. Os quatro sistemas usaram principalmente o GPT-5.5 Pro, da OpenAI – presente em três das quatro configurações – e o Gemini 3.1 Pro Preview, do Google. O Claude Opus 4.7, da Anthropic, apareceu como modelo secundário em um dos sistemas.

Algumas foram classificadas como “impecáveis.” Em um caso, o modelo usou uma estratégia diferente da humana e impressionou os avaliadores.

Por que matemáticos criaram seu próprio teste

A iniciativa surgiu da insatisfação com a narrativa das empresas de tecnologia. As companhias anunciam conquistas, mas verificar as soluções é difícil e os modelos são inconsistentes.

“Não escreve da forma como nós escrevemos – de certa forma, não escreve de maneira honesta”, disse Martin Hairer, matemático do Imperial College London e vencedor da Medalha Fields, ao Washington Post.

Humanos como alpinistas, IA como saltadores

Terry Tao, outro medalhista Fields e professor da Universidade da Califórnia em Los Angeles, encontrou uma analogia precisa para a diferença.

Especialistas humanos são como alpinistas: exploram o terreno com paciência, identificam submetas e se ajudam mutuamente. Os sistemas de IA seriam “saltadores” – capazes de atingir alturas que humanos não atingiriam de uma vez, mas que não falham com elegância. Uma tentativa fracassada da IA raramente oferece algo aproveitável para o próximo passo.

O que a IA ainda não sabe fazer

O ponto crítico, segundo matemáticos, não é resolver problemas, é escolhê-los. Definir o que vale a pena investigar exige julgamento, intuição e percepção do contexto maior da disciplina.

Lauren Williams, professora em Harvard e uma das líderes do First Proof, usou um exemplo simples ao Washington Post: um geólogo poderia perguntar qual é a cor média de uma pedra na Terra. É uma pergunta válida – mas provavelmente não é uma pergunta interessante. A IA não distingue as duas.

Sébastien Bubeck, matemático da OpenAI, concorda: os modelos resolvem, mas não entendem por que estão resolvendo – nem qual o papel daquele problema no programa maior da matemática.

2.300 matemáticos assinam manifesto

Em paralelo aos testes, matemáticos lançaram a Declaração de Leiden – manifesto internacional com mais de 2.300 signatários que estabelece diretrizes para o uso ético e transparente da IA na área.

A declaração reconhece o potencial da tecnologia, mas aponta riscos: os modelos não creditam as ideias que utilizam, e as empresas promovem sucessos sem transparência sobre os casos de falha.

O contexto: o problema de 80 anos

Em maio, a OpenAI anunciou que um modelo havia refutado uma conjectura de Paul Erdős sem solução há 80 anos. O resultado foi chamado de “solução espetacular” pelo matemático de Princeton Noga Alon.

O First Proof surge como resposta organizada da comunidade científica: em vez de reagir aos anúncios das empresas, os matemáticos passaram a definir seus próprios critérios de avaliação.

Olhar Digital

IAs são aprovadas em 7 de 10 problemas de matemática

Publicidade

Por que matemáticos criaram seu próprio teste

Humanos como alpinistas, IA como saltadores

O que a IA ainda não sabe fazer

2.300 matemáticos assinam manifesto

O contexto: o problema de 80 anos

Compartilhe essa Notícia:

publicidade

publicidade

Publicidade

ÚLTIMAS NOTÍCIAS

Acesso chinês ao Mythos teria motivado bloqueio da Casa Branca

Exame de sangue detecta doenças genéticas no feto sem agulha

Lula sanciona novo marco legal do transporte público coletivo urbano. Confira o que muda