Trinta matemáticos se reuniram em Harvard esta semana para fazer algo incomum: corrigir provas feitas por inteligência artificial. O projeto First Proof testou quatro sistemas de IA em dez problemas que haviam sido resolvidos por humanos, mas nunca publicados.
Continua após a publicidade
O resultado, anunciado na semana passada, surpreendeu: sete dos dez problemas receberam ao menos uma solução correta. Os quatro sistemas usaram principalmente o GPT-5.5 Pro, da OpenAI – presente em três das quatro configurações – e o Gemini 3.1 Pro Preview, do Google. O Claude Opus 4.7, da Anthropic, apareceu como modelo secundário em um dos sistemas.
Algumas foram classificadas como “impecáveis.” Em um caso, o modelo usou uma estratégia diferente da humana e impressionou os avaliadores.
Por que matemáticos criaram seu próprio teste
A iniciativa surgiu da insatisfação com a narrativa das empresas de tecnologia. As companhias anunciam conquistas, mas verificar as soluções é difícil e os modelos são inconsistentes.
“Não escreve da forma como nós escrevemos – de certa forma, não escreve de maneira honesta”, disse Martin Hairer, matemático do Imperial College London e vencedor da Medalha Fields, ao Washington Post.
Humanos como alpinistas, IA como saltadores
Terry Tao, outro medalhista Fields e professor da Universidade da Califórnia em Los Angeles, encontrou uma analogia precisa para a diferença.
Especialistas humanos são como alpinistas: exploram o terreno com paciência, identificam submetas e se ajudam mutuamente. Os sistemas de IA seriam “saltadores” – capazes de atingir alturas que humanos não atingiriam de uma vez, mas que não falham com elegância. Uma tentativa fracassada da IA raramente oferece algo aproveitável para o próximo passo.
O que a IA ainda não sabe fazer
O ponto crítico, segundo matemáticos, não é resolver problemas, é escolhê-los. Definir o que vale a pena investigar exige julgamento, intuição e percepção do contexto maior da disciplina.
Lauren Williams, professora em Harvard e uma das líderes do First Proof, usou um exemplo simples ao Washington Post: um geólogo poderia perguntar qual é a cor média de uma pedra na Terra. É uma pergunta válida – mas provavelmente não é uma pergunta interessante. A IA não distingue as duas.
Sébastien Bubeck, matemático da OpenAI, concorda: os modelos resolvem, mas não entendem por que estão resolvendo – nem qual o papel daquele problema no programa maior da matemática.
2.300 matemáticos assinam manifesto
Em paralelo aos testes, matemáticos lançaram a Declaração de Leiden – manifesto internacional com mais de 2.300 signatários que estabelece diretrizes para o uso ético e transparente da IA na área.
A declaração reconhece o potencial da tecnologia, mas aponta riscos: os modelos não creditam as ideias que utilizam, e as empresas promovem sucessos sem transparência sobre os casos de falha.
O contexto: o problema de 80 anos
Em maio, a OpenAI anunciou que um modelo havia refutado uma conjectura de Paul Erdős sem solução há 80 anos. O resultado foi chamado de “solução espetacular” pelo matemático de Princeton Noga Alon.
O First Proof surge como resposta organizada da comunidade científica: em vez de reagir aos anúncios das empresas, os matemáticos passaram a definir seus próprios critérios de avaliação.










