IA supera 94% dos virologistas em teste difícil criado pela elite da área

Um novo estudo mostra que modelos de IA (inteligência artificial), como ChatGPT e Gemini, são capazes de superar especialistas na resolução de problemas complexos na área de virologia. O trabalho internacional que tem a participação de um pesquisador brasileiro levanta discussões sobre os benefícios e os riscos dessas plataformas.

Se, de um lado, o uso positivo estaria ligado a desenvolver melhores vacinas e medicamentos, de outro, pessoas mal intencionadas teriam um assistente para conseguir manipular vírus e, quem sabe, criara armas biológicas.

Como é o teste

VCT, sigla em inglês para teste de capacidade em virologia, mediu a capacidade das IAs em elementos práticos da área científica. Foram testadas diferentes versões do ChatGPT, do Gemini e do Claude. Elas tinham de solucionar questões propositalmente difíceis relacionadas a metodologias e protocolos feitos em laboratórios.

Teste tinha 322 questões multimodais (com texto e imagem). A IA com melhor desempenho, o OpenAI o3, atingiu 43,8% de precisão nas respostas, superando 94% dos 36 virologistas especialistas, mesmo em suas subáreas de especialização. Enquanto isso, os especialistas atingiram, média, 22% de precisão.

Estudo começou em maio do ano passado. Os pesquisadores analisaram que as versões mais atuais das IAs conseguiram resultados ainda melhores. A pesquisa foi conduzida por cientistas do Center for AI Safety, do MIT Media Lab, da UFABC (Universidade Federal do ABC) e da SecureBio, entidade sem fins lucrativos que atua para prevenir danos biológicos e futuras pandemias.

Estudo foi desenhado para ser muito difícil. Quase 60 especialistas em virologia contribuíram com perguntas para o teste, todos com doutorado, pós-doutorado ou em processo de obter o título. É a elite da área, diz Medeiros, de diferentes países, inclusive do Brasil.

Além da alta dificuldade, as perguntas tinham de ser inéditas. Também deveria haver imagens autorais que contivessem elementos para a resposta que não estivessem no texto e à prova do Google, ou seja, as respostas não podiam ser encontradas online.

Questões foram revisadas por pares duas vezes e por um editor final. Cientistas tiveram o cuidado para a pessoa não revisar a própria pergunta e de forma anônima para garantir a liberdade dos apontamentos na revisão.

Participação humana é um diferencial do estudo. Outros testes usam IA para formular perguntas. No final, as 322 questões foram respondidas por três grupos: um de especialistas em virologia, um de não especialistas (com nível superior de educação em áreas como engenharia e matemática) e outro de inteligências artificiais.