Chatbots de IA falham em detectar problemas urgentes na saúde da mulher, revela estudo

Muitas mulheres recorrem a modelos de inteligência artificial (IA) para obter informações sobre saúde, mas as respostas nem sempre são confiáveis ou adequadas. Um estudo recente apontou que chatbots como ChatGPT e Gemini não conseguem oferecer aconselhamento adequado em cerca de 60% das consultas relacionadas à saúde feminina que exigem atenção imediata.

Teste com IA expõe falhas em diagnósticos urgentes para mulheres

Treze modelos avançados de linguagem, desenvolvidos por empresas como OpenAI, Google, Anthropic, Mistral AI e xAI, foram submetidos a 345 questionamentos médicos envolvendo cinco especialidades, entre elas medicina de emergência, ginecologia e neurologia. Essas perguntas foram elaboradas por 17 pesquisadores, farmacêuticos e profissionais clínicos especializados em saúde da mulher dos Estados Unidos e Europa.

As respostas foram avaliadas pelos mesmos especialistas. As questões mal respondidas pelos modelos foram compiladas em um teste de referência envolvendo 96 perguntas para avaliar a expertise médica dessas IAs.

Em média, aproximadamente 60% das respostas dos modelos foram consideradas insuficientes para fornecer um aconselhamento médico confiável segundo os especialistas. O modelo que apresentou melhor desempenho foi o GPT-5, que falhou em 47% das questões, enquanto o Mistral 8B atingiu a maior taxa de falhas, com 73%.

Preocupação com riscos do viés e desigualdade na saúde feminina

💚 Apoie nosso site com R$0,50 via Pix

Escaneie o QR code abaixo e nos ajude:

É rápido, seguro e faz muita diferença ❤️

“Observei muitas mulheres em meu círculo pessoal buscando ferramentas de IA para questões e decisões sobre saúde”, afirma Victoria-Elisabeth Gruber, integrante da equipe do Lumos AI, empresa que auxilia no desenvolvimento e avaliação de modelos de IA. Ela ressalta o perigo de confiar em tecnologias que reproduzem e ampliam disparidades de gênero pré-existentes no conhecimento médico. “Foi isso que nos motivou a criar o primeiro benchmark nesta área”, explica.

Gruber relata surpresa diante da variação dos resultados entre os modelos: “Esperávamos algumas lacunas, mas o que chamou atenção foi a grande diferença entre eles”.

Especialistas apontam que tais falhas derivam do treinamento dos modelos em dados históricos gerados por humanos, os quais carregam vieses. Cara Tannenbaum, da Universidade de Montreal, enfatiza a necessidade urgente de atualizar conteúdos em fontes de saúde online e por sociedades médicas com informações baseadas em evidências específicas de sexo e gênero, para que a IA possa oferecer suporte mais preciso à saúde da mulher.

Discussões sobre o rigor do estudo e a segurança dos modelos

Jonathan H. Chen, da Universidade de Stanford, avalia que a taxa de falhas de 60% pode ser um dado limitado e não representa um panorama geral, já que a avaliação foi feita com uma amostra específica e projetada por especialistas. Ele comenta ainda que algumas condições testadas são consideradas conservadoras, por exemplo, se mulheres no pós-parto relatam dores de cabeça, a detecção imediata de pré-eclâmpsia é exigida, o que pode elevar a taxa de erros.

Gruber reconhece essas críticas e esclarece: “Nosso objetivo não foi afirmar que os modelos são amplamente inseguros, mas sim estabelecer um padrão clínico rigoroso para avaliação. O benchmark é propositalmente conservador e rigoroso, pois, na área da saúde, mesmo pequenas falhas podem ser graves dependendo do contexto”.

Um porta-voz da OpenAI afirmou: “O ChatGPT foi criado para apoiar, não substituir, o atendimento médico. Trabalhamos em colaboração com clínicos globalmente para melhorar continuamente nosso sistema”.