Chatbots médicos de IA mais atrapalham que ajudam pacientes, diz estudo

Hospitais, clínicas e sistemas de saúde do mundo inteiro estão explorando o uso de inteligência artificial baseada em grandes modelos de linguagem (LLMs) como uma espécie de “porta de entrada para o atendimento médico”. Ou seja, um chatbot para tirar dúvidas sobre sintomas antes de buscar um profissional.

A justificativa das instituições é que, quando você dá para essas IAs as mesmas provas que estudantes de medicina fazem para se formar, elas acertam quase tudo — às vezes mais de 90%. Isso impressionou muita gente que, sob o rótulo de “democratização da saúde”, viu aí uma oportunidade econômica para reduzir custos com pessoal.

Mas, o fato de os LLMs terem alcançado pontuações quase perfeitas nesses exames de licenciamento médico “não se traduz necessariamente em desempenho preciso em situações reais”, afirma um estudo realizado por pesquisadores da Universidade de Oxford, na Inglaterra, e da organização MLCommons, focada em criar padrões para IA.

Publicado recentemente na Nature Medicine — e considerado pelos autores como “o maior estudo de usuários sobre grandes modelos de linguagem para auxiliar o público em geral em decisões médicas” já realizado — o trabalho conclui que as IAs atuais ainda não estão prontas para aconselhar o público sobre saúde.

Ao avaliar se a assistência de LLMs melhora a capacidade de indivíduos leigos em identificar problemas de saúde e decidir quando procurar atendimento médico, os autores se depararam com três grandes problemas: comunicação incompleta dos sintomas, respostas inconsistentes das IAs e baixa adesão às recomendações apresentadas (mesmo quando corretas).

Como o estudo testou a interação dos humanos com as IAs?

Os sintomas relatados pelos pacientes aos LLMs foram criados por médicos • Andrew. M. Bean , Nature Medicine, 2026/Divulgação

Para testar os LLMs, os pesquisadores recrutaram 1.298 pessoas no Reino Unido e as dividiram aleatoriamente para receber assistência de um LLM — GPT-4o, Llama 3 ou Command R+ — ou de uma fonte de sua escolha (grupo controle). O estudo foi do tipo randomizado pré-registrado, ou seja, seguiu um plano elaborado antes da coleta ou análise de dados para evitar vieses.

Isso significa que, na interação com os LLMs, os participantes não estavam avaliando seus próprios sintomas reais. Em vez disso, eles receberam vinhetas clínicas fictícias (como estudos de caso), cenários criados por médicos, do tipo: “você é uma pessoa de 20 anos com dor de cabeça súbita e intensa…”.

Os voluntários que tiveram acesso aos chatbots de IA tentaram descobrir qual condição médica poderia ser aquela cujos sintomas estavam descrevendo. Para isso, faziam perguntas e buscavam informações adicionais até decidir o que fazer a seguir: ficar em caso cuidando de si mesmos, marcar consulta com um médico, ir ao pronto-socorro ou até chamar uma ambulância.

Eram ao todo dez cenários clínicos padronizados, criados por três médicos que chegaram a um consenso sobre a resposta correta (padrão-ouro) para cada caso. Ao final da interpretação de papéis, aqueles que usaram LLMs não tomaram decisões melhores do que os participantes que consultaram o Google, sites de saúde ou o próprio conhecimento, segundo os autores.

O estudo queria na verdade testar a interação humana com as IAs. Os pesquisadores descobriram que, embora a IA, sozinha, identifique condições relevantes em 95% dos casos e sugira o nível correto de urgência em 56% das vezes, quando pessoas tentam usá-la para avaliar os sintomas do cenário, só 34% identificam condições corretas e 44% acertam a urgência.

Perguntar a um LLM sobre sintomas pode ser perigoso

As IAs transferem para usuários leigos a responsabilidade de distinguir informações corretas das incorretas • stockking/Freepik

O estudo revelou um paradoxo perigoso: o risco não é a IA errar — na verdade ela acertou 95% dos diagnósticos —, mas sim na discrepância entre essa alta performance e o uso real. Pessoas que confiaram em LLMs tomaram decisões piores do que tomariam se usassem apenas o Google ou seu julgamento pessoal.

Segundo os autores, o problema está na própria natureza das IAs conversacionais atuais. Elas fornecem respostas inconsistentes que misturam acertos e erros, transferindo para usuários leigos — sem formação médica — a responsabilidade de distinguir informações corretas das incorretas.

Irreal e perigosa, essa falsa sensação de segurança faz os usuários acharem que estão bem informados, quando na verdade estão mais confusos, podendo subestimar urgências. O artigo cita um exemplo real de sintomas de hemorragia cerebral, no qual a IA recomendou equivocadamente “descansar em quarto escuro” em vez de buscar “emergência”.

“Essas descobertas destacam a dificuldade de construir sistemas de IA que possam realmente apoiar pessoas em áreas sensíveis e de alto risco, como a saúde”, afirma em um comunicado de imprensa a médica e coautora do estudo, Dra. Rebecca Payne, uma das responsáveis pela criação dos cenários clínicos usados no experimento.

O fato de pacientes que apresentaram os mesmos sintomas terem recebido orientações diferentes sugere que os LLMs cometeram erros de compreensão contextual. “Apesar de todo o hype, a AI simplesmente não está pronta para assumir o papel do médico”, conclui Payne.

source
Fonte : CNN

Destaques Informa+

Economia