fbpx

O Desempenho do LLM foi estável nos cuidados primários e de emergência, e em todas as especialidades médicas, mas teve dificuldades com diagnósticos diferenciais, de acordo com nova pesquisa do Mass General Brigham.

Este artigo é uma tradução direta do POST de Andrea Fox no blog healthcareitnews.com.

Colocando o ChatGPT à prova para ver se a IA pode funcionar durante todo um encontro clínico com um paciente – recomendando uma investigação diagnóstica, decidindo um curso de ação e fazendo um diagnóstico final – os pesquisadores do Mass General Brigham descobriram que o LLM (Large Language Model é a tecnologia de IA utilizada pelo ChatGPT) tem “impressionante precisão” apesar das limitações, incluindo possíveis alucinações.

Por que isso é importante?

Pesquisadores do Centro de Inovação em Pesquisa Operacional da MGB treinaram o ChatGPT, em todas as 36 vinhetas clínicas publicadas do manual clínico da Merck Sharpe & Dohme e compararam sua precisão em diagnósticos diferenciais, testes de diagnóstico, diagnóstico final e manejo com base na idade do paciente, sexo e acuidade do caso. 

“Não existem referências reais, mas estimamos que esse desempenho esteja no nível de alguém que acabou de se formar na faculdade de medicina, como um estagiário ou residente”, disse em um comunicado Dr. Marc Succi, que é presidente associado de inovação e comercialização e líder de inovação estratégica da MGB e diretor executivo do Grupo de Pesquisa de Inovação em Operações da Incubadora MESH, ou MESH IO.

Os pesquisadores disseram que o ChatGPT alcançou uma precisão geral de 71,7% na tomada de decisões clínicas em todas as 36 vinhetas clínicas. ChatGPT apresentou possíveis diagnósticos e fez diagnósticos finais e decisões de gestão de cuidados.

Eles mediram a precisão em diagnóstico diferencial, testes diagnósticos, diagnóstico final e manejo em um processo cego estruturado, concedendo pontos para respostas corretas às perguntas feitas. Os pesquisadores então usaram a regressão linear para avaliar a relação entre o desempenho do ChatGPT e as informações demográficas da vinheta, de acordo com o  estudo publicado na semana passada no  Journal of Medical Internet Research.

O ChatGPT provou ser o melhor no diagnóstico final, onde a IA teve 77% de precisão no estudo, financiado em parte pelo Instituto Nacional de Ciências Médicas Gerais. 

Teve o desempenho mais baixo na realização de diagnósticos diferenciais, onde teve apenas 60% de precisão, e nas decisões de gestão clínica, com desempenho inferior a 68% de precisão com base nos dados clínicos nos quais o LLM foi treinado.

“O ChatGPT lutou com o diagnóstico diferencial, que é a essência da medicina quando um médico precisa descobrir o que fazer”, disse Succi. “Isso é importante porque nos diz onde os médicos são verdadeiramente especialistas e agregam mais valor – nas fases iniciais do atendimento ao paciente com pouca informação apresentada, quando é necessária uma lista de possíveis diagnósticos”. 

Antes que ferramentas como o ChatGPT possam ser consideradas para integração nos cuidados clínicos, são necessárias mais pesquisas de referência e orientações regulatórias, de acordo com o MGB. Em seguida, o MESH IO está analisando se as ferramentas de IA podem melhorar o atendimento e os resultados dos pacientes em áreas com recursos limitados dos hospitais.

A maior tendência

Embora a maioria das ferramentas ChatGPT criadas em tecnologia de saúde se concentrem em reduzir o esgotamento médico, simplificando tarefas de documentação ou pesquisando dados e respondendo a perguntas de pacientes, uma das maiores considerações que a indústria enfrenta com a IA é a confiança, de acordo com o Dr. Blackford Middleton, consultor independente e ex-diretor de informações médicas da Stanford Health Care.

Para convencer os médicos das organizações prestadoras de cuidados de saúde a confiar num sistema de IA que os sistemas de saúde pretendem implementar, a transparência é fundamental. A capacidade de fornecer feedback também é essencial, “como uma vigilância pós-comercialização de medicamentos”,  quando a IA está envolvida na tomada de decisões para que os desenvolvedores possam ajustar os sistemas, disse Middleton no  HIMSSCast  em junho. 

Saber quais são os dados de treinamento e os ciclos de atualização por trás do LLM é vital porque a tomada de decisões clínicas com IA é um campo “verde”. 

No entanto, disse ele: “A minha convicção é que teremos – no cenário de prestação de cuidados de saúde – muitos sistemas a funcionar simultaneamente”.

No registro

“O Mass General Brigham vê uma grande promessa para os LLMs para ajudar a melhorar a prestação de cuidados e a experiência clínica”, disse o Dr. Adam Landman, diretor de informação e vice-presidente sênior de digital da MGB e coautor do estudo, em um comunicado.

Este artigo é uma tradução direta do POST de Andrea Fox no blog healthcareitnews.com