MADRID, 3 Ene. (EUROPA PRESS) -
Un nuevo estudio destaca un curioso contraste en la inteligencia artificial médica: mientras que los modelos de IA obtienen excelentes resultados en pruebas estándar, su rendimiento cae abundante cuando se simulan conversaciones reales con pacientes. ¿Qué significa esto para el futuro? ¿De la IA en la medicina?
Según los hallazgos de un nuevo estudio dirigido por investigadores de la Facultad de Medicina de Harvard y la Universidad de Stanford, ambas en Estados Unidos, los modelos de IA tienen tienen un desempeño impresionante en pruebas médicas estandarizadas, pero no funcionan tan en situaciones que imitan más de cerca el mundo real.
Para llegar a estas conclusiones, recogidas en un estudio en 'Nature Medicine', los investigadores diseñaron un marco de evaluación -o una prueba- llamado CRAFT-MD (Marco de evaluación de razonamiento conversacional para pruebas en medicina) y lo implementaron en cuatro modelos de lenguaje grandes para ver qué tan bien se desempeñaban en entornos que imitaban de cerca las interacciones reales con los pacientes.
Los cuatro modelos de lenguaje grande obtuvieron buenos resultados en preguntas de estilo examen médico, pero su desempeño empeoró cuando participaron en conversaciones que imitaban más de cerca las interacciones del mundo real.
Esta brecha, cuentan los investigadores, subraya una doble necesidad: primero, crear evaluaciones más realistas que midan mejor la idoneidad de los modelos de IA clínica para su uso en el mundo real y, segundo, mejorar la capacidad de estas herramientas para realizar diagnósticos basados ??en interacciones más realistas antes de que se implementen en la clínica. Herramientas de evaluación como CRAFT-MD, según el equipo de investigación, no solo pueden evaluar los modelos de IA con mayor precisión para la aptitud física en el mundo real, sino que también podrían ayudar a optimizar su desempeño en la clínica.
"Nuestro trabajo revela una sorprendente paradoja: si bien estos modelos de IA se destacan en los exámenes de la junta médica, tienen dificultades con el intercambio básico de información de una visita al médico", destaca el autor principal del estudio, Pranav Rajpurkar , profesor adjunto de informática biomédica en la Facultad de Medicina de Harvard.
"La naturaleza dinámica de las conversaciones médicas (la necesidad de hacer las preguntas correctas en el momento correcto, de unir información dispersa y de razonar sobre los síntomas) plantea desafíos únicos que van mucho más allá de responder preguntas de opción múltiple. Cuando cambiamos de pruebas estandarizadas a estas conversaciones naturales, incluso los modelos de IA más sofisticados muestran caídas significativas en la precisión del diagnóstico".
CRAFT-MD fue diseñado para ser uno de esos indicadores más realistas. Para simular interacciones del mundo real, CRAFT-MD evalúa la capacidad de los modelos de lenguaje extenso para recopilar información sobre síntomas, medicamentos y antecedentes familiares y luego hacer un diagnóstico. Se utiliza un agente de IA para hacerse pasar por un paciente y responder preguntas en un estilo conversacional y natural.
Otro agente de IA califica la precisión del diagnóstico final emitido por el modelo de lenguaje extenso. Luego, los expertos humanos evalúan los resultados de cada encuentro para determinar la capacidad de recopilar información relevante del paciente, la precisión del diagnóstico cuando se presenta información dispersa y el cumplimiento de las indicaciones.
Los investigadores utilizaron CRAFT-MD para probar cuatro modelos de IA (tanto propietarios o comerciales como de código abierto) para determinar su rendimiento en 2000 viñetas clínicas que presentaban afecciones comunes en atención primaria y en 12 especialidades médicas. Todos los modelos de IA mostraron limitaciones, en particular en su capacidad para mantener conversaciones clínicas y razonar en función de la información proporcionada por los pacientes.
Eso, a su vez, comprometió su capacidad para tomar historias clínicas y emitir diagnósticos apropiados. Por ejemplo, los modelos a menudo tenían dificultades para hacer las preguntas correctas para recopilar la historia clínica pertinente del paciente, pasaban por alto información crítica durante la toma de la historia y tenían dificultades para sintetizar información dispersa.
La precisión de estos modelos disminuyó cuando se les presentó información abierta en lugar de respuestas de opción múltiple. Estos modelos también tuvieron un peor desempeño cuando participaron en intercambios de ida y vuelta, como lo son la mayoría de las conversaciones del mundo real, en lugar de cuando participaron en conversaciones resumidas.
Con base en estos hallazgos, el equipo ofrece un conjunto de recomendaciones tanto para los desarrolladores de IA que diseñan modelos de IA como para los reguladores encargados de evaluar y aprobar estas herramientas.
Entre otras se destaca el uso de preguntas abiertas y conversacionales que reflejen con mayor precisión las interacciones no estructuradas entre médico y paciente en el diseño, la capacitación y la prueba de herramientas de IA; evaluar los modelos por su capacidad de plantear las preguntas correctas y extraer la información más esencial; diseñar modelos capaces de seguir múltiples conversaciones e integrar información de ellas; crear de modelos de IA capaces de integrar datos textuales (notas de conversaciones) y no textuales (imágenes, electrocardiogramas); desarrollar agentes de IA más sofisticados que puedan interpretar señales no verbales como expresiones faciales, tono y lenguaje corporal.
Además, los investigadores recomiendan que la evaluación incluya tanto a agentes de IA como a expertos humanos, ya que depender únicamente de expertos humanos es costoso y requiere mucho trabajo. Por ejemplo, CRAFT-MD superó a los evaluadores humanos, procesando 10.000 conversaciones en 48 a 72 horas, más 15 a 16 horas de evaluación de expertos.
En cambio, los enfoques basados en humanos requerirían un reclutamiento extenso y unas 500 horas para simulaciones de pacientes (casi 3 minutos por conversación) y unas 650 horas para evaluaciones de expertos (casi 4 minutos por conversación). El uso de evaluadores de IA como primera línea tiene la ventaja adicional de eliminar el riesgo de exponer a pacientes reales a herramientas de IA no verificadas.