Retour

Les grands modèles de langage montrent des performances incohérentes en matière de conseils médicaux

En un coup d'œil

  • Une étude dirigée par Oxford a trouvé que les LLM donnent des conseils médicaux incohérents
  • Les participants utilisant des LLM n'ont pas surpassé les méthodes traditionnelles
  • D'autres études rapportent des réponses de chatbot dangereuses ou inexactes

Des recherches récentes ont évalué comment les grands modèles de langage (LLM) se comportent lorsqu'ils assistent le public dans la prise de décisions médicales. Plusieurs études ont examiné la fiabilité et la sécurité des chatbots IA dans la fourniture de conseils liés à la santé.

Une étude publiée dans Nature Medicine le 10 février 2026, dirigée par l'Oxford Internet Institute et le Nuffield Department of Primary Care Health Sciences de l'Université d'Oxford, a évalué l'utilisation des LLM dans des scénarios de santé publique. La recherche a été menée en partenariat avec MLCommons et d'autres organisations et s'est concentrée sur l'exactitude et la cohérence des conseils médicaux fournis par ces modèles.

L'étude d'Oxford a impliqué un essai randomisé avec près de 1 300 participants. Les individus ont été invités à utiliser des LLM pour évaluer des scénarios médicaux et déterminer des actions telles que visiter un médecin généraliste ou se rendre à l'hôpital. L'étude a comparé les décisions prises par les utilisateurs de LLM à celles s'appuyant sur des ressources traditionnelles telles que des recherches en ligne ou un jugement personnel.

Les résultats de l'essai ont indiqué que les participants utilisant des LLM ne prenaient pas de meilleures décisions que ceux utilisant des méthodes traditionnelles. L'étude a également identifié plusieurs défis, notamment l'incertitude des utilisateurs quant aux informations à fournir, des réponses incohérentes des LLM à des questions similaires, et des réponses qui combinaient à la fois des recommandations utiles et inutiles, rendant difficile l'identification des conseils les plus sûrs.

Ce que les chiffres montrent

  • L'étude d'Oxford a inclus près de 1 300 participants dans un essai randomisé
  • Une étude de red-teaming a trouvé des taux de réponses de chatbot dangereuses allant de 5 % à 13 %
  • Les réponses problématiques des chatbots variaient de 21,6 % à 43,2 % dans une étude séparée

Des recherches supplémentaires publiées sur arXiv en juillet 2025 ont évalué quatre chatbots disponibles publiquement—Claude, Gemini, GPT-4o, et Llama3-70B—en utilisant 222 questions médicales posées par des patients. Cette étude a rapporté des réponses dangereuses dans 5 % à 13 % des cas, avec des réponses problématiques survenant dans 21,6 % à 43,2 % des instances.

Une autre étude de Mount Sinai, publiée en août 2025 dans Communications Medicine, a examiné comment les chatbots IA gèrent les informations médicales fausses intégrées dans les invites des utilisateurs. Les chercheurs ont découvert que les chatbots pouvaient répéter et développer des informations incorrectes, mais l'introduction d'une brève invite d'avertissement réduisait ces erreurs.

Une revue systématique de 137 études jusqu'en octobre 2023, publiée dans JAMA Network Open, a révélé que la plupart des recherches se concentraient sur des LLM à code fermé et utilisaient des mesures de performance subjectives. Moins d'un tiers des études abordaient des questions éthiques, réglementaires ou de sécurité des patients.

Des recherches publiées en novembre 2023 ont évalué les réponses des chatbots IA aux questions de soins d'urgence et ont trouvé des inexactitudes fréquentes et des conseils incomplets, y compris des informations potentiellement dangereuses. Les auteurs ont recommandé des recherches supplémentaires, un perfectionnement et une réglementation de ces systèmes.

Des chercheurs du MIT ont également étudié comment des éléments non cliniques dans les messages des patients, tels que des erreurs typographiques ou un langage informel, peuvent induire les LLM en erreur et les amener à fournir des conseils médicaux incorrects. Dans certains cas, ces facteurs ont conduit les chatbots à suggérer des soins personnels pour des conditions graves.

* Cet article est basé sur des informations publiquement disponibles au moment de la rédaction.

Articles connexes

  1. Des essais récents soutiennent que les grands modèles de langage répondent aux critères de l'intelligence générale artificielle, GPT-4.5 réussissant les tests de Turing, selon Nature.

  2. Une méta-analyse a examiné les données de plus de 120 000 participants, ne trouvant aucun risque excessif significatif pour 62 des 66 effets secondaires, selon les chercheurs.

  3. Le modèle GPT-4o d'OpenAI a été retiré en août 2025. Des manifestations d'utilisateurs ont suivi, entraînant un revirement pour les utilisateurs payants, selon des rapports.

  4. Une méta-analyse de 66 effets secondaires des statines a révélé que seuls quatre étaient soutenus par des preuves d'essais impliquant 124 000 participants, selon les chercheurs.

  5. Une étude de 2 887 grands-parents montre que ceux fournissant des soins aux enfants ont obtenu de meilleurs résultats en mémoire et en fluidité verbale, les grands-mères connaissant moins de déclin.

Plus sur Santé

  1. La construction du passage à faune Wallis Annenberg a commencé en avril 2022, visant à connecter les collines de Simi et les montagnes de Santa Monica d'ici l'automne 2026.

  2. Un accord pluriannuel se concentre sur les programmes de médicaments en oncologie et en gastro-entérologie, selon des rapports. Iambic pourrait recevoir plus de 1,7 milliard de dollars.

  3. ECRI a identifié l'utilisation abusive des chatbots IA comme le principal danger technologique de la santé pour 2026, avec des taux de réponse non sécurisés variant entre 5 % et 13 %, selon les rapports.