The adoption of large language models (LLMs) in healthcare demands a careful analysis of their potential to spread false medical knowledge. Because LLMs ingest massive volumes of data from the open Internet during training, they are potentially exposed to unverified medical knowledge that may include deliberately planted misinformation. Here, we perform a threat assessment that simulates a data-poisoning attack against The Pile, a popular dataset used for LLM development. We find that replacement of just 0.001% of training tokens with medical misinformation results in harmful models more likely to propagate medical errors. Furthermore, we discover that corrupted models match the performance of their corruption-free counterparts on open-source benchmarks routinely used to evaluate medical LLMs. Using biomedical knowledge graphs to screen medical LLM outputs, we propose a harm mitigation strategy that captures 91.9% of harmful content (F1=85.7%). Our algorithm provides a unique method to validate stochastically generated LLM outputs against hard-coded relationships in knowledge graphs. In view of current calls for improved data provenance and transparent LLM development, we hope to raise awareness of emergent risks from LLMs trained indiscriminately on web-scraped data, particularly in healthcare where misinformation can potentially compromise patient safety.
Commentaire du Dr Marius Laurent (PAQS)
-
Alber fait une démonstration d’abord effrayante, puis rassurante sur les circonstances qui peuvent conduire les LLM (large language models, ChatGPT en est l’exemple le plus connu) à se tromper, puis sur la possibilité de détecter leurs erreurs dans une large proportion des cas. Les auteurs rappellent que les LLM puisent leur science de la « lecture » d’un immense thésaurus de données. Ce peut être le contenu de bases de données réputées fiables (PubMed, par exemple) et le texte des articles qu’elles référencent, ou parfois moins fiables (contenu brut de sites Internet). La plupart des LLM à visée clinique favorisent les premières, mais comprennent aussi des données provenant du « web » sans filtrage particulier. Les auteurs constatent qu’il suffit d’une infime proportion d’articles non fiables pour fausser les suggestions d’un LLM. Ils rappellent à ce propos que PubMed, si sérieux soit-il, contient (encore) plus de 3 000 articles vantant les mérites des lobotomies préfrontales, alors ne parlons pas des « contaminations » possibles par le contenu d’Internet sans filtrage. Les LLM sont donc vulnérables aux corruptions des données servant à l’apprentissage du système (le vieil adage informatique « garbage in, garbage out »), mais également à l’introduction de données malicieuses sans même manipuler les subtils systèmes de pondération que recèlent les systèmes de réseaux neuronaux (ni même les connaître). C’est effectivement effrayant, il ne faut qu’une infime quantité d’information fallacieuse pour tromper les LLM. Le bon côté de l’article est qu’il assure que les moyens de détecter les effets de données fallacieuses existent et qu’ils peuvent être automatisés à partir de bases de données existantes de graphes décisionnels.
Alber DA, Yang Z, Alyakin A, et al. Medical large language models are vulnerable to data-poisoning attacks. Nat Med. 2025;31(2):618-626. Doi : 10.1038/s41591-024-03445-1.