Background. Diagnostic errors, often due to biases in clinical reasoning, significantly affect patient care. While artificial intelligence chatbots like ChatGPT could help mitigate such biases, their potential susceptibility to biases is unknown. Methods. This study evaluated diagnostic accuracy of ChatGPT against the performance of 265 medical residents in five previously published experiments aimed at inducing bias. The residents worked in several major teaching hospitals in the Netherlands. The biases studied were case-intrinsic (presence of salient distracting findings in the patient history, effects of disruptive patient behaviors) and situational (prior availability of a look-alike patient). ChatGPT’s accuracy in identifying the most-likely diagnosis was measured. Results. Diagnostic accuracy of residents and ChatGPT was equivalent. For clinical cases involving case-intrinsic bias, both ChatGPT and the residents exhibited a decline in diagnostic accuracy. Residents’ accuracy decreased on average 12%, while the accuracy of ChatGPT 4.0 decreased 21%. Accuracy of ChatGPT 3.5 decreased 9%. These findings suggest that, like human diagnosticians, ChatGPT is sensitive to bias when the biasing information is part of the patient history. When the biasing information was extrinsic to the case in the form of the prior availability of a look-alike case, residents’ accuracy decreased by 15%. By contrast, ChatGPT’s performance was not affected by the biasing information. Chi-square goodness-of-fit tests corroborated these outcomes. Conclusions. It seems that, while ChatGPT is not sensitive to bias when biasing information is situational, it is sensitive to bias when the biasing information is part of the patient’s disease history. Its utility in diagnostic support has potential, but caution is advised. Future research should enhance AI’s bias detection and mitigation to make it truly useful for diagnostic support.
Commentaire du Dr Marius Laurent (PAQS)
- La suite logique de la lecture de l’article précédent est de se poser la question de savoir si l’intelligence artificielle est susceptible de se détacher des biais cognitifs, intrinsèques et extrinsèques qui y sont décrits. Sylvia Mamede en particulier, a testé chez des résidents une série de scénarios cliniques comportant l’introduction de biais de tout type : nous connaissons donc leur effet chez des médecins. Comment ChatGPT réagira-t-il devant ces vignettes ? Si le biais introduit fait partie de l’histoire même du patient sur laquelle on se base pour poser le diagnostic (des informations guidant le diagnostic dans une voie erronée, l’attitude du patient, agressif ou pas), ChatGPT ne fait pas mieux que l’interne, ses performances diagnostiques sont comparables aux siennes avant et après l’exposition aux biais. Par contre, si le biais est extrinsèque (exposition peu avant à un cas similaire par exemple, pour tester le biais de disponibilité), ChatGPT n’y est pas sensible quand toutefois, le protocole est adapté pour être « réaliste » pour une intelligence artificielle. Ce qui est surprenant, c’est que la simple information que le patient est agressif modifie l’ordre des propositions de ChatGPT comme s’il considérait cette information comme constitutive des arguments menant au diagnostic. Un dernier point : comme les humains, ChatGPT est sujet aux erreurs. Même dans des conditions où il n’y a pas d’informations biaisées, ses performances ne sont que légèrement supérieures à celles des jeunes internes impliqués dans ces expériences. L’erreur est donc humaine, mais pas seulement…
Schmidt HG, Rotgans JI, Mamede S. Bias sensitivity in diagnostic decision-making: Comparing chatgpt with residents. J Gen Intern Med. 2024. Doi : 10.1007/s11606-024-09177-9. Online ahead of print.