

ChatGPT或DeepSeek——它们对亚洲患者的病情诊断有帮助吗?
ChatGPT(例如,GPT-4)等大语言模型(LLM)和DeepSeek等新兴工具虽能为症状解读和分诊提供支持,但由于其训练数据主要基于西方标准或信息,对亚洲患者的诊断有效性可能有限。亚洲人群在疾病表征和流行率方面的差异带来了特殊挑战。
大语言模型中的种族与民族偏见
《自然-通讯》2024年发表的一项研究显示,GPT-3.5-turbo和GPT-4在生成医疗报告方面均存在偏见,这些模型会根据患者种族差异给出不同的疾病诊断和治疗建议,并且预测白人患者的住院时间更长、医疗费用更高。
- 临床应用现状
《柳叶刀·数字医疗》2024年的一份报告指出,GPT-4生成的医疗信息并不一定能够基于人口统计特征或种族群体提供准确无误的内容,其存在的种族与性别偏见可能加剧医疗不平等。
这凸显了在亚洲本土化场景中规范使用ChatGPT的重要性。
一个颇具参考价值的案例是,可利用AI工具为不同种族群体提供医疗出院指导,结果发现,在改变种族/族裔背景时,文本的情感倾向或风格并无差异,这表明GPT-4在沟通中能保持一致性。类似的研究结果可用于为新加坡的患者编写医疗出院小结。
- 在医疗场景中的应用
由哈佛大学牵头开展的一项评估利用真实疼痛病例对GPT-4和另一款大语言模型(Gemini)进行研究,结果发现,在480个病例中,大模型在开具阿片类药物处方时并未因患者种族/族裔或性别而区别对待。
然而,其他研究指出(大语言模型)仍存在偏见问题:大语言模型有时会延续对黑人患者的刻板印象(例如,在肺功能和皮肤厚度方面),并且还发现基于方言和语言使用情况存在偏见。
亚洲人群特有的疾病模式
亚洲患者罹患鼻咽癌等某些疾病的风险可能更高,他们可能在体重指数较低时就患上2型糖尿病,并且由于药物基因组学差异,对药物的代谢方式也有所不同。然而,这些差异性在大语言模型训练数据集中往往代表性不足,从而增加了误诊或风险评估失误的可能性。
例如:
- 东亚人群在体重正常范围内即可能罹患2型糖尿病,体重指数往往处于较低水平。
- 鼻咽癌在中国华南地区和东南亚人群中更为常见,而在欧洲人中则较为罕见。
- CYP2C19基因多态性影响东南亚人群药物代谢,导致对氯吡格雷和质子泵抑制剂等药物的反应存在差异。
结论
ChatGPT和DeepSeek等大语言模型能够辅助临床工作流程,总结症状,并为亚洲患者提出可能的不同诊断建议。
尽管在受控场景下,这些模型在不同族裔群体中的表现看似别无二致,但其内在的种族或疾病相关偏见仍令人关切。此外,许多亚洲人群特有的疾病特征在AI工具中可能也体现不足,这会导致诊断准确率下降。
对于亚洲患者,配备大语言模型的AI工具只能起到辅助作用,绝不能替代专业的临床诊断。在AI工具中纳入更多不同族裔的特定数据开展研究,将有助于提升这类工具在亚洲人群医疗信息处理方面的应用效果。
本文仅做提供医疗保健知识用途。并非所有的创新成果都可用于或被批准用于临床。AsiaMD可能从参与开发这些创新产品的公司或机构处获得资金或非资金赞助。然而,AsiaMD不对文中出现的任何具体产品或服务表示认可,其他请参阅使用AsiaMD.com网站的条款及条件。如需了解更多信息,请咨询您的医疗保健专家。
0条评论