國際研究:AI目前或不能協助公眾做出更好日常健康決策
中新網北京2月10日電 (記者 孫自法)施普林格·自然旗下專業學術期刊《自然-醫學》最新發表一篇醫學研究論文指出,基于人工智能(AI)技術的大語言模型(LLM),目前或許還不能協助公眾做出更好的日常健康決策。研究人員認為,這類AI工具的未來設計需要更好地支持真實用戶,才能安全用于向公眾提供醫學建議。
該論文介紹,全球醫療機構提議將大語言模型作為提升公眾獲取醫療信息的潛在工具,讓個人在向醫生求助前進行初步健康評估和疾病管理。但之前的研究顯示,控制場景下在醫師資格考試中得分很高的大語言模型,并不保證能有效完成真實世界的交互。

在本項研究中,英國牛津大學牛津互聯網研究所研究團隊與合作者一起,測試了大語言模型是否能協助公眾精準辨別醫療病癥,如普通感冒、貧血或膽結石,并選擇一種行動方案,如呼叫救護車或聯系全科醫生。研究團隊給1298名英國受試者每人指派了10種不同的醫療情景,并讓他們隨機使用三個大語言模型(GPT-4o、Llama3或Command R+)中的一個,或使用他們的常用資源(對照組),如互聯網搜索引擎。
研究結果顯示,不用人類受試者進行測試時,大語言模型能準確完成這些情景,平均能在94.9%的情況下正確辨別疾病,在56.3%的情況下選擇正確的行動方案。不過,當受試者使用相同的大語言模型時,相關病癥的識別率低于34.5%,選擇正確行動方案的情況低于44.2%,這一結果未超過對照組。研究團隊人工檢查了其中30種情況的人類-大語言模型交互并發現,受試者常向模型提供不完整或不準確的信息,并且大語言模型有時也會生成誤導性或錯誤的信息。
論文作者總結認為,當前的大語言模型未準備好部署用于直接的患者醫療,因為將大語言模型與人類用戶配對,會產生現有基準測試和模擬交互無法預測到的問題。(完)






































京公網安備 11010202009201號