伴隨著AI大模型的浪潮,一本探討GPT技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用和影響的書——《超越想象的GPT醫(yī)療》在2023年出版。
書中提到三個觀點:
01 - GPT具有顛覆性的潛力,有望改善醫(yī)學(xué)和醫(yī)療保健領(lǐng)域。
02 - 由于它同時會帶來風(fēng)險,因此有必要盡快在盡可能廣泛的范圍內(nèi)進(jìn)行測試,并讓公眾了解其局限性。
03 - 鑒于其潛在的益處,務(wù)必立即開始努力,確保盡可能多的人能夠運(yùn)用這一技術(shù)。
從書中拉回現(xiàn)實,醫(yī)療AI大模型的應(yīng)用,國內(nèi)外都在搶先落地。近期該領(lǐng)域就出現(xiàn)了兩則重磅消息:一是,醫(yī)聯(lián)MedGPT完成真實世界測試,與三甲醫(yī)院醫(yī)生醫(yī)學(xué)一致性達(dá)到96%;二是,谷歌Med-PaLM與臨床醫(yī)生進(jìn)行醫(yī)學(xué)問題回答測試,92.6%的長篇答案符合科學(xué)共識,與臨床醫(yī)生生成的答案(92.9%)相當(dāng)。
具體來看,6月30日,成都高新海爾森醫(yī)院,120多位真實患者,四川大學(xué)華西醫(yī)院10位主治及以上醫(yī)師以及醫(yī)聯(lián)AI醫(yī)生,進(jìn)行了一次AI醫(yī)生與真人醫(yī)生的一致性評測。
評測結(jié)果顯示,AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。真人醫(yī)生綜合得分為7.5分,AI醫(yī)生綜合得分為7.2分。
這款A(yù)I醫(yī)生為數(shù)字醫(yī)療公司醫(yī)聯(lián)自主研發(fā)的基于Transformer架構(gòu)的國內(nèi)醫(yī)療大語言模型——MedGPT。與通用型的大語言模型產(chǎn)品不同,MedGPT主要致?于在真實醫(yī)療場景中發(fā)揮實際診療價值,實現(xiàn)疾病預(yù)防、診斷、治療、康復(fù)的全流程智能化診療能力。而基于MedGPT,醫(yī)聯(lián)也引領(lǐng)數(shù)字醫(yī)療服務(wù)正式進(jìn)入2.0時代。
前述AI醫(yī)生與真人醫(yī)生的一致性評測由來自權(quán)威三甲醫(yī)院的7位專家教授審核并打分。7位專家普遍認(rèn)為,MedGPT是通過多輪詢問收集足夠信息,以確保醫(yī)療準(zhǔn)確性為前提推進(jìn)問診流程,所以出現(xiàn)誤診、漏診的概率就比較小,并且MedGPT的知識覆蓋面超過一些經(jīng)驗并不充足的真人醫(yī)生。
基于醫(yī)療行業(yè)資源分配不均,邊遠(yuǎn)地區(qū)患者難以接觸到優(yōu)質(zhì)醫(yī)療資源等痛點,可以預(yù)見,AI醫(yī)療可以有效補(bǔ)充醫(yī)療資源,助力全民健康生活水平的提升,有利于補(bǔ)全基層醫(yī)療服務(wù)短板,強(qiáng)化公共衛(wèi)生服務(wù)效率,幫助解決優(yōu)質(zhì)醫(yī)療資源相對匱乏和基層醫(yī)療服務(wù)能力不足的結(jié)構(gòu)性難題。
MedGPT到來
這一次,在人工智能應(yīng)用于醫(yī)療場景的層面,中國企業(yè)走在了前面。從進(jìn)展看,醫(yī)聯(lián)率先發(fā)布的醫(yī)療問診領(lǐng)域的MedGPT,在國內(nèi)和國際領(lǐng)域都處于引領(lǐng)地位。值得一提的是,醫(yī)聯(lián)率先完成了MedGPT的真實世界測試。通用大語言模型在面對醫(yī)學(xué)問題的準(zhǔn)確性上存在天然缺陷,在問診階段,通用大語言模型往往會輕易給出結(jié)論,但對于醫(yī)療應(yīng)用來說,一致性和準(zhǔn)確性是底線問題。從測評結(jié)果來看,MedGPT則能夠通過多輪問診引導(dǎo)患者收集足夠的診斷決策因?之后再進(jìn)?到診斷環(huán)節(jié),從而保證準(zhǔn)確性。
醫(yī)聯(lián)MedGPT項目負(fù)責(zé)人王磊表示,MedGPT不會輕易給出診斷結(jié)論,而是會循序漸進(jìn)地引導(dǎo)患者給出足夠能夠支撐有效診斷的病情全貌。
也就是說,MedGPT 是通過收集足夠信息并做出符合醫(yī)學(xué)的決策,以“治愈”為目的而進(jìn)行人機(jī)交互。通過獨有的將?然語??模型AI技術(shù)與?系列?程調(diào)優(yōu)技術(shù)以及醫(yī)學(xué)?致性校驗技術(shù)相結(jié)合,并在模型微調(diào)訓(xùn)練階段采??量真實醫(yī)?參與的RLHF(Reinforcement Learning from Human Feedback) 監(jiān)督微調(diào),有效提升模型的疾病特征判斷與模式識別能?,確保醫(yī)療準(zhǔn)確性。
回到前述AI醫(yī)生與真人醫(yī)生的一致性測評,谷歌也做了一個類似的實驗。
今年5月,谷歌發(fā)布了醫(yī)療大模型Med-PaLM 2,它在美國醫(yī)療執(zhí)照考試(USMLE)中能得到86.5分,是首個在美國醫(yī)療執(zhí)照考試中達(dá)到專家水平的大語言模型。
隨后,谷歌公布了醫(yī)療大模型Med-PaLM近期的測試數(shù)據(jù),研究人員表示,在引入指令提示調(diào)整后,由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞:92.6%的長篇答案符合科學(xué)共識,與臨床醫(yī)生生成的答案(92.9%)相當(dāng);5.9%的答案被評為可能導(dǎo)致有害結(jié)果,與臨床醫(yī)生生成的答案(5.7%)的結(jié)果相似。
盡管結(jié)論一致,但是兩者的不同在于,醫(yī)聯(lián)的MedGPT的評測是基于真實患者的真實世界測評,而Med-PaLM則是針對“醫(yī)學(xué)問題”的回答。
醫(yī)聯(lián)MedGPT的領(lǐng)先,與其醫(yī)療數(shù)據(jù)優(yōu)勢有關(guān),并且在AI領(lǐng)域布局多年。
基于Transformer架構(gòu),大模型的底層原理各家都差不多,但是醫(yī)聯(lián)作為一家成熟的、運(yùn)行多年的互聯(lián)網(wǎng)醫(yī)院,已經(jīng)積累了龐大的有效問診數(shù)據(jù)。
醫(yī)聯(lián)MedGPT訓(xùn)練所用醫(yī)學(xué)文本數(shù)據(jù)有20億條,臨床診療數(shù)據(jù)多達(dá)800萬條。值得一提的是,醫(yī)聯(lián)即將發(fā)布的MedGPT plugin應(yīng)用平臺整合超過1000+醫(yī)療多模態(tài)能力,整合多樣化的醫(yī)療多模態(tài)能力,可以豐富和完善全流程智能化診療體驗。
會改變醫(yī)療格局嗎
前述一致性評測,從開始問診到評審結(jié)果,整個過程在網(wǎng)上直播。
整個評測的設(shè)計相當(dāng)嚴(yán)謹(jǐn),問診過程中,真人醫(yī)生和AI醫(yī)生都沒有與患者直接接觸,患者與醫(yī)生助理接觸,醫(yī)生助理通過電腦輸入文字分別與真人醫(yī)生和AI醫(yī)生聯(lián)系,真人醫(yī)生和AI醫(yī)生的問題也經(jīng)由醫(yī)生助理傳遞給患者。引導(dǎo)患者說出完整病情、收集足夠多決策因子后,真人醫(yī)生與AI醫(yī)生為患者開具檢查單或診斷,患者直接在成都高新海爾森醫(yī)院完成檢查;獲得檢查結(jié)果后,患者再復(fù)診,并由AI醫(yī)生及真人醫(yī)生提供臨床診斷及治療方案。
某種程度上說,這是一項被醫(yī)藥行業(yè)認(rèn)為是金標(biāo)準(zhǔn)的“雙盲”試驗。
8個小時的問診結(jié)束后,形成有效病例91份,由北大人民醫(yī)院、中日友好醫(yī)院、阜外醫(yī)院和友誼醫(yī)院的7位專家教授進(jìn)行審核。7位專家教授的專業(yè)與前述科室對應(yīng),評價維度包括7個——問診準(zhǔn)確性、診斷準(zhǔn)確性、治療建議準(zhǔn)確性、輔助檢查方案準(zhǔn)確性、數(shù)據(jù)分析準(zhǔn)確性、提供可解釋信息、自然語言問診與交互。
北京友誼醫(yī)院泌尿外科主任醫(yī)師、副教授王磊評價,MedGPT不會漏掉患者提供的重要信息,詢問病史非常全面,避免出現(xiàn)漏診的情況。知識面也比較豐富,會給患者解答其他科室的問題。
北大人民醫(yī)院骨科主任醫(yī)師、教授薛峰以一個膝蓋痛的病例舉例分析,他認(rèn)為AI醫(yī)生問診非常詳細(xì),“不嫌累,話多,問題也很多”,會關(guān)注女性患者是否正在備孕、懷孕,而現(xiàn)實臨床工作中,骨科醫(yī)生較少會問這類問題,“有些細(xì)節(jié)問題漏掉之后很容易犯一些錯誤,一些癥狀漏掉之后也可能漏診”。對膝蓋痛這種常見疾病,很多時候醫(yī)生需要做一些科普,告知患者生活中需要注意的事項,AI醫(yī)生的詳細(xì)表達(dá)也會給患者更多信息。
薛峰還發(fā)現(xiàn)了一個“驚喜”:MedGPT根據(jù)患者腳底板疼痛判斷患者有可能出現(xiàn)神經(jīng)壓迫,真人醫(yī)生卻沒有想到這一點。
“超出預(yù)期,問診很詳細(xì),可以不知疲倦地和患者耐心溝通,在常見病領(lǐng)域還能起到對患者科普的作用;但是現(xiàn)階段的AI醫(yī)生無法實現(xiàn)查體,未來在醫(yī)學(xué)多模態(tài)能力上還需要突破才有更大的應(yīng)用價值。”薛峰總結(jié)說。
中日友好醫(yī)院心內(nèi)科主任醫(yī)師、教授任景怡給MedGPT打分超過真人醫(yī)生,她表示:“盡管MedGPT還有很多的問題,但我覺得邁出了這一步,算是里程碑的結(jié)果。MedGPT它可能有更完善的知識儲備,它可以關(guān)注到全科的情況,它在診斷不明的時候一直堅持沒有給患者以治療手段,這點我認(rèn)為值得鼓勵,在診斷不明的時候,隨便給出治療手段會犯更大的錯誤,堅持很重要。有時候 MedGPT會給出過度治療的建議,這點需要調(diào)整。”
此次測試是國內(nèi)乃至全球范圍內(nèi)率先進(jìn)行公開的、規(guī)模化的、基于真實患者的AI醫(yī)生與真人醫(yī)生的一致性研究評測,也是對于AI醫(yī)療的一次階段性探索。經(jīng)過此次評測,以MedGPT為首的AI醫(yī)療已經(jīng)現(xiàn)階段進(jìn)入到了真實患者測試階段,這也意味著通用型人工智能技術(shù)的研究與應(yīng)用發(fā)展水平得到了進(jìn)一步推進(jìn)。
我們應(yīng)該認(rèn)識到,MedGPT在與真人醫(yī)生的一致性評測表現(xiàn)突出,這意味著優(yōu)質(zhì)的醫(yī)療資源和服務(wù)能力可以被無限復(fù)制,而這給優(yōu)質(zhì)醫(yī)療資源不足、不均衡的醫(yī)療行業(yè)帶來的革命性升級,是可以預(yù)見的。
我們也期待,數(shù)字醫(yī)療的終局在MedGPT到來后終將顯現(xiàn)。