GPT在醫(yī)療領(lǐng)域的應(yīng)用，中國企業(yè)走在了前面

陳熙2023-07-18 22:09

伴隨著AI大模型的浪潮，一本探討GPT技術(shù)在醫(yī)療領(lǐng)域的應(yīng)用和影響的書——《超越想象的GPT醫(yī)療》在2023年出版。

書中提到三個觀點：

01 - GPT具有顛覆性的潛力，有望改善醫(yī)學(xué)和醫(yī)療保健領(lǐng)域。

02 - 由于它同時會帶來風(fēng)險，因此有必要盡快在盡可能廣泛的范圍內(nèi)進(jìn)行測試，并讓公眾了解其局限性。

03 - 鑒于其潛在的益處，務(wù)必立即開始努力，確保盡可能多的人能夠運(yùn)用這一技術(shù)。

從書中拉回現(xiàn)實，醫(yī)療AI大模型的應(yīng)用，國內(nèi)外都在搶先落地。近期該領(lǐng)域就出現(xiàn)了兩則重磅消息：一是，醫(yī)聯(lián)MedGPT完成真實世界測試，與三甲醫(yī)院醫(yī)生醫(yī)學(xué)一致性達(dá)到96%；二是，谷歌Med-PaLM與臨床醫(yī)生進(jìn)行醫(yī)學(xué)問題回答測試，92.6%的長篇答案符合科學(xué)共識，與臨床醫(yī)生生成的答案（92.9%）相當(dāng)。

具體來看，6月30日，成都高新海爾森醫(yī)院，120多位真實患者，四川大學(xué)華西醫(yī)院10位主治及以上醫(yī)師以及醫(yī)聯(lián)AI醫(yī)生，進(jìn)行了一次AI醫(yī)生與真人醫(yī)生的一致性評測。

最終評審結(jié)果

評測結(jié)果顯示，AI醫(yī)生與三甲主治醫(yī)生在比分結(jié)果上的一致性達(dá)到了96%。真人醫(yī)生綜合得分為7.5分，AI醫(yī)生綜合得分為7.2分。

這款A(yù)I醫(yī)生為數(shù)字醫(yī)療公司醫(yī)聯(lián)自主研發(fā)的基于Transformer架構(gòu)的國內(nèi)醫(yī)療大語言模型——MedGPT。與通用型的大語言模型產(chǎn)品不同，MedGPT主要致?于在真實醫(yī)療場景中發(fā)揮實際診療價值，實現(xiàn)疾病預(yù)防、診斷、治療、康復(fù)的全流程智能化診療能力。而基于MedGPT，醫(yī)聯(lián)也引領(lǐng)數(shù)字醫(yī)療服務(wù)正式進(jìn)入2.0時代。

前述AI醫(yī)生與真人醫(yī)生的一致性評測由來自權(quán)威三甲醫(yī)院的7位專家教授審核并打分。7位專家普遍認(rèn)為，MedGPT是通過多輪詢問收集足夠信息，以確保醫(yī)療準(zhǔn)確性為前提推進(jìn)問診流程，所以出現(xiàn)誤診、漏診的概率就比較小，并且MedGPT的知識覆蓋面超過一些經(jīng)驗并不充足的真人醫(yī)生。

專家評審團(tuán)

基于醫(yī)療行業(yè)資源分配不均，邊遠(yuǎn)地區(qū)患者難以接觸到優(yōu)質(zhì)醫(yī)療資源等痛點，可以預(yù)見，AI醫(yī)療可以有效補(bǔ)充醫(yī)療資源，助力全民健康生活水平的提升，有利于補(bǔ)全基層醫(yī)療服務(wù)短板，強(qiáng)化公共衛(wèi)生服務(wù)效率，幫助解決優(yōu)質(zhì)醫(yī)療資源相對匱乏和基層醫(yī)療服務(wù)能力不足的結(jié)構(gòu)性難題。

MedGPT到來

這一次，在人工智能應(yīng)用于醫(yī)療場景的層面，中國企業(yè)走在了前面。從進(jìn)展看，醫(yī)聯(lián)率先發(fā)布的醫(yī)療問診領(lǐng)域的MedGPT，在國內(nèi)和國際領(lǐng)域都處于引領(lǐng)地位。值得一提的是，醫(yī)聯(lián)率先完成了MedGPT的真實世界測試。通用大語言模型在面對醫(yī)學(xué)問題的準(zhǔn)確性上存在天然缺陷，在問診階段，通用大語言模型往往會輕易給出結(jié)論，但對于醫(yī)療應(yīng)用來說，一致性和準(zhǔn)確性是底線問題。從測評結(jié)果來看，MedGPT則能夠通過多輪問診引導(dǎo)患者收集足夠的診斷決策因?之后再進(jìn)?到診斷環(huán)節(jié)，從而保證準(zhǔn)確性。

醫(yī)聯(lián)MedGPT項目負(fù)責(zé)人王磊表示，MedGPT不會輕易給出診斷結(jié)論，而是會循序漸進(jìn)地引導(dǎo)患者給出足夠能夠支撐有效診斷的病情全貌。

也就是說，MedGPT 是通過收集足夠信息并做出符合醫(yī)學(xué)的決策，以“治愈”為目的而進(jìn)行人機(jī)交互。通過獨有的將?然語??模型AI技術(shù)與?系列?程調(diào)優(yōu)技術(shù)以及醫(yī)學(xué)?致性校驗技術(shù)相結(jié)合，并在模型微調(diào)訓(xùn)練階段采??量真實醫(yī)?參與的RLHF（Reinforcement Learning from Human Feedback) 監(jiān)督微調(diào)，有效提升模型的疾病特征判斷與模式識別能?，確保醫(yī)療準(zhǔn)確性。

回到前述AI醫(yī)生與真人醫(yī)生的一致性測評，谷歌也做了一個類似的實驗。

今年5月，谷歌發(fā)布了醫(yī)療大模型Med-PaLM 2，它在美國醫(yī)療執(zhí)照考試（USMLE）中能得到86.5分，是首個在美國醫(yī)療執(zhí)照考試中達(dá)到專家水平的大語言模型。

隨后，谷歌公布了醫(yī)療大模型Med-PaLM近期的測試數(shù)據(jù)，研究人員表示，在引入指令提示調(diào)整后，由此產(chǎn)生的模型Med-PaLM表現(xiàn)令人鼓舞：92.6%的長篇答案符合科學(xué)共識，與臨床醫(yī)生生成的答案（92.9%）相當(dāng)；5.9%的答案被評為可能導(dǎo)致有害結(jié)果，與臨床醫(yī)生生成的答案（5.7%）的結(jié)果相似。

盡管結(jié)論一致，但是兩者的不同在于，醫(yī)聯(lián)的MedGPT的評測是基于真實患者的真實世界測評，而Med-PaLM則是針對“醫(yī)學(xué)問題”的回答。

醫(yī)聯(lián)MedGPT的領(lǐng)先，與其醫(yī)療數(shù)據(jù)優(yōu)勢有關(guān)，并且在AI領(lǐng)域布局多年。

基于Transformer架構(gòu)，大模型的底層原理各家都差不多，但是醫(yī)聯(lián)作為一家成熟的、運(yùn)行多年的互聯(lián)網(wǎng)醫(yī)院，已經(jīng)積累了龐大的有效問診數(shù)據(jù)。

醫(yī)聯(lián)MedGPT訓(xùn)練所用醫(yī)學(xué)文本數(shù)據(jù)有20億條，臨床診療數(shù)據(jù)多達(dá)800萬條。值得一提的是，醫(yī)聯(lián)即將發(fā)布的MedGPT plugin應(yīng)用平臺整合超過1000+醫(yī)療多模態(tài)能力，整合多樣化的醫(yī)療多模態(tài)能力，可以豐富和完善全流程智能化診療體驗。

會改變醫(yī)療格局嗎

前述一致性評測，從開始問診到評審結(jié)果，整個過程在網(wǎng)上直播。

整個評測的設(shè)計相當(dāng)嚴(yán)謹(jǐn)，問診過程中，真人醫(yī)生和AI醫(yī)生都沒有與患者直接接觸，患者與醫(yī)生助理接觸，醫(yī)生助理通過電腦輸入文字分別與真人醫(yī)生和AI醫(yī)生聯(lián)系，真人醫(yī)生和AI醫(yī)生的問題也經(jīng)由醫(yī)生助理傳遞給患者。引導(dǎo)患者說出完整病情、收集足夠多決策因子后，真人醫(yī)生與AI醫(yī)生為患者開具檢查單或診斷，患者直接在成都高新海爾森醫(yī)院完成檢查；獲得檢查結(jié)果后，患者再復(fù)診，并由AI醫(yī)生及真人醫(yī)生提供臨床診斷及治療方案。

某種程度上說，這是一項被醫(yī)藥行業(yè)認(rèn)為是金標(biāo)準(zhǔn)的“雙盲”試驗。

評分表

8個小時的問診結(jié)束后，形成有效病例91份，由北大人民醫(yī)院、中日友好醫(yī)院、阜外醫(yī)院和友誼醫(yī)院的7位專家教授進(jìn)行審核。7位專家教授的專業(yè)與前述科室對應(yīng)，評價維度包括7個——問診準(zhǔn)確性、診斷準(zhǔn)確性、治療建議準(zhǔn)確性、輔助檢查方案準(zhǔn)確性、數(shù)據(jù)分析準(zhǔn)確性、提供可解釋信息、自然語言問診與交互。

北京友誼醫(yī)院泌尿外科主任醫(yī)師、副教授王磊評價，MedGPT不會漏掉患者提供的重要信息，詢問病史非常全面，避免出現(xiàn)漏診的情況。知識面也比較豐富，會給患者解答其他科室的問題。

北大人民醫(yī)院骨科主任醫(yī)師、教授薛峰以一個膝蓋痛的病例舉例分析，他認(rèn)為AI醫(yī)生問診非常詳細(xì)，“不嫌累，話多，問題也很多”，會關(guān)注女性患者是否正在備孕、懷孕，而現(xiàn)實臨床工作中，骨科醫(yī)生較少會問這類問題，“有些細(xì)節(jié)問題漏掉之后很容易犯一些錯誤，一些癥狀漏掉之后也可能漏診”。對膝蓋痛這種常見疾病，很多時候醫(yī)生需要做一些科普，告知患者生活中需要注意的事項，AI醫(yī)生的詳細(xì)表達(dá)也會給患者更多信息。

薛峰還發(fā)現(xiàn)了一個“驚喜”：MedGPT根據(jù)患者腳底板疼痛判斷患者有可能出現(xiàn)神經(jīng)壓迫，真人醫(yī)生卻沒有想到這一點。

“超出預(yù)期，問診很詳細(xì)，可以不知疲倦地和患者耐心溝通，在常見病領(lǐng)域還能起到對患者科普的作用；但是現(xiàn)階段的AI醫(yī)生無法實現(xiàn)查體，未來在醫(yī)學(xué)多模態(tài)能力上還需要突破才有更大的應(yīng)用價值。”薛峰總結(jié)說。

中日友好醫(yī)院心內(nèi)科主任醫(yī)師、教授任景怡給MedGPT打分超過真人醫(yī)生，她表示：“盡管MedGPT還有很多的問題，但我覺得邁出了這一步，算是里程碑的結(jié)果。MedGPT它可能有更完善的知識儲備，它可以關(guān)注到全科的情況，它在診斷不明的時候一直堅持沒有給患者以治療手段，這點我認(rèn)為值得鼓勵，在診斷不明的時候，隨便給出治療手段會犯更大的錯誤，堅持很重要。有時候 MedGPT會給出過度治療的建議，這點需要調(diào)整。”

評測現(xiàn)場

此次測試是國內(nèi)乃至全球范圍內(nèi)率先進(jìn)行公開的、規(guī)模化的、基于真實患者的AI醫(yī)生與真人醫(yī)生的一致性研究評測，也是對于AI醫(yī)療的一次階段性探索。經(jīng)過此次評測，以MedGPT為首的AI醫(yī)療已經(jīng)現(xiàn)階段進(jìn)入到了真實患者測試階段，這也意味著通用型人工智能技術(shù)的研究與應(yīng)用發(fā)展水平得到了進(jìn)一步推進(jìn)。

我們應(yīng)該認(rèn)識到，MedGPT在與真人醫(yī)生的一致性評測表現(xiàn)突出，這意味著優(yōu)質(zhì)的醫(yī)療資源和服務(wù)能力可以被無限復(fù)制，而這給優(yōu)質(zhì)醫(yī)療資源不足、不均衡的醫(yī)療行業(yè)帶來的革命性升級，是可以預(yù)見的。

我們也期待，數(shù)字醫(yī)療的終局在MedGPT到來后終將顯現(xiàn)。