記者今天從上海人工智能實驗室(上海AI實驗室)獲悉,由該實驗室牽頭,聯合國內外頂級科研機構、高校及醫(yī)院共同研發(fā)的全球首個醫(yī)療多模態(tài)基礎模型群“OpenMEDLab浦醫(yī)”對外發(fā)布。該模型融合全球頂尖AI研發(fā)實力、海量醫(yī)學數據以及醫(yī)學專家知識,突破了小樣本、標注難度高等限制人工智能在醫(yī)療場景使用的長尾問題。
據悉,“OpenMEDLab浦醫(yī)”大模型已與全國多家頭部三甲醫(yī)院開展合作,并將于近期逐步開源,該模型將促進基于醫(yī)療基礎模型的跨領域、跨疾病、跨模態(tài)科研突破,同時助力解決醫(yī)療領域的長尾問題,推動醫(yī)療大模型的產業(yè)落地。
聯合頂尖機構,共建多模態(tài)醫(yī)療大模型
(資料圖片僅供參考)
作為牽頭單位,上海AI實驗室聯合了多個國內外組織共同參與開源“OpenMEDLab浦醫(yī)”基礎模型群,包括廣州實驗室、之江實驗室等頂尖科研機構,上海交通大學、復旦大學、電子科技大學、華東理工大學、北京郵電大學、美國羅格斯大學、英屬哥倫比亞大學、香港中文大學等高校,以及上海交通大學醫(yī)學院附屬瑞金醫(yī)院、上海交通大學醫(yī)學院附屬新華醫(yī)院、四川大學華西醫(yī)院、鄭州大學第一附屬醫(yī)院等醫(yī)療機構。
“OpenMEDLab浦醫(yī)”融合了全球頂尖的AI研發(fā)能力、海量醫(yī)學數據以及醫(yī)學專家知識,首批發(fā)布的基礎模型群中,包含基于醫(yī)學圖像、醫(yī)學文本、生物信息、蛋白質工程等10余種數據模態(tài)訓練而成的基礎模型。
在語言模型方面,“OpenMEDLab浦醫(yī)”開源了由上海AI實驗室與上海交通大學、華東理工大學合作開發(fā)的中文醫(yī)療語言大模型,基于海量醫(yī)學知識和真實醫(yī)患互動對話數據,可提供導診、問診、健康咨詢、輔助決策等多場景多輪會話能力。聯合團隊對多個語言大模型的醫(yī)療能力進行了系統(tǒng)的對比評測,評測代碼及數據已公布。
在圖像方面開源的一系列模型群,可針對放射影像、病理圖像、內鏡、超聲等不同影像模態(tài),實現高精度的檢測、分割、分類等前沿研究和臨床任務,高效賦能解決基于醫(yī)學影像的臨床任務,模型具有輕量級的特點,能滿足創(chuàng)新研究的臨床部署與便捷應用。
在生物醫(yī)藥方面,“OpenMEDLab浦醫(yī)”同樣大有可為。例如由上海AI實驗室和上海交通大學共同研發(fā)的蛋白質序列大模型,通過融合生物醫(yī)學專業(yè)知識,可助力設計合成高穩(wěn)定性高生物活性蛋白質,解決蛋白類新藥研發(fā)過程中普遍存在的耗時長、耗費高等難題。
為了方便開發(fā)者使用,“OpenMEDLab浦醫(yī)”開源平臺在提供基礎模型下載的同時,還提供了下游任務應用范例、測試數據、對應標注和評價指標,幫助開發(fā)者全流程高效使用基模型開展研發(fā)工作。此外,為推動產學研協作,深化醫(yī)學圖像分析基礎模型的可行性探索,上海AI實驗室發(fā)起《〈Medical Image Analysis〉基礎模型特刊》與NeurIPS 2023醫(yī)學圖像分析基礎模型應用挑戰(zhàn)賽,向全球人工智能及醫(yī)療領域的研究人員和機構發(fā)出“英雄帖”,通過 “一刊一賽”,進一步推動醫(yī)療基礎模型的研究和應用。
突破小樣本、弱標注瓶頸,解決醫(yī)療長尾問題
近年來,超大參數深度學習基模型在計算機視覺(CV)、自然語言處理(NLP)等領域獲得突破性進展,能夠基于大模型的超強泛化能力應用于許多下游任務的分析。然而醫(yī)學數據在數據模態(tài)、成像模式、圖像特征等方面種類繁多、差別較大,使得通用大模型難以在醫(yī)學圖像分析方面實現令人滿意的性能。在高度關注數據私密性的醫(yī)療機構中,落地部署也存在較大困難,當前,針對特定任務進行單獨模型訓練依然是該領域主流的解決方案。然而,醫(yī)療下游長尾任務的數據樣本少、標注難度高,這也限制了人工智能在更多醫(yī)療場景的應用。
如何將CV、NLP通用大模型“為我所用”,并發(fā)展出更適合醫(yī)療場景的基礎模型,上海AI實驗室首創(chuàng)了多層級、多場景、高精度、可落地的醫(yī)療基礎模型群“OpenMEDLab浦醫(yī)”。首先,基于CV、NLP大模型對醫(yī)療圖像和文本通用特征的學習,上海AI實驗室針對不同醫(yī)療數據模態(tài)開發(fā)了一系列基模型,例如CT、MRI、超聲、內鏡、病理、醫(yī)學文本等,以充分學習和利用不同數據模態(tài)獨有的特征和模式。
基于上述多層級、多場景的基礎模型群,“OpenMEDLab浦醫(yī)”可以將先前醫(yī)學數據訓練中學習到的特征,高效應用于海量醫(yī)療下游問題中,從而實現針對不同任務的小數據、弱標注、高效率的訓練。同時,模型群兼顧性能與落地的平衡,在醫(yī)療場景中的部署應用更具便捷性,從而讓基礎模型在更多醫(yī)療長尾問題中得以落地應用。
例如,上海AI實驗室聯合四川大學華西醫(yī)院和上海交通大學,分別應用預訓練得到的視覺和語言大模型,采用小樣本模型激活的算法,進行醫(yī)療圖像中多種病灶的檢測和疾病分類,得到了相較傳統(tǒng)遷移學習精度更高的實驗結果。這意味著,未來科研人員將能夠更好地應對小數據甚至零數據樣本的醫(yī)療生物場景。
成果落地,開啟“醫(yī)療通用大模型時代”
醫(yī)療多模態(tài)基礎模型群的問世,為大模型賦能醫(yī)療場景帶來了更多可能。目前,“OpenMEDLab浦醫(yī)”研發(fā)團隊已與全國多家頭部三甲醫(yī)院及醫(yī)藥企業(yè)開展合作,全方位賦能醫(yī)院診療及藥物研發(fā)工作。
在上海交通大學醫(yī)學院附屬瑞金醫(yī)院,“醫(yī)學數字人”已應用于全身多部位、多器官、多模態(tài)影像的智能輔助診療,覆蓋十余個臨床方向,全方位賦能患者診療愈全流程;在四川大學華西醫(yī)院,雙方合作打造基于自動提示詞微調的視覺語言大模型,顯著提高了小樣本下的醫(yī)學圖像的檢測性能,為視覺語言大模型在醫(yī)療圖像領域提供了應用范式;在鄭州大學第一附屬醫(yī)院,雙方正合作開發(fā)醫(yī)療語言大模型,將整合海量藥學知識和專家經驗,通過線上服務為患者提供更便捷、更全面的用藥咨詢。在生物制藥領域,與多家知名藥企合作,利用基礎模型賦能蛋白質工程,助力藥品研發(fā)。
編輯:沈湫莎
圖片:上海AI實驗室提供
責任編輯:任荃
標簽: