正在閱讀:

中醫(yī)藥,拒絕不了大模型

掃一掃下載界面新聞APP

中醫(yī)藥,拒絕不了大模型

中醫(yī)藥大模型,已經多到老祖宗的名字都不夠用了。

圖片來源:界面圖庫

文 | 動脈網

從2024年眾多新品面世的熱鬧程度來看,大模型的激烈競爭,已經卷到了中醫(yī)藥。無論是科技巨頭、中醫(yī)創(chuàng)新企業(yè),還是研究機構,甚至是地方政府,均已加入這場中醫(yī)藥大模型混戰(zhàn)。

貼上大模型標簽并不難,但只有中醫(yī)藥的效率和邊界真正得到質的提升后,大模型才有更重要的實際價值和意義。

長久以來,中醫(yī)藥一直是毀譽參半的對象。中醫(yī)藥與大模型是“天作之合”的好評背后,“計算機算命”的質疑聲也未斷絕。中醫(yī)藥和大模型的結合,是蹭熱度還是真需求?動脈網與多家率先開展中醫(yī)藥大模型研究的企業(yè)、研究機構聊了聊,供行業(yè)參考。

本文主要觀點如下:

1、不止于賽博中醫(yī),藥物研發(fā)、臨床輔助診斷已有成效

2、深度學習和知識圖譜是兩條技術路徑,1+1才能大于2

3、數據是基礎,六大要素組成高質量的中醫(yī)診療語料庫

4、交叉人才、用戶接受度、知識產權等難點尚待解決

5、可用、有利、經驗證且基于真實場景的,才是中醫(yī)大模型

“中醫(yī)藥大模型,已經多到老祖宗的名字都不夠用了”

仿佛有一道閘門在這兩年被打開,大批中醫(yī)藥大模型爭先涌出。據不完全統(tǒng)計,2023年以來,已有數十個中醫(yī)藥相關的大模型相繼亮相。

部分中醫(yī)藥大模型

諸多行業(yè)文章對當前的中醫(yī)藥大模型進行了整理羅列,本文不再贅述。需要注意的是,當前的中醫(yī)藥大模型都有多個應用場景,上述表格僅作簡單分類,不代表該大模型僅屬于這一種應用場景或一種功能。

華為、百度、阿里、訊飛等科技大廠,基于算力算法優(yōu)勢,積極聯(lián)合中醫(yī)藥在內的垂直領域開展垂直行業(yè)大模型;清華大學、中國中醫(yī)科學院等科研院所也在積極通過大模型等先進技術進行中醫(yī)藥傳承與創(chuàng)新。

當然,中醫(yī)藥大模型賽道肯定不乏中醫(yī)藥產業(yè)界的“土著”,如云南白藥、華潤江中、太極集團、天士力等知名中藥企業(yè),以及大經中醫(yī)、中醫(yī)聰寶這類專研中醫(yī)AI多年的創(chuàng)新企業(yè)。

此外,在一些具有中醫(yī)藥產業(yè)基礎的地區(qū),相關政府也在著力發(fā)展中醫(yī)藥大模型產業(yè)。6月,亳州市宣布和華為公司合作,正式建設中醫(yī)藥產業(yè)大模型-華佗中醫(yī)藥大模型;同期,中醫(yī)藥橫琴大模型在橫琴粵澳深度合作區(qū)正式啟動;早些時候,由天津多個政產學研醫(yī)單位聯(lián)合開發(fā)的首個面向中醫(yī)針灸領域的“天河·靈樞”、“海河·岐伯”大模型分別發(fā)布和開放內測。

大模型之多,頗有“百花齊放,百家爭鳴”之感。為了迅速將產品的技術基礎和功能特點傳遞給用戶,與用戶建立情感鏈接上的獨特辨識度,國產大模型在命名上也花費了一番功夫,從神話人物到圣賢百家,甚至是道家術語、動植物名稱,各類名字不斷出現,上演了一場大模型的“封神榜”。

中醫(yī)藥大模型也紛紛請出扁鵲、華佗、神農、黃帝、岐伯、張仲景等開宗立派的大人物,或使用本草、靈樞、岐黃、軒岐等中醫(yī)藥高頻詞,來寄托中醫(yī)藥傳承與創(chuàng)新的精神和使命。

命名的儀式感,一定程度反映出行業(yè)對大模型未來發(fā)展?jié)摿Φ钠诖5竽P蜌w根結底是關于生產力的革命,終究還是要回歸真實場景,解決實際問題。這是技術的最終歸宿,也是大模型良性發(fā)展的開端。

不止于賽博中醫(yī),藥物研發(fā)、臨床輔助診斷已有成效

出現在很多醫(yī)院或體檢中心的AI中醫(yī)機器人,因如老中醫(yī)一般把脈、開方,形成反差感,而被戲稱為“賽博中醫(yī)”。這其中或有調侃成分,但也確實讓更多人開始關注到了傳統(tǒng)中醫(yī)藥的與時俱進。

多位采訪對象表示,現階段的中醫(yī)藥大模型應用場景主要包括新藥研發(fā)、問診導診、輔助診療和康復健康管理。

中醫(yī)聰寶董事長顧高生認為,中醫(yī)藥+大模型是傳統(tǒng)中醫(yī)藥服務的一場革命,面向康養(yǎng)機構、藥店診所等偏消費場景的大健康養(yǎng)生服務是中醫(yī)藥大模型目前最有希望落地的場景,當然2C場景更有市場,“這類場景語言交互需求強,和大模型在語義理解、生成交互的技術優(yōu)勢是比較契合的。在輔助診療場景,則考驗大模型對多模態(tài)數據訓練、處理和圖像識別上的能力,也有非常好的應用前景,如,聰寶基于深度學習技術的國醫(yī)大師專病機器人,加入了大模型技術后,就實現了系統(tǒng)升級,預訓練模型減少了20%的訓練時間,處方相似度提升了10%?!?/p>

中醫(yī)聰寶研發(fā)的“聰寶素問”大模型,可對用戶提出的中醫(yī)藥問題做到“有問必答”,并通過“圍欄”技術保障養(yǎng)生保健應用所必須的科學與嚴謹。需要注意的是,“聰寶素問”大模型已經升級到了3.0版本,如杭州市衛(wèi)健委“智能中醫(yī)分診服務”通過機器人問答來匹配“適合你的中醫(yī)”,系統(tǒng)上線“浙里辦”;應用場景更多元化,可根據多模數據和專家經驗數據,為醫(yī)療機構、醫(yī)生、保險公司、醫(yī)藥企業(yè)賦能。

中醫(yī)藥大模型對新藥研發(fā)、中藥產業(yè)發(fā)展的助力,也吸引了大批中藥企業(yè)的注意力。

如天士力“數智本草”大模型能夠幫助研究者完成中醫(yī)藥理論證據的挖掘和總結,也可結合相應算法快捷實現藥材與復方的篩選和優(yōu)化。根據“天士力研究院”信息,天士力利用大模型中天然產物分子大模型,完成糖尿病腎病及肺纖維化的天然產物分子篩選,通過高效虛擬篩選,精準預測和優(yōu)化候選分子的藥效和安全性,從而加速中藥組分新藥的發(fā)現和開發(fā)過程。

此外,由國藥太極作為智庫聯(lián)合開發(fā)的“本草智庫·中藥大模型”,收錄了覆蓋中藥全產業(yè)鏈的2000余萬條中藥研究底層核心數據,讓中藥材有了“基因身份證”,實現中藥研究底層核心數據與中藥全產業(yè)鏈關鍵環(huán)節(jié)的有機結合,對中藥材種植、質量控制、藥物研發(fā)等中藥全產業(yè)鏈關鍵環(huán)節(jié)有中藥價值。

中醫(yī)輔助診療是大多數中醫(yī)藥大模型都希望實現的能力,但各廠商的研發(fā)路徑卻不盡相同。大經中醫(yī)創(chuàng)始人、CEO李文友說到,中醫(yī)診療數字化和智能化一直是中醫(yī)現代化發(fā)展的重要方向之一,按照技術演進路徑,已經歷了符號邏輯、機器學習和深度學習三大階段,隨著技術的進步,模型規(guī)模的擴大,使得模型出現了“知識涌現”的能力。至此,人工智能進入“生成式AI”新時代。可以說,中醫(yī)藥大模型是部分中醫(yī)智能輔助診療系統(tǒng)在大模型技術作用下的迭代產物。

2023年8月,大經中醫(yī)發(fā)布的“岐黃問道”大模型便是基于其完備的知識圖譜體系生長起來的。大經中醫(yī)基于過往八年的高質量中醫(yī)數據和數智中醫(yī)計算積累,構建了完備的中醫(yī)知識圖譜體系,并將其應用在中醫(yī)CDSS系統(tǒng)中。而知識圖譜轉化所形成的1100多萬條中醫(yī)自然語義數據也成為了大經中醫(yī)“岐黃問道”大模型的訓練數據。

大經中醫(yī)副總經理、研發(fā)總負責人趙靜表示,知識圖譜和大模型深度學習雖然是兩條技術路徑,但可以多技術融合發(fā)展。“首先,我們要利用知識圖譜在可解釋性、可信性、知識標準化方面的優(yōu)勢,增強我們大模型從預訓練到應用的全生命周期各環(huán)節(jié),提升大模型的訓練效果和推理結果的可用性;反之亦然,基于大模型在語義理解、內容生成的技術優(yōu)勢,來增強知識圖譜從構建到應用的全生命周期各環(huán)節(jié),提升知識圖譜生成的效率和質量?!?/p>

“沒有場景,形成不了后面的數據反饋,中醫(yī)藥大模型就是一個空中樓閣?!倍辔皇茉L者表示,要把大模型放到具體場景中應用,在使用中實現優(yōu)化。

數據是基礎,六大要素組成高質量中醫(yī)數據

一個行業(yè)共識是,在中醫(yī)藥大模型的訓練中,如何收集和整理高質量的中醫(yī)數據,是中醫(yī)大模型開發(fā)面臨的首要問題。在此,我們要先明確,何為高質量的中醫(yī)藥數據?

大經中醫(yī)李文友介紹,中醫(yī)知識鏈包括了人、?。膊。?、癥(癥狀、體征)、證(病理性概括)、法(治療方法)、方(醫(yī)方)、藥物六大要素。以上六類要素完整且要素之間的關系是真實的,即為高質量數據。

首先,中醫(yī)典籍、經典名方、專業(yè)文獻這類靜態(tài)數據,經過專業(yè)的辨?zhèn)未嬲?,可作為高質量數據的重要來源之一。在前述表格中,我們也能看到這類數據是很多大模型的數據來源。

例如“海河·岐伯”大模型便是以《黃帝內經》等中醫(yī)典籍為核心,抽取四庫全書醫(yī)家類資料、傳統(tǒng)中醫(yī)文獻與全文中醫(yī)藥械資源的文本素材、以中醫(yī)藥領域的基本概念、知識、理論、基本、藥物、方劑為節(jié)點,以節(jié)點之間的關系為邊,形成的完整知識圖譜。天士力的“數智本草”大模型也是吸納了中藥古籍、方劑、中成藥配方,以及文獻摘要、臨床方案和中藥專利、藥典政策指南等數據,整體參數量達到了380億。

中醫(yī)藥大模型的高質量數據另一個重要來源,是每天在真實診療過程中產生的臨床數據,如脈象、舌象、經絡、穴位數據,以及中醫(yī)專家的醫(yī)案數據、診療經驗等。

但這類數據在價值挖掘上存在兩個難點,一是臨床數據記錄不完整或表述不一,二是一些臨床數據沉淀在各類醫(yī)療機構、名老中醫(yī)工作室中,隱秘性較強。

具體來看,中醫(yī)類電子病歷系統(tǒng),除采集西醫(yī)規(guī)范中的內容外,還需要記錄患者的脈診、舌診、面診等諸多內容。但中醫(yī)電子病歷模板目前尚無全國統(tǒng)一模板,標準不一,以及中醫(yī)生診療記錄習慣不同、專業(yè)術語用詞不規(guī)范等因素,都會不同程度地影響中醫(yī)病歷質量及大模型訓練質量。

此外,中醫(yī)藥學術流派林立,各有其獨特的診療方法論,中醫(yī)歷來也有“道不傳非人、法不傳六耳”的傳統(tǒng)。這都導致中醫(yī)公開數據的質量普遍較低,高質量數據則非常私密。

在數據收集部分,中醫(yī)聰寶通過兩條路徑來收集中醫(yī)臨床數據,一方面,中醫(yī)聰寶基于可規(guī)?;?、可復制的中醫(yī)智能醫(yī)共體/城市中醫(yī)大腦,匯聚了全國18個省市的超5000家醫(yī)療機構,每天系統(tǒng)中產生的“活數據”都可經脫敏后使用;另一方面,中醫(yī)聰寶自主研發(fā)智能中醫(yī)傳承創(chuàng)新平臺,幫助全國不同流派的名老中醫(yī)進行經驗落地。

數據質量的好壞直接關系到模型表現的優(yōu)劣。在數據收集后,開發(fā)單位還要設計數據清洗和預處理策略和規(guī)則,采用文本處理和強化學習等技術,進行自動數據預處理,同時結合人工審查,剔除錯誤和不準確的數據,實現人機協(xié)同的大規(guī)模中醫(yī)診療預料準備,建立高質量的中醫(yī)診療語料庫。比如大經中醫(yī)就花費了八年時間,打造了全國極少數的中醫(yī)癥狀/體征的術語規(guī)范化詞典。

在大經中醫(yī)的岐黃問道大模型中,中醫(yī)專家還會參與大模型的調整反饋工作,讓大模型增加對中醫(yī)知識和中醫(yī)思維的理解,確保中醫(yī)大模型回答的準確性和一致性。大模型的“基礎能力”疊加上中醫(yī)的“行業(yè)能力”后,中醫(yī)大模型就具備了中醫(yī)垂直領域的提煉、分類、模仿、推測、識別等能力,并通過與中醫(yī)行業(yè)多種業(yè)務場景結合,成為可落地、可使用的中醫(yī)大模型。

經觀察,現有中醫(yī)大模型的數據體量最高為百億級,雖然和通用大模型動輒以兆計算的數據規(guī)模相比,前者規(guī)模不大,但這些數據皆是經過清洗的高質量數據,其一條高質量數據的價值或比上百條互聯(lián)網泛內容的數據價值要高得多。

交叉人才、用戶接受度、知識產權等難點尚待解決

中醫(yī)藥大模型,除了需要源源不斷供給的高質量中醫(yī)藥數據,還需要了解行業(yè)Know-how,即對中醫(yī)藥產業(yè)擁有特有的知識,對理解力要求也更高。

大經中醫(yī)李文友表示,中醫(yī)藥大模型更多的是對古老中醫(yī)智慧的數智化傳承,在研發(fā)過程中要注意中醫(yī)思維邏輯的一致性和合理性、個性化治療方案的精準度和有效性,以及大模型需要具備持續(xù)學習和自我迭代的能力,來適應不斷變化的醫(yī)學知識和臨床需求。同時,在研發(fā)團隊建設方面,還要注重研發(fā)團隊的多元化和跨學科融合,以促進大模型的創(chuàng)新和發(fā)展。

除了找到真實應用場景和大量高質量數據外,北京大學重慶大數據研究院智慧中西醫(yī)研究中心副主任、智醫(yī)存內CEO黃新霆認為,用戶接受度也是一個需要值得注意的維度,“提高醫(yī)生、患者的接受度,不僅要有好的診療效果,而且不能給用戶帶來使用上的負擔?!?/p>

中醫(yī)聰寶顧高生提到,當前中國在算法算力被“卡脖子”、運營成本高昂、收益分配等問題。顧高生提到,中醫(yī)素有門派之分,如何對其進行合規(guī)合法合理的產業(yè)化,還需要完善知識產權相關的政策措施。

此外,受訪者們還提到了兼具中醫(yī)知識底蘊和AI技術能力的交叉人才培養(yǎng)、監(jiān)管部門數據權屬界定等問題。

可使用、對用戶有利、經過驗證且基于真實應用場景的,才是中醫(yī)大模型

最后,讓我們直面中醫(yī)和大模型結合過程遇到的質疑。

智醫(yī)存內黃新霆表示,當前行業(yè)缺乏對中醫(yī)藥大模型的標準界定,“目前國內發(fā)布的大模型很多,但要符合中醫(yī)藥大模型的特點卻很難??墒褂?、對用戶有利、經過驗證,且基于真實應用場景,我認為是中醫(yī)大模型需要具備的幾個重要特點?!?/p>

中醫(yī)聰寶顧高生認為,“療效好”是中醫(yī)大模型的最終評價標準。同時,基于大模型的中醫(yī)信息化系統(tǒng),可以和患者產生更高效率更多維度的交互,這也是新質生產力的表現。

在大經中醫(yī)李文友看來,中醫(yī)和人工智能有很大的同質性。中醫(yī)這門學科存在很多的爭論,其原因在于很多對中醫(yī)不了解的人覺得中醫(yī)太模糊、無法確定。但其實,如果我們將中醫(yī)理解成一個“黑箱”系統(tǒng),輸入患者的癥狀和體征,得到一個有效的方劑,就會發(fā)現這一過程和AI系統(tǒng)的輸入數據、輸出結果類似。

大經中醫(yī)趙靜補充到,中醫(yī)是一門歷史悠久、富含哲理的醫(yī)學體系。核心在于辨證論治、因人而異的治療原則。中醫(yī)這種高度個性化和綜合性的診療思路,和大模型技術在處理復雜關聯(lián)性、模式識別和深度學習的能力是相輔相成的。

總的來說,中醫(yī)拒絕不了大模型,這也是時代發(fā)展的必然趨勢。大模型以其強大的數據處理和分析能力,為中醫(yī)傳承與創(chuàng)新注入了新的活力,然而我們也要清醒認識到,大模型只是工具,中醫(yī)的望聞問切、整體觀念和辨證論治等獨特觀念,依然是中醫(yī)藥的靈魂所在。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。

評論

暫無評論哦,快來評價一下吧!

下載界面新聞

微信公眾號

微博

中醫(yī)藥,拒絕不了大模型

中醫(yī)藥大模型,已經多到老祖宗的名字都不夠用了。

圖片來源:界面圖庫

文 | 動脈網

從2024年眾多新品面世的熱鬧程度來看,大模型的激烈競爭,已經卷到了中醫(yī)藥。無論是科技巨頭、中醫(yī)創(chuàng)新企業(yè),還是研究機構,甚至是地方政府,均已加入這場中醫(yī)藥大模型混戰(zhàn)。

貼上大模型標簽并不難,但只有中醫(yī)藥的效率和邊界真正得到質的提升后,大模型才有更重要的實際價值和意義。

長久以來,中醫(yī)藥一直是毀譽參半的對象。中醫(yī)藥與大模型是“天作之合”的好評背后,“計算機算命”的質疑聲也未斷絕。中醫(yī)藥和大模型的結合,是蹭熱度還是真需求?動脈網與多家率先開展中醫(yī)藥大模型研究的企業(yè)、研究機構聊了聊,供行業(yè)參考。

本文主要觀點如下:

1、不止于賽博中醫(yī),藥物研發(fā)、臨床輔助診斷已有成效

2、深度學習和知識圖譜是兩條技術路徑,1+1才能大于2

3、數據是基礎,六大要素組成高質量的中醫(yī)診療語料庫

4、交叉人才、用戶接受度、知識產權等難點尚待解決

5、可用、有利、經驗證且基于真實場景的,才是中醫(yī)大模型

“中醫(yī)藥大模型,已經多到老祖宗的名字都不夠用了”

仿佛有一道閘門在這兩年被打開,大批中醫(yī)藥大模型爭先涌出。據不完全統(tǒng)計,2023年以來,已有數十個中醫(yī)藥相關的大模型相繼亮相。

部分中醫(yī)藥大模型

諸多行業(yè)文章對當前的中醫(yī)藥大模型進行了整理羅列,本文不再贅述。需要注意的是,當前的中醫(yī)藥大模型都有多個應用場景,上述表格僅作簡單分類,不代表該大模型僅屬于這一種應用場景或一種功能。

華為、百度、阿里、訊飛等科技大廠,基于算力算法優(yōu)勢,積極聯(lián)合中醫(yī)藥在內的垂直領域開展垂直行業(yè)大模型;清華大學、中國中醫(yī)科學院等科研院所也在積極通過大模型等先進技術進行中醫(yī)藥傳承與創(chuàng)新。

當然,中醫(yī)藥大模型賽道肯定不乏中醫(yī)藥產業(yè)界的“土著”,如云南白藥、華潤江中、太極集團、天士力等知名中藥企業(yè),以及大經中醫(yī)、中醫(yī)聰寶這類專研中醫(yī)AI多年的創(chuàng)新企業(yè)。

此外,在一些具有中醫(yī)藥產業(yè)基礎的地區(qū),相關政府也在著力發(fā)展中醫(yī)藥大模型產業(yè)。6月,亳州市宣布和華為公司合作,正式建設中醫(yī)藥產業(yè)大模型-華佗中醫(yī)藥大模型;同期,中醫(yī)藥橫琴大模型在橫琴粵澳深度合作區(qū)正式啟動;早些時候,由天津多個政產學研醫(yī)單位聯(lián)合開發(fā)的首個面向中醫(yī)針灸領域的“天河·靈樞”、“海河·岐伯”大模型分別發(fā)布和開放內測。

大模型之多,頗有“百花齊放,百家爭鳴”之感。為了迅速將產品的技術基礎和功能特點傳遞給用戶,與用戶建立情感鏈接上的獨特辨識度,國產大模型在命名上也花費了一番功夫,從神話人物到圣賢百家,甚至是道家術語、動植物名稱,各類名字不斷出現,上演了一場大模型的“封神榜”。

中醫(yī)藥大模型也紛紛請出扁鵲、華佗、神農、黃帝、岐伯、張仲景等開宗立派的大人物,或使用本草、靈樞、岐黃、軒岐等中醫(yī)藥高頻詞,來寄托中醫(yī)藥傳承與創(chuàng)新的精神和使命。

命名的儀式感,一定程度反映出行業(yè)對大模型未來發(fā)展?jié)摿Φ钠诖?。但大模型歸根結底是關于生產力的革命,終究還是要回歸真實場景,解決實際問題。這是技術的最終歸宿,也是大模型良性發(fā)展的開端。

不止于賽博中醫(yī),藥物研發(fā)、臨床輔助診斷已有成效

出現在很多醫(yī)院或體檢中心的AI中醫(yī)機器人,因如老中醫(yī)一般把脈、開方,形成反差感,而被戲稱為“賽博中醫(yī)”。這其中或有調侃成分,但也確實讓更多人開始關注到了傳統(tǒng)中醫(yī)藥的與時俱進。

多位采訪對象表示,現階段的中醫(yī)藥大模型應用場景主要包括新藥研發(fā)、問診導診、輔助診療和康復健康管理。

中醫(yī)聰寶董事長顧高生認為,中醫(yī)藥+大模型是傳統(tǒng)中醫(yī)藥服務的一場革命,面向康養(yǎng)機構、藥店診所等偏消費場景的大健康養(yǎng)生服務是中醫(yī)藥大模型目前最有希望落地的場景,當然2C場景更有市場,“這類場景語言交互需求強,和大模型在語義理解、生成交互的技術優(yōu)勢是比較契合的。在輔助診療場景,則考驗大模型對多模態(tài)數據訓練、處理和圖像識別上的能力,也有非常好的應用前景,如,聰寶基于深度學習技術的國醫(yī)大師專病機器人,加入了大模型技術后,就實現了系統(tǒng)升級,預訓練模型減少了20%的訓練時間,處方相似度提升了10%。”

中醫(yī)聰寶研發(fā)的“聰寶素問”大模型,可對用戶提出的中醫(yī)藥問題做到“有問必答”,并通過“圍欄”技術保障養(yǎng)生保健應用所必須的科學與嚴謹。需要注意的是,“聰寶素問”大模型已經升級到了3.0版本,如杭州市衛(wèi)健委“智能中醫(yī)分診服務”通過機器人問答來匹配“適合你的中醫(yī)”,系統(tǒng)上線“浙里辦”;應用場景更多元化,可根據多模數據和專家經驗數據,為醫(yī)療機構、醫(yī)生、保險公司、醫(yī)藥企業(yè)賦能。

中醫(yī)藥大模型對新藥研發(fā)、中藥產業(yè)發(fā)展的助力,也吸引了大批中藥企業(yè)的注意力。

如天士力“數智本草”大模型能夠幫助研究者完成中醫(yī)藥理論證據的挖掘和總結,也可結合相應算法快捷實現藥材與復方的篩選和優(yōu)化。根據“天士力研究院”信息,天士力利用大模型中天然產物分子大模型,完成糖尿病腎病及肺纖維化的天然產物分子篩選,通過高效虛擬篩選,精準預測和優(yōu)化候選分子的藥效和安全性,從而加速中藥組分新藥的發(fā)現和開發(fā)過程。

此外,由國藥太極作為智庫聯(lián)合開發(fā)的“本草智庫·中藥大模型”,收錄了覆蓋中藥全產業(yè)鏈的2000余萬條中藥研究底層核心數據,讓中藥材有了“基因身份證”,實現中藥研究底層核心數據與中藥全產業(yè)鏈關鍵環(huán)節(jié)的有機結合,對中藥材種植、質量控制、藥物研發(fā)等中藥全產業(yè)鏈關鍵環(huán)節(jié)有中藥價值。

中醫(yī)輔助診療是大多數中醫(yī)藥大模型都希望實現的能力,但各廠商的研發(fā)路徑卻不盡相同。大經中醫(yī)創(chuàng)始人、CEO李文友說到,中醫(yī)診療數字化和智能化一直是中醫(yī)現代化發(fā)展的重要方向之一,按照技術演進路徑,已經歷了符號邏輯、機器學習和深度學習三大階段,隨著技術的進步,模型規(guī)模的擴大,使得模型出現了“知識涌現”的能力。至此,人工智能進入“生成式AI”新時代??梢哉f,中醫(yī)藥大模型是部分中醫(yī)智能輔助診療系統(tǒng)在大模型技術作用下的迭代產物。

2023年8月,大經中醫(yī)發(fā)布的“岐黃問道”大模型便是基于其完備的知識圖譜體系生長起來的。大經中醫(yī)基于過往八年的高質量中醫(yī)數據和數智中醫(yī)計算積累,構建了完備的中醫(yī)知識圖譜體系,并將其應用在中醫(yī)CDSS系統(tǒng)中。而知識圖譜轉化所形成的1100多萬條中醫(yī)自然語義數據也成為了大經中醫(yī)“岐黃問道”大模型的訓練數據。

大經中醫(yī)副總經理、研發(fā)總負責人趙靜表示,知識圖譜和大模型深度學習雖然是兩條技術路徑,但可以多技術融合發(fā)展?!笆紫?,我們要利用知識圖譜在可解釋性、可信性、知識標準化方面的優(yōu)勢,增強我們大模型從預訓練到應用的全生命周期各環(huán)節(jié),提升大模型的訓練效果和推理結果的可用性;反之亦然,基于大模型在語義理解、內容生成的技術優(yōu)勢,來增強知識圖譜從構建到應用的全生命周期各環(huán)節(jié),提升知識圖譜生成的效率和質量。”

“沒有場景,形成不了后面的數據反饋,中醫(yī)藥大模型就是一個空中樓閣。”多位受訪者表示,要把大模型放到具體場景中應用,在使用中實現優(yōu)化。

數據是基礎,六大要素組成高質量中醫(yī)數據

一個行業(yè)共識是,在中醫(yī)藥大模型的訓練中,如何收集和整理高質量的中醫(yī)數據,是中醫(yī)大模型開發(fā)面臨的首要問題。在此,我們要先明確,何為高質量的中醫(yī)藥數據?

大經中醫(yī)李文友介紹,中醫(yī)知識鏈包括了人、?。膊。?、癥(癥狀、體征)、證(病理性概括)、法(治療方法)、方(醫(yī)方)、藥物六大要素。以上六類要素完整且要素之間的關系是真實的,即為高質量數據。

首先,中醫(yī)典籍、經典名方、專業(yè)文獻這類靜態(tài)數據,經過專業(yè)的辨?zhèn)未嬲妫勺鳛楦哔|量數據的重要來源之一。在前述表格中,我們也能看到這類數據是很多大模型的數據來源。

例如“海河·岐伯”大模型便是以《黃帝內經》等中醫(yī)典籍為核心,抽取四庫全書醫(yī)家類資料、傳統(tǒng)中醫(yī)文獻與全文中醫(yī)藥械資源的文本素材、以中醫(yī)藥領域的基本概念、知識、理論、基本、藥物、方劑為節(jié)點,以節(jié)點之間的關系為邊,形成的完整知識圖譜。天士力的“數智本草”大模型也是吸納了中藥古籍、方劑、中成藥配方,以及文獻摘要、臨床方案和中藥專利、藥典政策指南等數據,整體參數量達到了380億。

中醫(yī)藥大模型的高質量數據另一個重要來源,是每天在真實診療過程中產生的臨床數據,如脈象、舌象、經絡、穴位數據,以及中醫(yī)專家的醫(yī)案數據、診療經驗等。

但這類數據在價值挖掘上存在兩個難點,一是臨床數據記錄不完整或表述不一,二是一些臨床數據沉淀在各類醫(yī)療機構、名老中醫(yī)工作室中,隱秘性較強。

具體來看,中醫(yī)類電子病歷系統(tǒng),除采集西醫(yī)規(guī)范中的內容外,還需要記錄患者的脈診、舌診、面診等諸多內容。但中醫(yī)電子病歷模板目前尚無全國統(tǒng)一模板,標準不一,以及中醫(yī)生診療記錄習慣不同、專業(yè)術語用詞不規(guī)范等因素,都會不同程度地影響中醫(yī)病歷質量及大模型訓練質量。

此外,中醫(yī)藥學術流派林立,各有其獨特的診療方法論,中醫(yī)歷來也有“道不傳非人、法不傳六耳”的傳統(tǒng)。這都導致中醫(yī)公開數據的質量普遍較低,高質量數據則非常私密。

在數據收集部分,中醫(yī)聰寶通過兩條路徑來收集中醫(yī)臨床數據,一方面,中醫(yī)聰寶基于可規(guī)?;?、可復制的中醫(yī)智能醫(yī)共體/城市中醫(yī)大腦,匯聚了全國18個省市的超5000家醫(yī)療機構,每天系統(tǒng)中產生的“活數據”都可經脫敏后使用;另一方面,中醫(yī)聰寶自主研發(fā)智能中醫(yī)傳承創(chuàng)新平臺,幫助全國不同流派的名老中醫(yī)進行經驗落地。

數據質量的好壞直接關系到模型表現的優(yōu)劣。在數據收集后,開發(fā)單位還要設計數據清洗和預處理策略和規(guī)則,采用文本處理和強化學習等技術,進行自動數據預處理,同時結合人工審查,剔除錯誤和不準確的數據,實現人機協(xié)同的大規(guī)模中醫(yī)診療預料準備,建立高質量的中醫(yī)診療語料庫。比如大經中醫(yī)就花費了八年時間,打造了全國極少數的中醫(yī)癥狀/體征的術語規(guī)范化詞典。

在大經中醫(yī)的岐黃問道大模型中,中醫(yī)專家還會參與大模型的調整反饋工作,讓大模型增加對中醫(yī)知識和中醫(yī)思維的理解,確保中醫(yī)大模型回答的準確性和一致性。大模型的“基礎能力”疊加上中醫(yī)的“行業(yè)能力”后,中醫(yī)大模型就具備了中醫(yī)垂直領域的提煉、分類、模仿、推測、識別等能力,并通過與中醫(yī)行業(yè)多種業(yè)務場景結合,成為可落地、可使用的中醫(yī)大模型。

經觀察,現有中醫(yī)大模型的數據體量最高為百億級,雖然和通用大模型動輒以兆計算的數據規(guī)模相比,前者規(guī)模不大,但這些數據皆是經過清洗的高質量數據,其一條高質量數據的價值或比上百條互聯(lián)網泛內容的數據價值要高得多。

交叉人才、用戶接受度、知識產權等難點尚待解決

中醫(yī)藥大模型,除了需要源源不斷供給的高質量中醫(yī)藥數據,還需要了解行業(yè)Know-how,即對中醫(yī)藥產業(yè)擁有特有的知識,對理解力要求也更高。

大經中醫(yī)李文友表示,中醫(yī)藥大模型更多的是對古老中醫(yī)智慧的數智化傳承,在研發(fā)過程中要注意中醫(yī)思維邏輯的一致性和合理性、個性化治療方案的精準度和有效性,以及大模型需要具備持續(xù)學習和自我迭代的能力,來適應不斷變化的醫(yī)學知識和臨床需求。同時,在研發(fā)團隊建設方面,還要注重研發(fā)團隊的多元化和跨學科融合,以促進大模型的創(chuàng)新和發(fā)展。

除了找到真實應用場景和大量高質量數據外,北京大學重慶大數據研究院智慧中西醫(yī)研究中心副主任、智醫(yī)存內CEO黃新霆認為,用戶接受度也是一個需要值得注意的維度,“提高醫(yī)生、患者的接受度,不僅要有好的診療效果,而且不能給用戶帶來使用上的負擔?!?/p>

中醫(yī)聰寶顧高生提到,當前中國在算法算力被“卡脖子”、運營成本高昂、收益分配等問題。顧高生提到,中醫(yī)素有門派之分,如何對其進行合規(guī)合法合理的產業(yè)化,還需要完善知識產權相關的政策措施。

此外,受訪者們還提到了兼具中醫(yī)知識底蘊和AI技術能力的交叉人才培養(yǎng)、監(jiān)管部門數據權屬界定等問題。

可使用、對用戶有利、經過驗證且基于真實應用場景的,才是中醫(yī)大模型

最后,讓我們直面中醫(yī)和大模型結合過程遇到的質疑。

智醫(yī)存內黃新霆表示,當前行業(yè)缺乏對中醫(yī)藥大模型的標準界定,“目前國內發(fā)布的大模型很多,但要符合中醫(yī)藥大模型的特點卻很難。可使用、對用戶有利、經過驗證,且基于真實應用場景,我認為是中醫(yī)大模型需要具備的幾個重要特點?!?/p>

中醫(yī)聰寶顧高生認為,“療效好”是中醫(yī)大模型的最終評價標準。同時,基于大模型的中醫(yī)信息化系統(tǒng),可以和患者產生更高效率更多維度的交互,這也是新質生產力的表現。

在大經中醫(yī)李文友看來,中醫(yī)和人工智能有很大的同質性。中醫(yī)這門學科存在很多的爭論,其原因在于很多對中醫(yī)不了解的人覺得中醫(yī)太模糊、無法確定。但其實,如果我們將中醫(yī)理解成一個“黑箱”系統(tǒng),輸入患者的癥狀和體征,得到一個有效的方劑,就會發(fā)現這一過程和AI系統(tǒng)的輸入數據、輸出結果類似。

大經中醫(yī)趙靜補充到,中醫(yī)是一門歷史悠久、富含哲理的醫(yī)學體系。核心在于辨證論治、因人而異的治療原則。中醫(yī)這種高度個性化和綜合性的診療思路,和大模型技術在處理復雜關聯(lián)性、模式識別和深度學習的能力是相輔相成的。

總的來說,中醫(yī)拒絕不了大模型,這也是時代發(fā)展的必然趨勢。大模型以其強大的數據處理和分析能力,為中醫(yī)傳承與創(chuàng)新注入了新的活力,然而我們也要清醒認識到,大模型只是工具,中醫(yī)的望聞問切、整體觀念和辨證論治等獨特觀念,依然是中醫(yī)藥的靈魂所在。

本文為轉載內容,授權事宜請聯(lián)系原著作權人。