BOX
總結(jié)了LLM的優(yōu)勢(shì)和局限性,以及它們?cè)谔岣哚t(yī)學(xué)臨床、教育和研究工作的效率和效果方面的潛力。
可作為感興趣的臨床醫(yī)師的入門讀物,將確定是否以及如何將LLM技術(shù)用于醫(yī)療保健,以造福患者和醫(yī)師。
大型語言模型(LLM)可以響應(yīng)自由文本查詢,而無需在相關(guān)任務(wù)中進(jìn)行專門訓(xùn)練,這引起了人們對(duì)其在醫(yī)療保健環(huán)境中的使用的興奮和擔(dān)憂。ChatGPT是一種生成式人工智能(AI)聊天機(jī)器人,通過LLM的復(fù)雜微調(diào)而產(chǎn)生,其他工具正在通過類似的開發(fā)過程出現(xiàn)。在這里,我們概述了LLM應(yīng)用程序(如ChatGPT)是如何開發(fā)的,并討論了如何在臨床環(huán)境中利用它們。我們考慮了LLM的優(yōu)勢(shì)和局限性,以及它們?cè)谔岣哚t(yī)學(xué)臨床、教育和研究工作的效率和效果方面的潛力。LLM聊天機(jī)器人已經(jīng)被部署在一系列生物醫(yī)學(xué)背景中,取得了令人印象深刻但好壞參半的結(jié)果。本綜述可作為感興趣的臨床醫(yī)師的入門讀物,他們將確定是否以及如何將LLM技術(shù)用于醫(yī)療保健,以造福患者和醫(yī)師。
大型語言模型(Large language models,LLM)是一種人工智能(AI)系統(tǒng),它接受了來自文章、書籍和其他基于互聯(lián)網(wǎng)的內(nèi)容的數(shù)十億個(gè)單詞的訓(xùn)練。通常,LLM使用神經(jīng)網(wǎng)絡(luò)架構(gòu),利用深度學(xué)習(xí)(已經(jīng)在醫(yī)學(xué)領(lǐng)域取得了令人印象深刻的成果)來表示基于文本的訓(xùn)練數(shù)據(jù)集中單詞之間復(fù)雜的關(guān)聯(lián)關(guān)系。通過這個(gè)可能是多階段的,涉及不同程度的人工輸入的訓(xùn)練過程,LLM學(xué)習(xí)如何在語言中使用單詞交互,并可以應(yīng)用這些學(xué)習(xí)到的模式來完成自然語言處理任務(wù)。
自然語言處理描述了計(jì)算研究的廣闊領(lǐng)域,旨在以模仿人類能力的方式促進(jìn)語言的自動(dòng)分析。生成式AI開發(fā)人員的目標(biāo)是產(chǎn)生可以按需創(chuàng)造內(nèi)容的模型,并與應(yīng)用程序中的自然語言處理(如聊天機(jī)器人和文本預(yù)測(cè))相交叉,換句話說,就是“自然語言生成”任務(wù)。經(jīng)過多年的發(fā)展,LLM現(xiàn)在出現(xiàn)了“few shot”或“zero shot”屬性,這意味著它們可以通過很少或沒有特定的微調(diào)識(shí)別,解釋和生成文本。一旦模型大小、數(shù)據(jù)集大小和計(jì)算資源足夠大,這些“few shot”和“zero shot”屬性就會(huì)出現(xiàn)。隨著深度學(xué)習(xí)技術(shù)、強(qiáng)大的計(jì)算資源和用于訓(xùn)練的大型數(shù)據(jù)集的發(fā)展,具有顛覆跨部門(包括醫(yī)療保?。┱J(rèn)知工作潛力的LLM應(yīng)用已經(jīng)開始出現(xiàn)(圖1)。
ChatGPT (OpenAI)是一個(gè)LLM聊天機(jī)器人:一個(gè)生成AI應(yīng)用程序,現(xiàn)在產(chǎn)生文本來響應(yīng)多模態(tài)輸入(以前只接受文本輸入)。它的后端LLM是Generative Pretrained Transformer 3.5或4 (GPT-3.5或GPT-4),描述如下。ChatGPT的影響源于它的會(huì)話交互性,以及在包括醫(yī)學(xué)在內(nèi)的多個(gè)領(lǐng)域的認(rèn)知任務(wù)中接近人類水平或等同于人類水平的表現(xiàn)。ChatGPT在美國醫(yī)學(xué)執(zhí)照考試中達(dá)到了及格水平,并且有建議認(rèn)為LLM應(yīng)用程序可以用于臨床,教育或研究部署。然而,自主部署的潛在應(yīng)用和能力還存在爭(zhēng)議:筆試是未經(jīng)驗(yàn)證的臨床表現(xiàn)指標(biāo),而缺乏良好基準(zhǔn)使得性能評(píng)估成為一項(xiàng)重大挑戰(zhàn)。目前的LLM技術(shù)似乎有可能在密切監(jiān)督下成為最有效的工具。
本文以ChatGPT為例,探討了最先進(jìn)的LLM在醫(yī)學(xué)中的應(yīng)用。首先,本文解釋了LLM的開發(fā),概述了開發(fā)這些模型時(shí)使用的模型架構(gòu)和培訓(xùn)流程。接下來,討論了LLM技術(shù)在醫(yī)學(xué)中的應(yīng)用,重點(diǎn)討論了已發(fā)表的用例。然后描述了LLM技術(shù)在醫(yī)學(xué)應(yīng)用中的技術(shù)限制和障礙,為未來卓有成效的研究和發(fā)展指明了方向。LLM目前處于醫(yī)學(xué)AI的前沿,在提高臨床、教育和研究工作的效率和效果方面具有巨大的潛力,但它們需要廣泛的驗(yàn)證和進(jìn)一步的發(fā)展,以克服技術(shù)弱點(diǎn)。
LLM的大小并不是控制其效用的唯一重要因素:ChatGPT目前在醫(yī)療保健研究中產(chǎn)生了最大的興趣,盡管它的初始后端LLM GPT-3.5沒有顯示出最大數(shù)量的參數(shù)(圖1)。這要?dú)w功于復(fù)雜的微調(diào),特別是對(duì)人類輸入查詢的適當(dāng)響應(yīng)。ChatGPT及其后端LLM,GPT-3.5和GPT-4,提供了一個(gè)有用的案例研究,來解釋開發(fā)最先進(jìn)的LLM應(yīng)用程序所需的架構(gòu)、資源和培訓(xùn),盡管最新的技術(shù)發(fā)展仍然是保密的。
第一版GPT (GPT-1)于2018年發(fā)布。GPT-1的訓(xùn)練是半監(jiān)督的,包括最初的無監(jiān)督預(yù)訓(xùn)練,以編程語言中使用的單詞之間的關(guān)聯(lián)關(guān)系,然后進(jìn)行監(jiān)督微調(diào),以優(yōu)化指定自然語言處理任務(wù)的性能。為了簡(jiǎn)化優(yōu)化,結(jié)構(gòu)化輸入查詢(例如,因果順序的段落、離散段落以及多項(xiàng)選擇題和答案)被轉(zhuǎn)化為單詞的單一線性序列。對(duì)于預(yù)訓(xùn)練,GPT-1使用了BooksCorpus數(shù)據(jù)集,該數(shù)據(jù)集包含11,308本小說,包含約7400萬個(gè)句子,或1個(gè)×10^9單詞。這種新型模型的總體表現(xiàn)是顯著的——在12個(gè)自然語言處理任務(wù)中,有9個(gè)優(yōu)于定制模型,在許多情況下,Zero Shot的表現(xiàn)可以接受。
GPT-2(2019年發(fā)布)擁有15億個(gè)參數(shù),比前一代產(chǎn)品大10倍。它的訓(xùn)練數(shù)據(jù)來自WebText,這是一個(gè)來自800多萬份文檔的40gb (GB)數(shù)據(jù)集。GPT-2最初在幾個(gè)自然語言處理任務(wù)上進(jìn)行了評(píng)估——閱讀理解、總結(jié)、翻譯和問題回答——表現(xiàn)優(yōu)于許多專門為狹窄用例訓(xùn)練的定制模型,即使是Zero Shot。GPT-2證明了大型模型在最先進(jìn)水平的不熟悉任務(wù)中執(zhí)行的能力,但在文本摘要任務(wù)中表現(xiàn)明顯較弱,其性能與定制模型相似或更低。在Few Shot設(shè)置或使用任務(wù)提示時(shí),性能得到了提高,這說明了這些LLM集成提示信息以更好地實(shí)現(xiàn)用戶目標(biāo)的能力。
2020年,GPT-3發(fā)布,具有1750億個(gè)參數(shù),比GPT-2大100多倍。更廣泛的訓(xùn)練賦予了它更大的“Few Shot”和“Zero Shot”能力,在各種各樣的自然語言處理任務(wù)中取得了最先進(jìn)的表現(xiàn)。訓(xùn)練數(shù)據(jù)集由5個(gè)語料庫組成,包含45 TB (TB)數(shù)據(jù):Common Crawl(網(wǎng)頁),WebText2, Books1, Books2和Wikipedia。總的來說,GPT-3的開發(fā)專門解決了其前輩的弱點(diǎn),是設(shè)計(jì)最復(fù)雜的LLM。GPT-4現(xiàn)在已經(jīng)發(fā)布,并且在自然語言處理以及各種專業(yè)能力測(cè)試中獲得了比GPT-3更高的性能。此外,GPT-4接受多模式輸入:圖像可以包含在用戶查詢中。它的架構(gòu)、開發(fā)和培訓(xùn)數(shù)據(jù)仍然是保密的,但GPT-4已經(jīng)在ChatGPT的一個(gè)版本中實(shí)現(xiàn),并且可以通過應(yīng)用程序編程接口(API)訪問。
已發(fā)布的GPT模型的預(yù)訓(xùn)練任務(wù)被稱為語言建模:預(yù)測(cè)序列或句子中的下一個(gè)和/或前一個(gè)“標(biāo)記”(通常類似于“單詞”)。其他通過語言建模預(yù)訓(xùn)練的模型包括LLaMA、MT-NLG、對(duì)話應(yīng)用語言模型(LaMDA)、Anthropic-LM、Pathways語言模型(PaLM)和Open pretrained Transformer (OPT)(圖1)。存在許多替代的訓(xùn)練模式,從掩碼語言建模(完形填空任務(wù):預(yù)測(cè)序列中的掩碼tokens)和置換語言建模(使用隨機(jī)抽樣的輸入令牌進(jìn)行語言建模)到去噪自動(dòng)編碼(在故意損壞后恢復(fù)未失真的輸入)和下一個(gè)句子預(yù)測(cè)(區(qū)分句子是否連續(xù))。使用這些替代模式開發(fā)的模型包括Gato、DALL-E、增強(qiáng)語言表示使用信息實(shí)體(ERNIE),雙向編碼Transformer(BERT)和雙向自回歸Transformer(BART)(圖1)。
要開發(fā)有用的應(yīng)用程序,需要對(duì)LLM進(jìn)行進(jìn)一步的微調(diào),如GPT-3.5的工程所示,它對(duì)自由文本輸入提示產(chǎn)生適當(dāng)?shù)捻憫?yīng)(圖2)。在這里,微調(diào)涉及將GPT-3暴露于由人類研究人員作為應(yīng)用程序用戶和AI助手產(chǎn)生的提示和響應(yīng);這促進(jìn)了模型學(xué)習(xí)如何正確回答自定義查詢。接下來,“人類反饋中強(qiáng)化學(xué)習(xí)”(RLHF)使用獎(jiǎng)勵(lì)模型進(jìn)行訓(xùn)練,該模型是由人類評(píng)分者生成的數(shù)據(jù)訓(xùn)練而成的,這些評(píng)分者負(fù)責(zé)對(duì)一組查詢的GPT-3.5響應(yīng)進(jìn)行排名。這種獎(jiǎng)勵(lì)模型使自主RLHF的規(guī)模遠(yuǎn)遠(yuǎn)大于人工對(duì)每個(gè)模型反應(yīng)進(jìn)行分級(jí)。為了提高安全性和安全性,使用模型生成的輸入查詢和輸出完成了進(jìn)一步的自主對(duì)抗性訓(xùn)練。
后續(xù)版本的ChatGPT,現(xiàn)在集成GPT-4作為其后端LLM尚無了解,因?yàn)樾碌募軜?gòu),數(shù)據(jù)集和訓(xùn)練是保密的。然而,在GPT-3.5和ChatGPT的初始版本的訓(xùn)練中觀察到的類似原則是合理的,因?yàn)樾碌暮团f的模型容易出現(xiàn)類似的錯(cuò)誤——盡管新的訓(xùn)練模式可能已經(jīng)使用來自快速增長的用戶群的數(shù)據(jù)開發(fā)出來(圖2,虛線箭頭)。即使在單獨(dú)的對(duì)話中,ChatGPT也表現(xiàn)出了非凡的“學(xué)習(xí)”能力,特別是通過提供挑戰(zhàn)任務(wù)的示例來提高性能——從Zero Shot執(zhí)行到Few Shot執(zhí)行。用戶提供的示例使LLM能夠在類似于其初始開發(fā)中使用的微調(diào)過程中訓(xùn)練自己。
除了ChatGPT之外,臨床醫(yī)生和患者也可以使用其他LLM聊天機(jī)器人。必應(yīng)的AI聊天機(jī)器人(微軟)便于訪問GPT-4,而無需付費(fèi)訪問ChatGPT。Sparrow (DeepMind)是使用LLM“Chinchilla”構(gòu)建的,通過利用Google搜索結(jié)果、人類反饋和廣泛的初始化提示(591個(gè)單詞長,包含23個(gè)明確規(guī)則)來減少不準(zhǔn)確和不恰當(dāng)內(nèi)容。ChatGPT的對(duì)抗性測(cè)試沒有顯示出類似的初始化提示,盡管這些測(cè)試是不確定的,因?yàn)榘踩胧┛赡芤呀?jīng)實(shí)現(xiàn)以隱藏初始指令。blendbot 3(Meta)也利用互聯(lián)網(wǎng)訪問來提高準(zhǔn)確性,使用OPT作為其后端LLM2。blendbot 3在發(fā)布后可能會(huì)通過使用有機(jī)生成的數(shù)據(jù)繼續(xù)提高性能,如與ChatGPT的關(guān)系(圖2,虛線箭頭)所述。Google Bard最初是使用LaMDA構(gòu)建的,但現(xiàn)在利用了PaLM 2,它在通用和特定領(lǐng)域的能力方面與GPT-4相媲美。HuggingChat提供免費(fèi)訪問的聊天機(jī)器人具有與ChatGPT相似的接口,但使用大型語言模型元AI(LLaMA)作為其后端模型。最后,對(duì)最先進(jìn)的LLM聊天機(jī)器人的廉價(jià)模仿可能由擁有相對(duì)中等處理能力的個(gè)人開發(fā)。
在目前的形式下,LLM并不準(zhǔn)備取代醫(yī)生,因?yàn)閷I(yè)檢查的能力遠(yuǎn)非完美,會(huì)引發(fā)嚴(yán)重的不準(zhǔn)確性和不確定性問題(除了倫理問題,如下所述)。雖然最近報(bào)告的跨專業(yè)基準(zhǔn)的表現(xiàn)令人印象深刻,但需要進(jìn)行特定的評(píng)估和驗(yàn)證,以證明任何特定的效能和效用。從根本上說,臨床實(shí)踐與正確回答考試問題是不一樣的,找到適當(dāng)?shù)幕鶞?zhǔn)來衡量LLM的臨床潛力是一個(gè)巨大的挑戰(zhàn)。然而,令人鼓舞的結(jié)果表明,現(xiàn)有的技術(shù)已經(jīng)很好地影響了臨床實(shí)踐,進(jìn)一步的發(fā)展可能會(huì)加速和擴(kuò)大自然語言處理AI在醫(yī)學(xué)中的應(yīng)用。
降低開發(fā)的經(jīng)濟(jì)、計(jì)算和環(huán)境成本
GPT-3和GPT-4的開發(fā)依賴于微軟Azure提供的一些最強(qiáng)大的計(jì)算硬件。這種能源密集型的基礎(chǔ)設(shè)施有著可觀的碳足跡,大量的投資致力于提高硬件和軟件的效率,以最大限度地降低開發(fā)的環(huán)境成本。培訓(xùn)LLM的成本和能源需求一直呈下降趨勢(shì),預(yù)計(jì)到2030年左右將達(dá)到個(gè)人負(fù)擔(dān)得起的水平。然而,快速的創(chuàng)新正在加速進(jìn)步,甚至比預(yù)期的還要快。例如,研究人員使用GPT-3.5 API生成的查詢和輸出,對(duì)一個(gè)小型(70億個(gè)參數(shù))版本的LLaMA進(jìn)行了微調(diào)。daughter model, Alpaca實(shí)現(xiàn)了類似的性能,GPT-3.5,盡管其更小的架構(gòu),在數(shù)小時(shí)的順序訓(xùn)練時(shí)間和總成本不到600美元。如果使用GPT-4、PaLM 2或隨后開發(fā)的LLM的數(shù)據(jù)進(jìn)行微調(diào),以更大的LLM為基礎(chǔ)的模型(例如650億個(gè)參數(shù)版本的LLaMA)的性能可能會(huì)產(chǎn)生更令人印象深刻的結(jié)果。除了降低訓(xùn)練高性能模型的經(jīng)濟(jì)成本和環(huán)境影響外,這些方法還可以大量增加LLM的可及性。例如,大量減少開發(fā)高性能LLM所需的資源可以使這項(xiàng)技術(shù)民主化,使更多的臨床醫(yī)生能夠開發(fā)用于特定臨床目的的工具,并使低收入和中等收入國家的研究人員能夠開發(fā)和采用LLM應(yīng)用程序。
然而,這種“模仿”的開發(fā)可能會(huì)對(duì)投資大量資金開發(fā)最先進(jìn)模型的公司產(chǎn)生嚴(yán)重影響。即使訓(xùn)練數(shù)據(jù)、模型架構(gòu)和微調(diào)協(xié)議完全保密,就像GPT-4一樣,提供大規(guī)模訪問(例如通過API)允許外部研究人員從父模型中構(gòu)建足夠的問題和答案庫,以便對(duì)開源LLM進(jìn)行微調(diào),并產(chǎn)生交互式子模型,其性能接近父模型。廉價(jià)的模仿可能會(huì)損害激勵(lì)這一領(lǐng)域投資的競(jìng)爭(zhēng)護(hù)城河,并可能導(dǎo)致公司限制對(duì)其模型的訪問。例如,未來的尖端LLM可能不會(huì)提供API訪問,除非達(dá)成不開發(fā)競(jìng)爭(zhēng)模型的約束性協(xié)議。此外,子模型的擴(kuò)散引入了關(guān)于處理的另一層不確定性,加劇了如下所述的“黑箱”問題。
近幾個(gè)月來,已經(jīng)報(bào)道了LLM技術(shù)的許多用例,特別是ChatGPT(圖3)。高質(zhì)量研究對(duì)于確定新技術(shù)的優(yōu)勢(shì)和局限性至關(guān)重要,但試圖確定新技術(shù)效用的精心設(shè)計(jì)的在臨床、教育或研究環(huán)境中實(shí)施基于LLM的創(chuàng)新工具實(shí)用性試驗(yàn)很少。
臨床應(yīng)用
ChatGPT在醫(yī)學(xué)上引起了特別的關(guān)注,因?yàn)樗诿绹t(yī)學(xué)執(zhí)照考試中獲得了及格成績(jī),GPT-4的表現(xiàn)明顯高于其前身GPT-3.5。對(duì)醫(yī)療數(shù)據(jù)進(jìn)行微調(diào)的PaLM 2版本“Med-PaLM 2”(谷歌)最近取得了接近人類臨床專家水平的最新成果。當(dāng)ChatGPT對(duì)患者查詢的回答與醫(yī)生提供的回答(在空閑時(shí)間在社交網(wǎng)絡(luò)上回答)進(jìn)行比較時(shí),當(dāng)醫(yī)生將LLM的輸出作為定性指標(biāo)進(jìn)行分析時(shí),LLM的輸出在質(zhì)量和同理心方面更受青睞。這導(dǎo)致人們認(rèn)為AI已經(jīng)準(zhǔn)備好取代醫(yī)生,但現(xiàn)實(shí)并非如此。即使是在醫(yī)學(xué)生考試中,成績(jī)也遠(yuǎn)談不上完美,沒有報(bào)道分?jǐn)?shù)接近100%。ChatGPT已被證明不能通過醫(yī)生的專家檢查,并在回應(yīng)患者關(guān)于心血管疾病預(yù)防的實(shí)際問題時(shí)提供不準(zhǔn)確的信息。盡管表現(xiàn)出解釋臨床小片段和回答相關(guān)問題的能力,LLM往往不能提供適合患者個(gè)人的信息的回答。這些數(shù)據(jù)排除了自主部署決策或患者溝通,特別是患者往往無法區(qū)分LLM和人類臨床醫(yī)生提供的信息。由于連續(xù)模型傾向于獲得定量而非定性收益(易受相同弱點(diǎn)的影響,盡管頻率較低),因此至少在可預(yù)見的未來,這是可能的現(xiàn)狀。
特定于領(lǐng)域的LLM可能通過提供新穎的功能而證明是有用的。在驗(yàn)證性研究中,F(xiàn)oresigh利用811,336例患者電子健康記錄的非結(jié)構(gòu)化數(shù)據(jù)對(duì)GPT架構(gòu)進(jìn)行了微調(diào),證明了其在預(yù)測(cè)和預(yù)后方面的有效性。一般風(fēng)險(xiǎn)模型可以為目前用于對(duì)患者進(jìn)行分層和分診的眾多工具提供一種強(qiáng)大的替代方案。其他潛在用途包括反事實(shí)模擬和虛擬臨床試驗(yàn),它們可以促進(jìn)有價(jià)值的風(fēng)險(xiǎn)-回報(bào)推斷,從而加速臨床研究,這些推斷可以告知研究者哪些研究最有可能為患者提供價(jià)值。新型架構(gòu),如混合價(jià)值感知轉(zhuǎn)換器(HVAT),可以通過縱向、多模式臨床數(shù)據(jù)的集成進(jìn)一步提高LLM的性能。
ChatGPT在不需要專業(yè)知識(shí)或在用戶提示中提供的任務(wù)中表現(xiàn)出更強(qiáng)的性能。這為實(shí)現(xiàn)提供了比臨床決策輔助工具更有前景的途徑。LLM能夠快速吸收、總結(jié)和改寫信息,從而減輕臨床醫(yī)生的行政負(fù)擔(dān)。出院總結(jié)是一個(gè)具有指導(dǎo)意義的例子,這是一種重復(fù)的任務(wù),涉及對(duì)信息的解讀和壓縮,幾乎不需要解決問題或回憶。新興的多模態(tài)模型將擴(kuò)展功能,并與更多的數(shù)據(jù)來源兼容。甚至醫(yī)生的筆跡也可能被自動(dòng)、準(zhǔn)確地解讀。微軟和谷歌的目標(biāo)是將ChatGPT和PaLM 2分別集成到整個(gè)管理工作流程中,允許視頻通話、文檔、電子表格、演示文稿和電子郵件中的信息無縫地自動(dòng)集成。然而,在患者健康面臨風(fēng)險(xiǎn)的臨床背景下進(jìn)行部署需要廣泛的驗(yàn)證。質(zhì)量評(píng)估對(duì)于確?;颊甙踩托姓什皇軗p害至關(guān)重要,并且需要特定的治理結(jié)構(gòu)來分配責(zé)任。
教育應(yīng)用
GPT-4和Med-PaLM 2在醫(yī)學(xué)測(cè)試中的出色表現(xiàn)表明,對(duì)于目前在此類測(cè)試中達(dá)到較低水平的學(xué)生,LLM可能是有用的教學(xué)工具。GPT-4的提示功能允許用戶明確描述聊天機(jī)器人在對(duì)話期間所扮演的期望角色;有用的例子包括“蘇格拉底導(dǎo)師模式”,它鼓勵(lì)學(xué)生自己思考,降低問題的難度,直到學(xué)生能夠解決手頭更全面的問題。對(duì)話日志可以讓真人教師監(jiān)控學(xué)生的進(jìn)步,并直接針對(duì)學(xué)生的弱點(diǎn)進(jìn)行教學(xué)。非營利教育機(jī)構(gòu)可汗學(xué)院(Khan Academy)正在積極研究如何將GPT-4等AI工具應(yīng)用于“Khanmigo”,以優(yōu)化在線教學(xué)。Duolingo是一個(gè)主要免費(fèi)的語言學(xué)習(xí)平臺(tái),在角色扮演和答案解釋方面實(shí)現(xiàn)了GPT-4功能,以提高在線學(xué)習(xí)的互動(dòng)性。類似的工具也有可能增強(qiáng)醫(yī)學(xué)教育。
然而,謹(jǐn)慎是必要的,因?yàn)轭l繁的錯(cuò)誤——尤其是在醫(yī)學(xué)領(lǐng)域——以及缺乏伴隨輸出的不確定性指標(biāo),對(duì)LLM教師來說是一個(gè)相當(dāng)大的問題:學(xué)生如何知道他們的教學(xué)是否準(zhǔn)確?永久保留錯(cuò)誤和偏見是采用LLM的一個(gè)風(fēng)險(xiǎn)。盡管存在這些局限性,LLM工具仍可在專家監(jiān)督下以前所未有的規(guī)模高效地制作教學(xué)材料,如臨床片段、評(píng)估問題和內(nèi)容摘要。多模態(tài)LLM可以讓教師更快地整合和分析不同格式的學(xué)生制作的材料,和那些用臨床用例描述的材料有類似的好處。
研究應(yīng)用
與臨床用例一樣,LLM的不準(zhǔn)確性阻礙了自主部署,但在輔助角色中部署可能會(huì)顯著提高效率??梢灾笇?dǎo)模型簡(jiǎn)明扼要地總結(jié)信息,詳盡地描述提供的一組結(jié)果,或者改寫段落以適應(yīng)特定的讀者或受眾。使用特定領(lǐng)域信息進(jìn)行微調(diào)的模型可能表現(xiàn)出優(yōu)越的性能,示例來自一個(gè)LLM (BERT),包括PubMedBERT和BioBERT。這可以減輕批判性評(píng)估、研究報(bào)告和同行評(píng)議的負(fù)擔(dān),這些構(gòu)成了研究人員工作負(fù)荷的重要組成部分。通過確保使用這些工具的臨床醫(yī)師和研究人員對(duì)其產(chǎn)出負(fù)責(zé),與問責(zé)有關(guān)的問題將得到改善。
LLM可以促進(jìn)新的研究,如更大的規(guī)模語言分析比以前成為可能。示范性的例子包括ClinicalBERT、GPT-3.5和GatorTron,它們都很好地使研究人員能夠有效地分析大量臨床文本數(shù)據(jù)。LLM也可能推動(dòng)不太明顯相關(guān)領(lǐng)域的研究,因?yàn)榛谖谋镜男畔牟粌H僅是人類語言。例如,遺傳和蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)通常以文本形式表示,并且適用于由LLM促進(jìn)的自然語言處理技術(shù)。模型已經(jīng)產(chǎn)生了令人印象深刻的結(jié)果:AlphaFold從氨基酸序列推斷出蛋白質(zhì)結(jié)構(gòu);ProGen生成具有可預(yù)測(cè)生物學(xué)功能的蛋白質(zhì)序列;TSSNote-CyaPromBERT識(shí)別細(xì)菌的啟動(dòng)子區(qū)域DNA。最后,用于分析患者數(shù)據(jù)的生成式AI應(yīng)用程序也可用于生成合成數(shù)據(jù);通過適當(dāng)?shù)馁|(zhì)量評(píng)估,這可以通過增加可用于開發(fā)LLM和其他AI工具的訓(xùn)練語料庫的規(guī)模來擴(kuò)大臨床研究。
有幾個(gè)問題和限制阻礙了ChatGPT和其他類似應(yīng)用的臨床大規(guī)模部署(表1)。首先,訓(xùn)練數(shù)據(jù)集不足以確保生成的信息準(zhǔn)確和有用。造成這一情況的一個(gè)原因是缺乏時(shí)效性:GPT-3.5和GPT-4 (ChatGPT的后端LLM)主要使用截至2021年9月生成的文本進(jìn)行訓(xùn)練。隨著包括醫(yī)學(xué)在內(nèi)的各個(gè)領(lǐng)域的研究和創(chuàng)新不斷進(jìn)行,缺乏最新內(nèi)容可能會(huì)加劇不準(zhǔn)確性。當(dāng)語言突然發(fā)生變化時(shí),這個(gè)問題就尤其成問題,比如研究人員發(fā)明了新的術(shù)語,或者改變了描述新發(fā)現(xiàn)和新方法的特定詞匯的使用方式。當(dāng)范式轉(zhuǎn)變時(shí)也會(huì)出現(xiàn)問題——例如,當(dāng)被認(rèn)為是不可能的事情實(shí)現(xiàn)時(shí)。當(dāng)前的例子包括以前所未有的速度開發(fā)2019冠狀病毒?。–OVID-19)疫苗,以及針對(duì)以前“不可制藥”靶點(diǎn)的抗腫瘤藥物,如KRAS。如果類似事件超過了訓(xùn)練數(shù)據(jù)集的閾值日期,模型將不可避免地對(duì)相關(guān)查詢提供低質(zhì)量的響應(yīng)。因此,與醫(yī)療專業(yè)人員協(xié)商仍然至關(guān)重要。
其次,訓(xùn)練數(shù)據(jù)沒有驗(yàn)證特定領(lǐng)域的準(zhǔn)確性,這導(dǎo)致了“垃圾輸入,垃圾輸出”的問題——早在1864年,現(xiàn)代計(jì)算之父查爾斯·巴貝奇(Charles Babbage)就描述過(更有說服力)。GPT-3.5是根據(jù)書籍、維基百科和更廣泛的互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練的,沒有設(shè)計(jì)任何機(jī)制來交叉檢查或驗(yàn)證這些文本的準(zhǔn)確性。盡管LLM的大小令人印象深刻,有1750億個(gè)參數(shù),但GPT-3.5僅使用570 GB進(jìn)行初始訓(xùn)練,這只是互聯(lián)網(wǎng)上可用數(shù)據(jù)的一小部分,估計(jì)為120 zb (1.2 ×10^14GB)。然而,多樣化、高質(zhì)量的文本數(shù)據(jù)的相對(duì)稀缺可能會(huì)限制數(shù)據(jù)集,最近的估計(jì)表明,用于訓(xùn)練的新文本可能在幾年內(nèi)耗盡。此外,ChatGPT在響應(yīng)查詢時(shí)無法實(shí)時(shí)訪問互聯(lián)網(wǎng),因此其知識(shí)庫從根本上是有限的。已經(jīng)開發(fā)出了可以在生成應(yīng)答時(shí)訪問互聯(lián)網(wǎng)的替代應(yīng)用程序,如blendbot 3和Sparrow。
第三,LLM沒有被訓(xùn)練成像人類一樣理解語言。通過“學(xué)習(xí)”人類使用的單詞之間的統(tǒng)計(jì)關(guān)聯(lián),GPT-3開發(fā)了一種成功預(yù)測(cè)哪個(gè)單詞最適合完成一個(gè)短語或句子的能力。通過密集的微調(diào)和進(jìn)一步的訓(xùn)練,后續(xù)的模型可能會(huì)發(fā)展出一種能力,對(duì)查詢做出聽起來可信、措辭連貫但不一定準(zhǔn)確的回答。所謂的“幻覺”已被廣泛報(bào)道,其中捏造了不準(zhǔn)確的信息(因?yàn)橛?xùn)練數(shù)據(jù)集中沒有這些信息),并得到了清晰的支持。為了避免不恰當(dāng)?shù)臄M人化,人們更傾向于使用“事實(shí)捏造”等替代術(shù)語。另一方面,LLM可能會(huì)受到自我改進(jìn)的刺激:思維鏈提示與自我一致性的鼓勵(lì)相結(jié)合,促進(jìn)了自主微調(diào),導(dǎo)致具有5400億個(gè)參數(shù)的LLM推理能力提高了5-10%。然而,由于不一致的準(zhǔn)確性和缺乏不確定性指標(biāo),因此需要謹(jǐn)慎部署。
第四,LLM處理是一個(gè)“黑匣子”,使處理和決策的可解讀性具有挑戰(zhàn)性。除非明確要求,否則不引用或解釋答復(fù),并且解釋的實(shí)際代表性不明確。這就造成了準(zhǔn)確性問題,因?yàn)椴磺宄?yīng)該如何對(duì)模型進(jìn)行再訓(xùn)練或微調(diào)以提高性能。參考另一種基于GPT-3的生成式AI,即dall·e2,可以最好地說明這個(gè)問題,dall·e2是一種響應(yīng)基于文本的提示生成圖像的應(yīng)用程序。例如,擔(dān)心皮膚癌的用戶可能會(huì)使用dall·e2來發(fā)現(xiàn)黑色素瘤在他們皮膚上的樣子,但生成的圖像不一定準(zhǔn)確。毫無疑問,類似的問題使ChatGPT變得復(fù)雜,可能導(dǎo)致錯(cuò)誤的保證和診斷延遲。可解釋的AI計(jì)劃可能會(huì)提高可解釋性,但這種在自然語言處理背景下的研究相對(duì)來說是新生的,而機(jī)器學(xué)習(xí)的當(dāng)代技術(shù)似乎不足以真正產(chǎn)生信任。
第五,隨著生成式AI模型的出現(xiàn),倫理問題已經(jīng)出現(xiàn),這些模型能夠產(chǎn)生與人類書面文本無法區(qū)分的響應(yīng)。使用基于有偏見數(shù)據(jù)(例如,來自書籍和互聯(lián)網(wǎng)的未經(jīng)驗(yàn)證的內(nèi)容)訓(xùn)練的模型有可能重復(fù)這些偏見。已經(jīng)注意到LLM應(yīng)用帶來的許多其他風(fēng)險(xiǎn),但本文討論的重點(diǎn)是在臨床背景下最相關(guān)的風(fēng)險(xiǎn)。LLM認(rèn)知輔助促進(jìn)的研究加速可能會(huì)導(dǎo)致安全標(biāo)準(zhǔn)和倫理考慮下降的風(fēng)險(xiǎn)。雖然ChatGPT有明確地設(shè)計(jì)來降低這些風(fēng)險(xiǎn),但問題仍然存在,并已被廣泛報(bào)道,并且對(duì)抗性提示可能用于“越獄”Chat-GPT,逃避其內(nèi)置規(guī)則。盡管為改善這些漏洞做了大量工作,但GPT-4仍然容易受到對(duì)抗性提示方法的攻擊,例如“相反模式”和“系統(tǒng)消息攻擊”。大型科技、工業(yè)和學(xué)術(shù)界的許多知名人士都對(duì)這些風(fēng)險(xiǎn)感到擔(dān)憂,一封呼吁暫停發(fā)展的公開信引起了全世界的關(guān)注。然而,LLM開發(fā)中缺少代表領(lǐng)導(dǎo)者的簽署人,這表明創(chuàng)新將會(huì)繼續(xù),開發(fā)者將會(huì)對(duì)其發(fā)布的產(chǎn)品的安全負(fù)責(zé)。
此外,隨著基于互聯(lián)網(wǎng)的平臺(tái)的采用,安全和隱私問題也隨之而來,尤其是由商業(yè)企業(yè)運(yùn)營的平臺(tái)。如果禁止將患者可識(shí)別的數(shù)據(jù)作為模型提示輸入,則這些擔(dān)憂可能會(huì)限制部署的機(jī)會(huì)。GPT-4還通過吸收其大型訓(xùn)練數(shù)據(jù)和多模態(tài)輸入提示引入了識(shí)別患者的風(fēng)險(xiǎn)。在模型訓(xùn)練期間合并個(gè)人數(shù)據(jù)是不可逆轉(zhuǎn)的,與《一般數(shù)據(jù)保護(hù)條例》(General data Protection Regulation)“被遺忘權(quán)”(right to be forgotten)等法律權(quán)利相沖突。最終,這些禁令和規(guī)定是由人類來遵守的,但自主應(yīng)用提出了一個(gè)嚴(yán)重的問責(zé)問題。
科學(xué)期刊迅速采取行動(dòng),停止對(duì)ChatGPT作為作者的認(rèn)可,提出該技術(shù)不能提供作者所需的問責(zé)制,相反,應(yīng)該像任何其他幫助人類進(jìn)行工作的方法工具一樣被對(duì)待。在更詳細(xì)的用例出現(xiàn)之前,很難設(shè)想和設(shè)計(jì)治理結(jié)構(gòu),以建立AI對(duì)臨床決策的責(zé)任。一個(gè)更基本的倫理問題在于LLM應(yīng)該被允許協(xié)助或參與哪些任務(wù)。盡管可能會(huì)有功利主義的論點(diǎn)來證明任何被證明可以改善患者預(yù)后的干預(yù)措施是合理的,但利益相關(guān)者必須就AI介入的可接受性達(dá)成共識(shí)——無論是自主的、半自主的還是完全從屬的工具。
最后,衡量LLM在臨床任務(wù)中的表現(xiàn)是一個(gè)相當(dāng)大的挑戰(zhàn)。早期的定量研究關(guān)注的是考試,這是在真實(shí)世界環(huán)境中評(píng)估臨床能力的未經(jīng)驗(yàn)證的指標(biāo)。定性評(píng)估已被用于人工環(huán)境(如社交媒體平臺(tái)),由志愿醫(yī)生提供建議。最終,使用LLM的臨床干預(yù)措施應(yīng)該在隨機(jī)對(duì)照試驗(yàn)中進(jìn)行測(cè)試,評(píng)估對(duì)死亡率和發(fā)病率的影響,但是應(yīng)該使用什么基準(zhǔn)來確定干預(yù)措施是否適合于如此昂貴和高風(fēng)險(xiǎn)的試驗(yàn)?下一節(jié)將更深入地討論這些開放性問題以及回答這些問題的方法。
上述局限性提供了有用的指示,表明后續(xù)研究和開發(fā)應(yīng)將重點(diǎn)放在何處,以提高LLM應(yīng)用的效用(圖3)。在培訓(xùn)期間納入特定領(lǐng)域的文本可以提高臨床任務(wù)中的表現(xiàn)。潛在的數(shù)據(jù)來源包括臨床文本(如患者病歷和醫(yī)學(xué)信件)和準(zhǔn)確的醫(yī)學(xué)信息(如指南和同行評(píng)議的文獻(xiàn))?,F(xiàn)有的使用臨床文本構(gòu)建或微調(diào)的模型包括ClinicalBERT、Med-PaLM 2和GatorTron,它們?cè)谏镝t(yī)學(xué)自然語言處理任務(wù)方面的總體表現(xiàn)優(yōu)于各種一般LLM。最新的知識(shí)可以從互聯(lián)網(wǎng)上實(shí)時(shí)獲取,而不是依賴于有限的預(yù)訓(xùn)練數(shù)據(jù)集;必應(yīng)AI和Google Bard已經(jīng)有了這個(gè)功能,ChatGPT也開始接受插件。然而,醫(yī)學(xué)筆記、科學(xué)文獻(xiàn)和其他互聯(lián)網(wǎng)材料中頻繁出現(xiàn)的錯(cuò)誤將繼續(xù)阻礙LLM的性能;臨床實(shí)踐、科學(xué)探究和知識(shí)傳播沒有,也永遠(yuǎn)不會(huì)完美執(zhí)行。數(shù)據(jù)集的質(zhì)量可以通過二次驗(yàn)證來提高,但涉及的文本量可能使我們無法進(jìn)行完全的人工質(zhì)量評(píng)估。機(jī)器學(xué)習(xí)解決方案——包括由專家進(jìn)行初始人工評(píng)分,其結(jié)果用于訓(xùn)練自動(dòng)模型以處理更大規(guī)模的數(shù)據(jù)——在平衡效率和有效性方面可能是最優(yōu)的,如用于優(yōu)化ChatGPT的獎(jiǎng)勵(lì)模型(圖2)。此外,由專家指導(dǎo)的特定任務(wù)的微調(diào)驗(yàn)證(可能通過機(jī)器學(xué)習(xí)進(jìn)行增強(qiáng))可能提高輸出的準(zhǔn)確性和安全性。
目前,捏造的事實(shí)和其他錯(cuò)誤抑制了人們對(duì)LLM輸出的信心,因此需要密切監(jiān)督,尤其是在高風(fēng)險(xiǎn)的醫(yī)療領(lǐng)域。在準(zhǔn)確性提高到與人類專家性能相當(dāng)或超過人類專家性能之前,如果在應(yīng)用程序無法提供有用信息的情況下,將負(fù)責(zé)任的臨床醫(yī)師引入循環(huán),則開發(fā)不確定性指標(biāo)可促進(jìn)在半自治角色中部署。Google Bard最初實(shí)施了防止該模型回答許多臨床問題的保護(hù)措施,但這種籠統(tǒng)的方法限制了醫(yī)療保健工具的開發(fā)和實(shí)現(xiàn)。
當(dāng)LLM被用作工具時(shí),責(zé)任和信用問題必須被解決。同行評(píng)議期刊已經(jīng)采取了多種方法來解決這個(gè)問題——一些直接禁止使用,另一些要求明確描述使用。劍橋大學(xué)出版社發(fā)布了明確的指導(dǎo)意見,總結(jié)了四點(diǎn):首先,必須聲明并清楚地解釋人工智能的使用(與其他軟件、工具和方法一樣);第二,人工智能不符合作者資格要求;第三,人工智能生成的文本不得違反抄襲政策;第四,作者對(duì)使用或不使用人工智能生成的文本的準(zhǔn)確性、完整性和原創(chuàng)性負(fù)責(zé)。然而,目前尚不清楚將如何執(zhí)行任何規(guī)定:盡管正在開發(fā)工具來檢測(cè)人工智能生成的語言,但它們的準(zhǔn)確性目前非常差,特別是對(duì)于較短的文本。“水印”協(xié)議可以通過可檢測(cè)的簽名促進(jìn)高質(zhì)量的文本生成,表明LLM的參與,但這目前尚未在最流行的模型中實(shí)施1。倫理問題和解決方案可能是特定于用例的,但人類監(jiān)督可能是降低風(fēng)險(xiǎn)并確保有責(zé)任的個(gè)人繼續(xù)對(duì)臨床決策負(fù)責(zé)的一種成功的通用方法。雖然這限制了半自動(dòng)人工智能的潛在應(yīng)用,但它們可以通過自動(dòng)化一些耗時(shí)的認(rèn)知?jiǎng)趧?dòng)來徹底改變臨床工作。
其他倫理問題難以通過無法解釋的黑箱模型進(jìn)行研究。因此,盡管文獻(xiàn)中有大量的偏倚證明,但調(diào)查性研究和緩解策略的限制要多得多。The Crowdsourced Stereotype Pairs(CrowS-Pairs)基準(zhǔn)能夠量化偏差,50%對(duì)應(yīng)的是“完美”缺乏美國刻板印象。令人擔(dān)憂的是,所有被測(cè)試的LLM都表現(xiàn)出偏見。然而,積極的開發(fā)減少了有偏見和危險(xiǎn)輸出的發(fā)生率,GPT-4對(duì)不允許內(nèi)容的請(qǐng)求做出響應(yīng)的可能性比其前身GPT-3.5低82%。為了處理這些目前普遍存在的偏倚,“數(shù)據(jù)聲明”可能被用于提供與數(shù)據(jù)集相關(guān)的上下文信息,這些信息可能讓研究者和消費(fèi)者了解所報(bào)告的性能和結(jié)論的普遍適用性。另一方面,可解釋的人工智能計(jì)劃可以解決黑箱問題,促進(jìn)對(duì)偏見和其他倫理問題的更深入理解,通過提供新的研究方法和對(duì)人類大腦語言處理的見解,可以帶來LLM應(yīng)用之外的好處。
工程化防護(hù)措施的價(jià)值取決于它們?cè)诿鎸?duì)對(duì)抗性攻擊時(shí)的穩(wěn)健性,因?yàn)椴环ㄐ袨檎叩囊?guī)避可能會(huì)損害為減輕風(fēng)險(xiǎn)所做的努力。由于廣泛的定向訓(xùn)練,GPT-4比其前輩更穩(wěn)健。然而,還需要進(jìn)一步的工作來解決其遺留的漏洞。外部研究人員通過api使用最先進(jìn)的LLM大規(guī)模生成的數(shù)據(jù)來訓(xùn)練自己的模型(可能沒有任何保護(hù)措施)的能力帶來了額外的風(fēng)險(xiǎn)。GPT-4對(duì)其內(nèi)部工作保密,以保護(hù)隱私,同時(shí)也保持競(jìng)爭(zhēng)優(yōu)勢(shì);API訪問可能會(huì)折中兩者。隨著LLM的能力不斷擴(kuò)大,必須特別注意保護(hù)隱私,因?yàn)榭梢允褂媚P蛷挠?xùn)練數(shù)據(jù)和輸入查詢中的不同信息中識(shí)別患者。臨床醫(yī)師還應(yīng)注意,不要在可能存儲(chǔ)和使用數(shù)據(jù)用于未指明目的的平臺(tái)上輸入可識(shí)別的數(shù)據(jù)。治理結(jié)構(gòu)應(yīng)明確說明在醫(yī)學(xué)領(lǐng)域開發(fā)和使用這些工具時(shí)哪些是允許的,哪些是不允許的。
LLM在醫(yī)學(xué)領(lǐng)域應(yīng)用的實(shí)驗(yàn)研究較少,因此需要嚴(yán)謹(jǐn)?shù)难芯縼碚撟C和驗(yàn)證創(chuàng)新性的用例。前瞻性臨床試驗(yàn)應(yīng)該是實(shí)效性的,反映真實(shí)世界的臨床實(shí)踐,并且應(yīng)該測(cè)試在接受度、有效性和實(shí)用性方面有真正機(jī)會(huì)實(shí)施的干預(yù)措施。例如,AI輔助模型(而不是自主模型)應(yīng)該相對(duì)于標(biāo)準(zhǔn)實(shí)踐進(jìn)行評(píng)估,因?yàn)楸娝苤?,LLM的無監(jiān)督部署不太可能可行。我們需要適當(dāng)?shù)慕K點(diǎn)來衡量成功或失敗,理想情況下可降低死亡率和/或發(fā)病率。其他創(chuàng)新終點(diǎn)可能包括文件質(zhì)量(需要經(jīng)過驗(yàn)證的質(zhì)量評(píng)估)、工作效率和患者或醫(yī)師滿意度。一些人認(rèn)為,開發(fā)和使用經(jīng)過驗(yàn)證的基準(zhǔn)來證明臨床干預(yù)的真正潛力,將是大規(guī)模臨床試驗(yàn)的必要前提,這可能會(huì)為臨床工作中使用LLM提供證據(jù)。然而,由于非基于LLM的聊天機(jī)器人之前已經(jīng)在隨機(jī)對(duì)照試驗(yàn)中進(jìn)行了測(cè)試,并且LLM代表了自然語言處理方面的有意義的進(jìn)步,因此LLM干預(yù)的臨床試驗(yàn)可能已經(jīng)有理由。應(yīng)在可用的情況下使用指南,以最大限度地提高研究的質(zhì)量,并且需要進(jìn)一步工作來調(diào)整和開發(fā)適合于評(píng)估和開展涉及自然語言處理的研究的框架。
在臨床效率的背景下,需要進(jìn)行研究,以確保LLM工具實(shí)際上減少工作量,而不是為醫(yī)療保健專業(yè)人員引入更大的管理負(fù)擔(dān)。例如,電子病歷被譽(yù)為數(shù)字醫(yī)療的巨大進(jìn)步,但許多醫(yī)師抱怨由此導(dǎo)致的繁瑣數(shù)據(jù)輸入和管理工作增加。有針對(duì)性的研究可以降低LLM引起類似問題的風(fēng)險(xiǎn)。此外,需要進(jìn)行衛(wèi)生經(jīng)濟(jì)學(xué)分析,以確定實(shí)施LLM申請(qǐng)具有成本效益,而不是浪費(fèi)的“白象”(俚語,指華而不實(shí)的東西)。因此,應(yīng)該鼓勵(lì)不同學(xué)科的研究人員共同努力,提高已發(fā)表研究的質(zhì)量和嚴(yán)謹(jǐn)性。
LLM徹底改變了自然語言處理,最先進(jìn)的模型,如GPT-4和PaLM 2,現(xiàn)在在醫(yī)學(xué)AI創(chuàng)新的前沿占據(jù)了中心位置。這一新技術(shù)在臨床、教育和研究工作中有大量機(jī)會(huì),特別是隨著新興的多模態(tài)和與插件工具的集成(圖3)。然而,潛在風(fēng)險(xiǎn)引起了專家和更廣泛的社會(huì)對(duì)安全性、倫理和在某些情況下可能取代人類的擔(dān)憂。自主部署LLM應(yīng)用程序目前尚不可行,臨床醫(yī)師仍將負(fù)責(zé)為患者提供最佳和人性化的治療。經(jīng)過驗(yàn)證的應(yīng)用程序仍然可能成為改善患者和醫(yī)護(hù)人員醫(yī)療保健的有價(jià)值工具,但前提是要解決倫理和技術(shù)問題。成功的驗(yàn)證將涉及務(wù)實(shí)的臨床試驗(yàn),以展示實(shí)際的收益,減少偏差并進(jìn)行透明報(bào)告。
抄 讀:邢琪琛
審 校:李 智
管 理:仇婷婷
原文出處:
Thirunavukarasu AJ, Ting DSJ, Elangovan K, Gutierrez L, Tan TF, Ting DSW. Large language models in medicine. Nat Med. 2023 Aug;29(8):1930-1940. doi: 10.1038/s41591-023-02448-8. Epub 2023 Jul 17. PMID: 37460753.
聯(lián)系客服