人工智能驅(qū)動的生命科學(xué)研究新范式
中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊 2007年,圖靈獎得主吉姆·格雷(Jim Gray)提出了科學(xué)研究的四類范式,這些范式基本上被科學(xué)界廣泛認可。第一范式是實驗(經(jīng)驗)科學(xué),主要通過實驗或經(jīng)驗來描述自然現(xiàn)象并總結(jié)規(guī)律;第二范式是理論科學(xué),科學(xué)家通過數(shù)學(xué)模型進行歸納總結(jié)形成科學(xué)理論;第三范式是計算科學(xué),利用計算機對科學(xué)實驗進行模擬仿真;第四范式是數(shù)據(jù)科學(xué),利用儀器收集或仿真計算產(chǎn)生的大量數(shù)據(jù)進行分析與知識提取。科學(xué)研究的范式變革體現(xiàn)了人類對宇宙探索的深度、廣度、方式和效率的演進。
生命科學(xué)的發(fā)展經(jīng)歷了多個階段,其研究范式的演進也有其獨特的學(xué)科屬性。在生命科學(xué)早期發(fā)展階段,生物學(xué)家主要通過觀察不同生物體的形態(tài)和行為模式來探索生物存在的一般形式和演化的共同規(guī)律,這一階段的代表是達爾文,通過全球考察積累了大量物種的表象描述資料,并以此提出了進化論。從20世紀(jì)中葉開始,以DNA雙螺旋結(jié)構(gòu)的揭示為標(biāo)志,生命科學(xué)研究進入了分子生物學(xué)時代,生物學(xué)家開始在更深層次水平研究生命的基本組成和運作規(guī)律。在這一階段,生物學(xué)家仍主要通過對生物現(xiàn)象的觀察和實驗來總結(jié)規(guī)律與知識。隨著生命科學(xué)的進一步發(fā)展和新型生物技術(shù)的快速涌現(xiàn),科學(xué)家可以對生命科學(xué)在不同層級和不同分辨率下進行更為廣泛的探索,這也使得生命科學(xué)領(lǐng)域的數(shù)據(jù)呈現(xiàn)爆發(fā)性增長。通過高通量、多維度組學(xué)數(shù)據(jù)分析與實驗科學(xué)結(jié)合的方式對生物過程進行更加精細的描述和解析,成為現(xiàn)代生命科學(xué)研究的常態(tài)。
然而,生命系統(tǒng)具有多層面的復(fù)雜性,涵蓋了從分子、細胞到個體不同層次,以及個體間的種群關(guān)系、機體與環(huán)境的互作關(guān)系,展現(xiàn)出多層級、高維度、高度互聯(lián)、動態(tài)調(diào)控的特點。現(xiàn)有的實驗科學(xué)研究范式在面對如此復(fù)雜的生命系統(tǒng)時,往往只能從特定尺度對有限數(shù)量的樣本進行觀察描述和研究,難以全面理解生物網(wǎng)絡(luò)的運作機制;并且高度依賴人的經(jīng)驗和先驗知識對特定生物關(guān)系進行探索,難以從大規(guī)模、多樣性、高維度數(shù)據(jù)中高效提取隱匿的關(guān)聯(lián)和機制。面對生命現(xiàn)象中復(fù)雜的非線性關(guān)系和難以預(yù)測的特征,人工智能(AI)技術(shù)展現(xiàn)出強大的能力,并且已經(jīng)在蛋白質(zhì)結(jié)構(gòu)預(yù)測、基因調(diào)控網(wǎng)絡(luò)模擬解析方面表現(xiàn)出顛覆性的應(yīng)用潛力,將生命科學(xué)研究由實驗科學(xué)為主的第一范式推向以人工智能驅(qū)動的生命科學(xué)研究新范式——第五范式(圖1)。
本文將從AI驅(qū)動的生命科學(xué)研究典型范例、生命科學(xué)研究新范式的內(nèi)涵和關(guān)鍵要素、新范式賦能的生命科學(xué)研究前沿及我國面臨的挑戰(zhàn)3個方面進行系統(tǒng)論述。
人工智能驅(qū)動的生命科學(xué)研究典型范例
生命是一個多層次、多尺度、動態(tài)互聯(lián)、相互影響的復(fù)雜系統(tǒng)。在面對生命現(xiàn)象的極端復(fù)雜性、多尺度跨越和時空動態(tài)變化時,傳統(tǒng)的生命科學(xué)研究范式往往只能從局部入手,通過實驗驗證或有限層次的組學(xué)數(shù)據(jù)分析建立有限生物分子和表型的關(guān)聯(lián)關(guān)系。然而,即使花費巨大成本,也通常只能發(fā)現(xiàn)特定情境下的單一線性關(guān)聯(lián)機制,與生命活動的非線性屬性在復(fù)雜度上存在顯著差異,難以全面理解整個網(wǎng)絡(luò)的運作機制。
AI技術(shù),尤其是深度學(xué)習(xí)和預(yù)訓(xùn)練大模型等技術(shù),以其優(yōu)越的模式識別和特征提取能力,能夠在龐大的參數(shù)堆疊情況下超越人類理性推理能力,從數(shù)據(jù)中更好地理解復(fù)雜生物系統(tǒng)中的規(guī)律。現(xiàn)代生物技術(shù)的不斷發(fā)展,使生命科學(xué)領(lǐng)域的數(shù)據(jù)呈現(xiàn)跨越式增長,在過去全球范圍生命科學(xué)研究中,人類已經(jīng)積累了大量基于實驗描述和驗證的數(shù)據(jù),為AI破解生命科學(xué)底層規(guī)律創(chuàng)造了基礎(chǔ)]。當(dāng)擁有充足且高質(zhì)量的數(shù)據(jù)和適配于生命科學(xué)的算法時,AI模型就能夠在多層次的海量數(shù)據(jù)中以“低維”數(shù)據(jù)預(yù)測“高維”信息及規(guī)律,實現(xiàn)從基因序列和表達等低維數(shù)據(jù)到細胞、機體等高維復(fù)雜生物過程規(guī)律揭示的跨越,解析復(fù)雜的非線性關(guān)系,如生物大分子結(jié)構(gòu)生成規(guī)律、基因表達調(diào)控機制,甚至個體發(fā)育、衰老等多因素交叉的復(fù)雜生物系統(tǒng)中的底層規(guī)律。在此發(fā)展趨勢下,近年來生命科學(xué)領(lǐng)域涌現(xiàn)出了蛋白質(zhì)結(jié)構(gòu)解析、基因調(diào)控規(guī)律解析等一批AI驅(qū)動生命科學(xué)研究發(fā)展的典型范例。
蛋白質(zhì)結(jié)構(gòu)解析范例
蛋白質(zhì)作為生物體內(nèi)關(guān)鍵功能的執(zhí)行者,其結(jié)構(gòu)直接影響運輸、催化、結(jié)合和免疫功能等重要的生物過程。雖然測序技術(shù)可以揭示蛋白質(zhì)所包含的氨基酸序列,但任何一個已知氨基酸序列的蛋白質(zhì)鏈有可能折疊成天文數(shù)字中的任何一種可能構(gòu)象,這使得準(zhǔn)確解析蛋白質(zhì)結(jié)構(gòu)成為長期以來的挑戰(zhàn)。利用傳統(tǒng)技術(shù)如核磁共振、X射線晶體分析、冷凍電子顯微鏡等解析已知序列的蛋白質(zhì)結(jié)構(gòu)方法,需要數(shù)年時間才能描繪出單個蛋白質(zhì)的形狀,昂貴耗時且不能保證成功解析其結(jié)構(gòu)。因此,捕獲蛋白質(zhì)折疊的底層規(guī)律從而實現(xiàn)對蛋白質(zhì)結(jié)構(gòu)的精準(zhǔn)預(yù)測,一直是結(jié)構(gòu)生物學(xué)領(lǐng)域最重要的挑戰(zhàn)之一。
AlphaFold 2利用基于注意力機制的深度學(xué)習(xí)算法,對大量蛋白質(zhì)序列和結(jié)構(gòu)數(shù)據(jù)進行訓(xùn)練,并結(jié)合物理學(xué)、化學(xué)和生物學(xué)的先驗知識,構(gòu)建了包含特征提取、編碼、解碼模塊的蛋白質(zhì)結(jié)構(gòu)解析模型。在2020年國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽(CASP14)中,AlphaFold 2取得了矚目的成績,其蛋白質(zhì)三維結(jié)構(gòu)預(yù)測準(zhǔn)確性甚至可與實驗解析的結(jié)果相媲美。這一突破為生命科學(xué)領(lǐng)域帶來了全新的視角和前所未有的機遇,主要體現(xiàn)在3點。
對藥物發(fā)現(xiàn)領(lǐng)域產(chǎn)生了直接影響。大多數(shù)藥物通過與體內(nèi)蛋白質(zhì)特殊結(jié)構(gòu)域的結(jié)合而引發(fā)蛋白質(zhì)功能的變化,AlphaFold 2能夠快速計算出海量目標(biāo)蛋白質(zhì)的結(jié)構(gòu),從而有針對性地設(shè)計藥物以有效地與這些蛋白質(zhì)結(jié)合。
對蛋白質(zhì)的理性設(shè)計提供了新的可能性。一旦AI對蛋白質(zhì)折疊的底層規(guī)律有了深刻理解,就可以利用這一知識設(shè)計出折疊成所需結(jié)構(gòu)的蛋白質(zhì)序列。這使得生物學(xué)家可以根據(jù)需求自由設(shè)計和改造蛋白質(zhì)或酶的結(jié)構(gòu),如設(shè)計更高活性的基因編輯酶,甚至是自然界中不存在的蛋白質(zhì)結(jié)構(gòu)。同時也推動了人們對基因編碼信息在蛋白質(zhì)層面結(jié)構(gòu)投射規(guī)律的理解,并將大幅提高人類對生命的改造能力。
AlphaFold 2徹底改變蛋白質(zhì)結(jié)構(gòu)解析領(lǐng)域的研究范式。從只能通過費時費力的傳統(tǒng)實驗技術(shù)解析蛋白質(zhì)結(jié)構(gòu)轉(zhuǎn)變?yōu)榈烷T檻、高精度、高通量地預(yù)測蛋白質(zhì)三維結(jié)構(gòu)的新范式,證明通過將蛋白質(zhì)知識和AI技術(shù)相結(jié)合,可以提取和學(xué)習(xí)到高維、復(fù)雜的知識,促進對蛋白質(zhì)物理結(jié)構(gòu)和功能的更深入理解。
基因調(diào)控規(guī)律解析范例
人類基因組計劃被譽為20世紀(jì)人類三大科學(xué)計劃之一,揭開了生命奧秘的序幕。盡管編碼生命個體的遺傳信息存儲在DNA序列中,但每個細胞的命運和表型卻因其獨特的時空背景而千差萬別。這種復(fù)雜的生命過程由精細的基因表達調(diào)控系統(tǒng)所控制,而探索生命普遍存在的基因調(diào)控機制是繼人類基因組計劃之后最為重要的生命科學(xué)問題之一。不同細胞的基因表達譜是理解生物系統(tǒng)內(nèi)基因調(diào)控活動的理想窗口。然而,僅通過生物學(xué)實驗全面解讀基因調(diào)控機制,需要捕獲不同生物個體的不同細胞類型在不同環(huán)境背景下的對照試驗來觀察。傳統(tǒng)生物信息分析方法只能處理少量數(shù)據(jù),對大規(guī)模、高維度且缺乏準(zhǔn)確標(biāo)注的生物組大數(shù)據(jù)難以捕捉數(shù)據(jù)中復(fù)雜的非線性關(guān)系。
近年來,自然語言處理技術(shù)的不斷突破,特別是大語言模型的迅猛發(fā)展,能夠通過訓(xùn)練語料數(shù)據(jù)使模型具有理解人類語言描述知識的能力,為解決這一領(lǐng)域問題帶來了新思路。國際多個研究團隊借鑒大語言模型的訓(xùn)練思路,相繼基于數(shù)以千萬計的人類單細胞轉(zhuǎn)錄組譜數(shù)據(jù)和龐大的算力資源,利用Transformer等先進算法和多種生物學(xué)知識,構(gòu)建了多個具有理解基因動態(tài)關(guān)系能力的生命基礎(chǔ)大模型,如GeneCompass、scGPT、Geneformer和scFoundation等。這些生命基礎(chǔ)大模型以基因表達等底層生命活動信息為訓(xùn)練基礎(chǔ),利用機器來學(xué)習(xí)理解這些“低維”的生命科學(xué)數(shù)據(jù)與復(fù)雜“高維”的基因表達調(diào)控網(wǎng)絡(luò)、細胞命運轉(zhuǎn)變等底層生命機制之間的關(guān)聯(lián)性和對應(yīng)規(guī)律,實現(xiàn)以低維數(shù)據(jù)對高維信息的有效模擬和預(yù)測。這種對基因表達調(diào)控網(wǎng)絡(luò)的模擬可以在廣泛的下游任務(wù)中表現(xiàn)出卓越性能,為深入理解基因調(diào)控規(guī)律提供了全新的途徑。
現(xiàn)有的AI驅(qū)動生命科學(xué)研究的成功案例向我們證明,面對更深入、更系統(tǒng)的生命科學(xué)問題,AI有望突破傳統(tǒng)研究方法難以解決的困境、構(gòu)建從基礎(chǔ)生物層次到整個生命系統(tǒng)的投射理論體系,并進一步推動生命科學(xué)向更高階段發(fā)展,開啟生命科學(xué)研究的新范式。
生命科學(xué)研究新范式的內(nèi)涵和關(guān)鍵要素
隨著生物技術(shù)的不斷進步、生命科學(xué)數(shù)據(jù)的快速增長、AI技術(shù)的飛速發(fā)展及其與生命領(lǐng)域的深度交叉融合,AI展示出了對生命科學(xué)知識的深入理解和泛化能力,不僅提高了生命科學(xué)的研究高度和廣度,也促使生命科學(xué)研究由實驗科學(xué)為主的第一范式,跨越進入AI驅(qū)動的生命科學(xué)研究新范式(第五范式,以下簡稱“新范式”)。
通過深入剖析AI驅(qū)動生命科學(xué)研究的典型范例,筆者認為,生命科學(xué)研究的新范式正如一臺智能化的新能源汽車,對標(biāo)新能源汽車的電池系統(tǒng)、電控系統(tǒng)、電機系統(tǒng)、輔助駕駛系統(tǒng)、底盤系統(tǒng)等核心技術(shù),新范式應(yīng)具備生命科學(xué)大數(shù)據(jù)、智能算法模型、算力平臺、專家先驗知識和交叉研究團隊五大關(guān)鍵要素(圖2)。猶如電池系統(tǒng)為車輛提供能量,生命科學(xué)大數(shù)據(jù)為科學(xué)研究提供基礎(chǔ)資源;算法模型則像智能電控系統(tǒng),賦能深入理解生物系統(tǒng)的運行機制;算力平臺可比喻為電機系統(tǒng),負責(zé)處理海量的科學(xué)數(shù)據(jù)和復(fù)雜的計算任務(wù);專家先驗知識則像輔助駕駛系統(tǒng),為科學(xué)家提供方向引領(lǐng)和實施經(jīng)驗;交叉研究團隊類似于底盤系統(tǒng),負責(zé)整合不同領(lǐng)域的知識和技能,通過跨學(xué)科合作提高研究效率,推動生命科學(xué)的發(fā)展。
關(guān)鍵要素一:生命科學(xué)大數(shù)據(jù)
生命科學(xué)大數(shù)據(jù)是新范式“汽車”的“電池”系統(tǒng)。隨著新型生物技術(shù)的發(fā)展,具有多模態(tài)、多維度、分布分散、關(guān)聯(lián)隱匿、多層次交匯等特點的生命科學(xué)大數(shù)據(jù)逐漸形成;只有對生命科學(xué)大數(shù)據(jù)進行有效整合并利用創(chuàng)新AI技術(shù)充分挖掘數(shù)據(jù),才能夠打破人類科學(xué)家的認知局限、促進新發(fā)現(xiàn)的產(chǎn)生并拓展生命科學(xué)的探索范圍。例如醫(yī)療視覺大模型,通過整合多來源、多模態(tài)、多任務(wù)的醫(yī)療圖像數(shù)據(jù),實現(xiàn)了在少樣本和零樣本條件下的多種應(yīng)用;跨物種生命基礎(chǔ)大模型GeneCompass,通過有效整合全球開源的單細胞數(shù)據(jù),在超過1.2億個單細胞的訓(xùn)練數(shù)據(jù)集上實現(xiàn)了對基因表達調(diào)控規(guī)律的全景式學(xué)習(xí)理解等多個生命科學(xué)問題的分析。
關(guān)鍵要素二:智能算法模型
智能算法模型是新范式“汽車”的“電控”系統(tǒng)。從浩如煙海的生命科學(xué)大數(shù)據(jù)中涌現(xiàn)生命的新規(guī)律和新知識,需要創(chuàng)新AI算法和模型;如何研發(fā)利用生命科學(xué)適配的AI算法、提取有效的生物特征、構(gòu)建大規(guī)模生物過程動態(tài)模型,是當(dāng)前新范式的中心問題。例如,Gerstein團隊使用貝葉斯網(wǎng)絡(luò)算法預(yù)測蛋白質(zhì)相互作用的成果發(fā)表于Science,為經(jīng)典機器學(xué)習(xí)在生物信息領(lǐng)域發(fā)展奠定了基礎(chǔ);圖卷積神經(jīng)網(wǎng)絡(luò)算法被用于分析蛋白質(zhì)—蛋白質(zhì)相互作用網(wǎng)絡(luò)和基因調(diào)控網(wǎng)絡(luò)等生物分子網(wǎng)絡(luò),拓展了生命科學(xué)領(lǐng)域的研究方向;AlphaFold 2使用Transformer模型,能夠在高準(zhǔn)確度的基礎(chǔ)上快速計算出大量蛋白質(zhì)的結(jié)構(gòu),都展示出了AI算法模型在生命科學(xué)研究新范式中的重要性。
關(guān)鍵要素三:算力平臺
算力平臺是新范式“汽車”的“電機”系統(tǒng)。算力是實現(xiàn)AI運行的基礎(chǔ),深度學(xué)習(xí)、大模型技術(shù)等適用于生命科學(xué)研究新范式的AI算法模型的不斷發(fā)展,使AI模型訓(xùn)練需要更強大、更高效的算力平臺支持。面向新范式,未來應(yīng)構(gòu)建能夠支撐AI賦能生命科學(xué)研究的硬件能力平臺,包括建設(shè)高速大容量存儲系統(tǒng)、構(gòu)建高性能高吞吐量超級計算機、研發(fā)專門用于處理生命科學(xué)數(shù)據(jù)的芯片、設(shè)計用于加速生物模型推理和訓(xùn)練的專用處理器等,為生命科學(xué)研究提供高效、可靠的計算和處理能力,以應(yīng)對生命科學(xué)領(lǐng)域產(chǎn)生的海量數(shù)據(jù)、滿足生命科學(xué)領(lǐng)域復(fù)雜模型構(gòu)建的計算需求,保障AI在生命科學(xué)領(lǐng)域的應(yīng)用和創(chuàng)新。
關(guān)鍵要素四:專家先驗知識
專家先驗知識是新范式“汽車”的“輔助駕駛”系統(tǒng)。新范式下,已有的生命科學(xué)知識將為AI算法模型提供寶貴的訓(xùn)練約束條件、重要的背景和特征關(guān)系,幫助解釋和理解生命科學(xué)數(shù)據(jù)的復(fù)雜性、驗證和優(yōu)化AI在生命科學(xué)領(lǐng)域的應(yīng)用;能夠在AI算法設(shè)計和模型構(gòu)建時發(fā)揮重要的指導(dǎo)作用,促進更加準(zhǔn)確、高效地解決生命科學(xué)問題,推動生命科學(xué)研究向更深入、全面的方向發(fā)展。例如,通過嵌入生命科學(xué)專家先驗知識和人類注釋信息編碼,新型基因表達預(yù)訓(xùn)練大模型提高了對生物數(shù)據(jù)間復(fù)雜特征關(guān)聯(lián)關(guān)系的解釋,展示出更為優(yōu)異的模型表現(xiàn)。
關(guān)鍵要素五:交叉研究團隊
交叉研究團隊是新范式“汽車”的“底盤”系統(tǒng)。新范式下,一支由AI專家、數(shù)據(jù)科學(xué)家、生物學(xué)家和醫(yī)學(xué)家等組成的多學(xué)科交叉研究團隊對于實現(xiàn)跨越式的生命科學(xué)發(fā)現(xiàn)至關(guān)重要。多元背景緊密協(xié)作的交叉研究團隊能夠整合AI、生物學(xué)、醫(yī)學(xué)等領(lǐng)域的專業(yè)知識,提供多元化的視角和方法,為全面理解和解決生命科學(xué)中的復(fù)雜機制問題提供牢固基礎(chǔ),為創(chuàng)新性解決方案提供更多可能性,從而推動生命科學(xué)領(lǐng)域的突破性發(fā)現(xiàn)和進展。
新范式賦能的生命科學(xué)研究前沿及我國面臨的挑戰(zhàn)
傳統(tǒng)的研究范式對生命的探索如同管中窺豹,生物學(xué)家在生命科學(xué)的不同細分領(lǐng)域各自奮戰(zhàn)。隨著新范式的不斷發(fā)展,生命科學(xué)研究將迎來以AI預(yù)測、指導(dǎo)、提出假說、驗證假設(shè)為特點的新型研究模態(tài),迸發(fā)出一批快速發(fā)展的生命科學(xué)新范式前沿研究方向,并展現(xiàn)出新范式變革帶來的發(fā)展增益。然而,在當(dāng)前條件下加速推進我國生命科學(xué)研究新范式的建立和推廣,仍面臨一系列巨大的挑戰(zhàn)。
新范式賦能的生命科學(xué)研究前沿
結(jié)構(gòu)生物學(xué)。目前在結(jié)構(gòu)生物學(xué)領(lǐng)域,以AlphaFold為代表的AI應(yīng)用技術(shù)仍停留在“從序列到結(jié)構(gòu)”的蛋白質(zhì)結(jié)構(gòu)預(yù)測和設(shè)計階段,還無法實現(xiàn)復(fù)雜生理條件下蛋白質(zhì)結(jié)構(gòu)和功能的模擬與預(yù)測。更高質(zhì)量、更大規(guī)模的蛋白質(zhì)數(shù)據(jù)和新型算法的出現(xiàn),將有望對不同生理狀態(tài)和時空條件下的生物大分子結(jié)構(gòu)和功能進行系統(tǒng)解析,并實現(xiàn)蛋白質(zhì)“從序列到功能”甚至“從序列到多尺度相互作用”的智能化結(jié)構(gòu)解析與精細設(shè)計。
系統(tǒng)生物學(xué)。當(dāng)前的組學(xué)數(shù)據(jù)分析仍局限于較低維度的生物組學(xué)觀測水平,還未形成從基因水平到細胞水平甚至生物個體乃至群體組學(xué)水平的全維度觀測。新范式將融通多維度、多模態(tài)的生物大數(shù)據(jù)和專家先驗知識,提取生物表型的關(guān)鍵特征,構(gòu)建多尺度生物過程解析模型,還原復(fù)雜生物系統(tǒng)運行的底層規(guī)律,形成基礎(chǔ)而廣泛適用的系統(tǒng)生物學(xué)研究新體系。
遺傳學(xué)。隨著多組學(xué)數(shù)據(jù)的積累和新型基因大模型的出現(xiàn),遺傳學(xué)研究已進入新范式推動的快速發(fā)展階段,基于基因表達譜數(shù)據(jù)的自監(jiān)督預(yù)訓(xùn)練大模型有望成為解析基因調(diào)控規(guī)律、預(yù)測疾病靶點的有力工具,拓展遺傳學(xué)研究的探索邊界。
藥物設(shè)計開發(fā)。隨著AlphaFold的出現(xiàn)和一批分子動力學(xué)模型的發(fā)展,AI模型已經(jīng)被用于預(yù)測和篩選藥物候選分子。未來新范式將進一步推動該領(lǐng)域的發(fā)展,有望出現(xiàn)AI輔助的全流程藥物設(shè)計開發(fā)體系,能夠自主完成藥物結(jié)構(gòu)和性質(zhì)的優(yōu)化設(shè)計、實現(xiàn)候選藥物的有效性和安全性模擬預(yù)測、生成藥物的高效合成和生產(chǎn)工藝方案,極大加速藥物的開發(fā)和生產(chǎn)過程。
精準(zhǔn)醫(yī)學(xué)。計算機視覺、自然語言處理和機器學(xué)習(xí)等AI技術(shù)已廣泛滲透到生物影像、醫(yī)學(xué)影像、疾病智能分析及靶點預(yù)測等精準(zhǔn)醫(yī)學(xué)子領(lǐng)域。例如,基于AI的診斷系統(tǒng)在準(zhǔn)確度上已經(jīng)可以媲美甚至在某些方面超過資深的臨床醫(yī)生。然而,現(xiàn)有的模型大多受制于數(shù)據(jù)的偏好性,存在魯棒性差、通用性低等問題,隨著新范式驅(qū)動的通用精準(zhǔn)醫(yī)學(xué)模型的出現(xiàn),將有助于更加快速準(zhǔn)確地診斷疾病、解析疾病的分子機制、發(fā)現(xiàn)新的治療靶點,提高人類的健康水平。
我國生命科學(xué)研究新范式面臨的挑戰(zhàn)
面對生命科學(xué)研究新范式發(fā)展的新形勢、新要求,我國仍面臨高質(zhì)量生命科學(xué)數(shù)據(jù)資源體系缺乏、AI關(guān)鍵技術(shù)與基礎(chǔ)設(shè)施不足、新范式下的交叉創(chuàng)新科研新生態(tài)匱乏等方面的巨大挑戰(zhàn)。
高質(zhì)量生命科學(xué)數(shù)據(jù)資源體系缺乏
盡管我國在生命領(lǐng)域的科研投入持續(xù)增加,但在一些前沿領(lǐng)域,我國科學(xué)家仍依賴國外高質(zhì)量數(shù)據(jù),而國內(nèi)數(shù)據(jù)的建設(shè)和使用相對滯后,我國生命科學(xué)數(shù)據(jù)資源還存在分布不均衡問題,需要更好地統(tǒng)籌協(xié)調(diào)和資源整合,實現(xiàn)高質(zhì)量生命科學(xué)數(shù)據(jù)資源的高效匯聚和系統(tǒng)化提升。此外,在生命科學(xué)數(shù)據(jù)的收集、傳輸和存儲過程中,數(shù)據(jù)安全問題亟待加強,特別是生物數(shù)據(jù)的隱私和安全問題仍需要引起重視。
面對這些挑戰(zhàn),我國需要加強科學(xué)數(shù)據(jù)資源的整合與共享,推動生命科學(xué)數(shù)據(jù)資源的可持續(xù)發(fā)展,提高數(shù)據(jù)的質(zhì)量和安全性,加強數(shù)據(jù)管理與供給模式的變革,推動跨領(lǐng)域多模態(tài)科技資源融合服務(wù)能力的提升,以滿足新范式下科研需求的發(fā)展。
AI關(guān)鍵技術(shù)與基礎(chǔ)設(shè)施不足
我國AI驅(qū)動新科研范式的核心技術(shù)相對匱乏,自主原創(chuàng)的算法、模型、工具仍待大力發(fā)展。針對生命科學(xué)大數(shù)據(jù)的海量、高維、稀疏分布等特征,亟需發(fā)展復(fù)雜數(shù)據(jù)的先進計算與分析方法。未來應(yīng)開發(fā)更加適合生命科學(xué)應(yīng)用的硬件、軟件和新計算介質(zhì),并在生命科學(xué)和計算科學(xué)的融合過程中,探索新的計算-生物交互模式。簡而言之,新范式研究對數(shù)據(jù)、網(wǎng)絡(luò)、算力等資源的綜合能力提出了新的要求,需要加快推進新一代信息基礎(chǔ)設(shè)施建設(shè),解決算力“卡脖子”問題。
新范式下的交叉創(chuàng)新科研新生態(tài)匱乏
現(xiàn)有AI驅(qū)動的生命科學(xué)研究方式大多為課題組自發(fā)組合的“小作坊”模式,缺乏新范式發(fā)展所需的交叉創(chuàng)新環(huán)境。美國在2023年發(fā)布的《國家人工智能研發(fā)戰(zhàn)略計劃》更新版本中也著重強調(diào)了人工智能研究的跨學(xué)科交叉發(fā)展的重要性。因此,新范式下的科研生態(tài)應(yīng)鼓勵更為廣泛的多學(xué)科“大交叉”“大融合”,建立干濕結(jié)合、理實交融的新型研究模式,持續(xù)培養(yǎng)高水平復(fù)合型交叉研究人才。
在新形勢下我國也已經(jīng)開始廣泛布局和推進交叉學(xué)科的發(fā)展。《中華人民共和國國民經(jīng)濟和社會發(fā)展第十四個五年規(guī)劃和2035年遠景目標(biāo)綱要》中指出要推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等同各產(chǎn)業(yè)的深度融合。結(jié)合我國生命科學(xué)領(lǐng)域的實際發(fā)展情況,我國生命科學(xué)領(lǐng)域發(fā)展更應(yīng)著眼于將AI賦能生命科學(xué)研究的范式變革融入我國新時代的國家發(fā)展遠景布局中,實現(xiàn)以點帶面的整體效應(yīng)建立更加開放的新型科研生態(tài)和發(fā)展環(huán)境。
近年來,生命科學(xué)領(lǐng)域正經(jīng)歷著前所未有的巨變,這一領(lǐng)域的發(fā)展不僅受到生物技術(shù)和信息技術(shù)的雙重推動,更受到AI技術(shù)進步的巨大影響。這一變革的核心在于從傳統(tǒng)的主要依賴于人經(jīng)驗的假說和實驗驅(qū)動的科研范式向大數(shù)據(jù)和AI驅(qū)動的新研究范式的演變。這意味著我們不再僅僅依賴于實驗和假說,而是通過大數(shù)據(jù)分析和AI技術(shù)主動揭示生命的奧秘。更廣泛的,這個演變將廣泛改變或促進不同層面的科學(xué)研究活動的變革,涵蓋了認識論、方法論、研究組織形式、經(jīng)濟社會及倫理法律等眾多層面。
綜合而言,我們正身臨著一個充滿變革和希望的時代,生命科學(xué)的革新與科技的進步共同繪制出人類對生命奧秘更深層次探索的未來藍圖。可以預(yù)見,隨著通用AI的進一步發(fā)展,生命科學(xué)研究將在不遠的未來實現(xiàn)干濕融合、人機協(xié)同的新模式,迎來AI自驅(qū)抽象新知識、新規(guī)律的“預(yù)人所未見,思人所未思”的科學(xué)新時代。
(作者:李鑫,中國科學(xué)院動物研究所 北京干細胞與再生醫(yī)學(xué)研究院;于漢超,中國科學(xué)院前沿科學(xué)與教育局。《中國科學(xué)院院刊》供稿)