機器學(xué)習(xí)等人工智能(AI)技術(shù)正在改變藥物研發(fā)格局,這得益于不斷增長的數(shù)據(jù)量和計算能力。
歷史上,小分子藥物一直處于AI在藥物發(fā)現(xiàn)中的應(yīng)用前沿,包括建模小分子-靶點相互作用、先導(dǎo)候選藥物優(yōu)化和安全性預(yù)測。然而,AI工具正越來越多地應(yīng)用于大分子藥物,包括抗體、基因療法和基于RNA的療法,此類藥物/療法在生物制藥領(lǐng)域的重要性越來越高,例如,它們在2022年批準(zhǔn)的新分子中占比已達40%。而在腫瘤學(xué)領(lǐng)域,預(yù)計到2030年,大分子藥物將占到藥物收入的約50%,其中超過80%將來自抗體藥物。
近日,Nature 旗下綜述期刊 Nature Reviews Drug Discovery 發(fā)表了題為:The company landscape for artificial intelligence in large-molecule drug discovery 的文章。
該文章概述了AI技術(shù)是如何被應(yīng)用于大分子藥物發(fā)現(xiàn)的,分析了當(dāng)前進行AI大分子藥物開發(fā)的公司及其研發(fā)管線,并指出了生物制藥行業(yè)需要如何在該領(lǐng)域取得成功。
AI在大分子藥物研發(fā)中的應(yīng)用
機器學(xué)習(xí)等AI工具正在被應(yīng)用到藥物研發(fā)的各個領(lǐng)域。這篇文章重點關(guān)注了AI在大分子藥物發(fā)現(xiàn)的三個方面——結(jié)構(gòu)預(yù)測、功能預(yù)測和新候選藥物生成,這些方面的方法正在迅速成熟。本文未涵蓋利用AI預(yù)測有應(yīng)答的患者人群、降低試驗風(fēng)險或加速試驗等方向。
預(yù)測大分子結(jié)構(gòu)的工具
蛋白質(zhì)結(jié)構(gòu)預(yù)測對于大分子藥物發(fā)現(xiàn)來說具有重要價值,從靶標(biāo)鑒定(例如預(yù)測抗原結(jié)構(gòu))到先導(dǎo)藥物的鑒定和優(yōu)化。2020年,機器學(xué)習(xí)模型AlphaFold2僅通過氨基酸序列就成功預(yù)測了蛋白質(zhì)的三維結(jié)構(gòu),這是一個里程碑式的進步。如今,許多公司正在使用AlphaFold2或其他具有類似準(zhǔn)確性的蛋白質(zhì)結(jié)構(gòu)預(yù)測模型(例如RoseTTAFold)。
目前的開發(fā)正在改進這些結(jié)構(gòu)預(yù)測工具的易用性、可擴展性、對孤兒蛋白的預(yù)測性能和可再訓(xùn)練性,例如ColabFold、FastFold、OmegaFold和OpenFold,并使用與大型語言模型(例如GPT-4)類似的不同架構(gòu)(例如ESMFold)提高普適性和速度。
預(yù)測大分子功能的工具
人工智能工具已被開發(fā)用于預(yù)測大分子治療候選藥物的功能,包括抗原-抗體或RNA-蛋白的結(jié)合,以及它們的可成藥性??梢允褂脵C器學(xué)習(xí)模型(例如梯度提升樹)或計算模型(例如分子動力學(xué)模擬)進行這些預(yù)測。
最近,深度學(xué)習(xí)方法(包括基于模型、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)或大分子語言模型)已經(jīng)被使用來預(yù)測抗體親和力等治療的關(guān)鍵屬性。這些方法可以使用大分子的各種表示形式,例如,抗體抗原氨基酸的三維坐標(biāo),或者用于卷積神經(jīng)網(wǎng)絡(luò)或大分子語言模型架構(gòu)的氨基酸或核苷酸序列。
生成大分子療法候選物
快速增長的數(shù)據(jù)可用性正在支持可以大規(guī)模生成蛋白質(zhì)、抗體或mRNA的算法的開發(fā),作為先導(dǎo)藥物生成或優(yōu)化的一部分。例如基于擴散模型、變分自編碼器模型或使用類似于GPT-4的大型語言模型,根據(jù)模態(tài)數(shù)據(jù)(例如蛋白質(zhì)序列信息)進行訓(xùn)練。
實施這些算法的具體例子包括開發(fā)新的抗原結(jié)構(gòu),確定穩(wěn)定和免疫原性的最佳mRNA結(jié)構(gòu),以及新型蛋白和抗體的設(shè)計。設(shè)計的分子通常隨后在高通量系統(tǒng)中進行評估,以實驗確認(rèn)功能性質(zhì),并進一步加強和改進候選分子的生成。
上述工具都有通用性,例如,RFdiffusion或ESM模型已被用于生成新蛋白質(zhì)以及蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測。這些工具現(xiàn)在正在補充或取代傳統(tǒng)的計算方法。
新興公司全景圖
本文系統(tǒng)分析了從事大分子藥物設(shè)計的AI驅(qū)動的生物技術(shù)公司,確定了其中82家活躍在該領(lǐng)域的公司,其中超過60%的公司都是在過去5年里成立的,這表明這是一個在最近的技術(shù)變革(例如AlphaFold的出現(xiàn))推動下的一個新興行業(yè)。
82家專注于大分子藥物研發(fā)的AI驅(qū)動生物技術(shù)公司
每年成立的專注于大分子藥物研發(fā)的AI驅(qū)動生物技術(shù)公司的數(shù)量,以及這些公司與排名前20的生物制藥公司的合作的數(shù)量
2021年,該領(lǐng)域公司共融資了39億美元,其中僅風(fēng)險投資就高達27億美元,但在2022年下降到了7億美元。其中值得關(guān)注的有,AbCellera和Absci(這兩家公司均專注于抗體發(fā)現(xiàn))分別在2020年和2021年通過IPO募資了5.55億美元和2億美元,Generate Biomedicines(專注于蛋白質(zhì)藥物發(fā)現(xiàn))在2021年完成了3.7億美元的B輪融資。
大分子藥物研發(fā)的AI驅(qū)動生物技術(shù)公司的融資類型
一些知名生物制藥公司正在通過內(nèi)部組建和收購的方式建立用于大分子藥物發(fā)現(xiàn)的AI能力,例如,基因泰克(Genentech)2021年收購了Prescient Design(這是一家AI驅(qū)動的生物技術(shù)公司,將機器學(xué)習(xí)應(yīng)用于抗體發(fā)現(xiàn))。
一些知名大型生物制藥公司也在與AI驅(qū)動的生物技術(shù)公司展開合作,雙方在2021年確定了51個合作伙伴關(guān)系,顯著高于2016年的10個。例如,BigHat(專注于抗體發(fā)現(xiàn))與安進(Amgen)、AbCellera(專注于抗體發(fā)現(xiàn))與艾伯維(AbbVie)以及Mabsilicon(專注于抗體發(fā)現(xiàn))與OSE的合作。
基于AI的大多處于早期臨床階段,目前只有3款進入臨床2期,分別是Evaxion公司開發(fā)的用于轉(zhuǎn)移性黑色素瘤的基于肽的個性化癌癥免疫療法,ZielBio公司開發(fā)的用于實體瘤的抗凝集素單克隆抗體,PharmCADD公司開發(fā)的用于SARS-CoV-2的mRNA候選疫苗。此外,還有3款處于臨床1期,分別是Peptilogics公司開發(fā)的用于治療假體周圍感染的肽類抗生素,SparX公司開發(fā)的用于治療胃癌的靶向Claudin 18.2的單克隆抗體,以及PharmCADD公司開發(fā)的另一款SARS-CoV-2的mRNA疫苗。
在候選大分子藥物開發(fā)中,這些利用了基于AI的靶點識別、功能(結(jié)合)預(yù)測和抗體生成(包括使用生成式AI)。
基于AI的大分子藥物研發(fā)公司的管線的研發(fā)進度
在臨床前階段,AI驅(qū)動的生物技術(shù)公司開發(fā)的候選大分子藥物中最多的在腫瘤領(lǐng)域,有8個候選分子。在藥物類型方面,處于臨床前開發(fā)階段的RNA和多肽類(約占所有分子的50%)比抗體類更多。這可能是由于抗體設(shè)計的復(fù)雜性更高,而且缺乏用于訓(xùn)練機器學(xué)習(xí)工具的功能數(shù)據(jù)。
展望
這些分析表明,AI在大分子藥物發(fā)現(xiàn)中的應(yīng)用正在迅速增加。然而,盡管這些AI工具的潛在價值已經(jīng)在學(xué)術(shù)研究中得到了令人信服的證明,但到目前為止,它們的大規(guī)模部署仍然具有挑戰(zhàn)性。
要實現(xiàn)AI在該領(lǐng)域的潛力,需要解決幾個問題。首先,AI模型必須充分融入研究過程,并適當(dāng)培養(yǎng)研究科學(xué)家的能力。通過這樣做,公司可以快速訓(xùn)練和驗證機器學(xué)習(xí)算法,同時也克服了人工智能工作的潛在“孤島”。例如,當(dāng)使用大語言模型進行抗體親和力的高通量預(yù)測時,通過整合的研究系統(tǒng)進行及時的體外實驗驗證將進一步訓(xùn)練和提高計算機模型的性能。其次,必須建立技術(shù)環(huán)境,例如復(fù)合型數(shù)據(jù)工程管線(集成并能夠自動標(biāo)記公共和內(nèi)部數(shù)據(jù))、合適的計算基礎(chǔ)設(shè)施以及源系統(tǒng)的集成建模環(huán)境。這使得公司能夠訓(xùn)練和改進模型,以指導(dǎo)和改進下一個實驗。最后,在藥物發(fā)現(xiàn)之外的整個研發(fā)過程中,需要將AI技術(shù)整合到試驗設(shè)計和患者亞群識別等領(lǐng)域,以進一步提高試驗效率和成功概率