新藥發(fā)現(xiàn)的速度在不斷提升杂彭,但耐藥墓毒、治療無效仍然是困擾大多數(shù)患者的艱難問題。發(fā)現(xiàn)新的聯(lián)合用藥組合嘱峦,能為患者帶來新的可能笨墙,也對進一步設(shè)計全新藥物與現(xiàn)有藥物聯(lián)合作用提供了明確的方向磺勋。
作為突破創(chuàng)新藥物研發(fā)平臺,百圖生科以發(fā)現(xiàn)多靶點組合刷粒、設(shè)計能實現(xiàn)復(fù)雜調(diào)控機制的精準藥物為目標秉疚,已在藥物組合研究上實現(xiàn)了一系列的突破。
近日抖躺,一項由百圖生科聯(lián)合香港中文大學、阿卜杜拉國王科技大學等學術(shù)機構(gòu)共同完成的新研究發(fā)表在預(yù)印本網(wǎng)站arXiv勇斜。
該研究提出的新方法基于超大規(guī)模AI預(yù)訓(xùn)練技術(shù)究惨,一方面,不僅能實現(xiàn)對聯(lián)合用藥效果的行業(yè)最佳預(yù)測準確率——新方法比此前行業(yè)中的最佳模型提升10%以上治拿,相較經(jīng)典機器學習方法提升30%以上;另一方面劫谅,還能對訓(xùn)練數(shù)據(jù)中未見過的新藥物或細胞系給出理想的聯(lián)合用藥效果預(yù)測——與此前行業(yè)最佳的模型相比,新模型的AU ROC超過了近15%荞驴。
后臺回復(fù)“Synergistic”獲取論文預(yù)印本地址
多模態(tài)+圖網(wǎng)絡(luò)+預(yù)訓(xùn)練贯城,
“三位一體”實現(xiàn)精準的藥物組合推薦
在該研究中,團隊從涵蓋各種藥物相關(guān)方面的數(shù)據(jù)集中收集大量數(shù)據(jù)鲫骗,并創(chuàng)新性地基于這些多模態(tài)數(shù)據(jù)開展超大規(guī)模預(yù)訓(xùn)練踩晶,生成藥物执泰、蛋白質(zhì)和疾病的信息表征和特征子桩,更進一步的,基于細胞內(nèi)的蛋白-基因之間的調(diào)控關(guān)系網(wǎng)絡(luò)構(gòu)建出深度圖神經(jīng)網(wǎng)絡(luò)模型兑蹈,兼具可解釋性和模型預(yù)測能力。
文章表明锐校,該模型在一系列藥物協(xié)同作用預(yù)測的基準數(shù)據(jù)集上均實現(xiàn)了最佳的預(yù)測效果躺冕,在來自阿斯利康的藥物組合數(shù)據(jù)集驗證顯示矮按,這一新方法比目前行業(yè)中的最佳模型提升10%以上,相較經(jīng)典機器學習方法提升30%以上膨泄。
更重要的是,對于訓(xùn)練數(shù)據(jù)中未見過的藥物及其組合的預(yù)測段丸,新的模型也表現(xiàn)優(yōu)異。
研究團隊開發(fā)了兩個覆蓋39個獨立藥物和10個獨立細胞系的數(shù)據(jù)集蔗坯,以測試這些方法在訓(xùn)練數(shù)據(jù)中沒有見過的藥物和細胞系上的表現(xiàn)。結(jié)果表明宾濒,新方法在這方面保持了很好的性能,各項指標均達到80%以上绘梦,而其他方法如DeepDDS的表現(xiàn)均在70%以下。與此前行業(yè)最佳的模型相比谚咬,新模型的AU ROC超過了近15%尚粘。
團隊認為,本次提出的新方法和框架郎嫁,既有助于在濕實驗中發(fā)現(xiàn)新型藥物爬账,也將推動建立更為精確的組合藥物指南源相。
與單一藥物治療相比横罪,聯(lián)合用藥治療具有諸多已被廣泛證實的好處:不但可以提高療效,減少副作用和宿主毒性蚂悯,甚至可以克服耐藥性。在單一藥物難以奏效的情況下,聯(lián)合用藥治療越來越多地用于包括HIV云钻、病毒感染和癌癥等復(fù)雜的疾病中扣筛。
當然聋寻,藥物組合能夠發(fā)揮治療價值的一個大前提水导,是準確地找到了合適的藥物組合。
傳統(tǒng)尋找藥物組合的方法遂跟,往往基于臨床試驗的不斷試錯,不僅耗時長漩勤、成本高,也無法排除對患者造成傷害的風險越败。此外,受限于既有資源和海量的藥物組合搜索空間置谦,也難以大規(guī)模地對所有藥物組合進行臨床驗證實驗亿傅。
近年來媒峡,隨著實驗技術(shù)的發(fā)展葵擎,高通量藥物篩選(HTS)讓探索大型藥物組合空間成為現(xiàn)實,與藥物組合協(xié)同作用相關(guān)的數(shù)據(jù)量也大幅增加某蛆。這類公共數(shù)據(jù)集的出現(xiàn)和完善,推動了特定組織的藥物研究诸跳,并為計算方法的完善提供了高質(zhì)量的訓(xùn)練數(shù)據(jù),使評估預(yù)測藥物組合的計算方法成為可能织鳖,尤其是基于深度學習的AI方法。
而現(xiàn)有模型及其所使用的數(shù)據(jù)集依然有較大局限性卷哟,包括預(yù)測目標通常停留在一個特定的細胞系或組織,或者通常是基于單一的數(shù)據(jù)庫原俘,距離普適性、無偏見竿刁、可大規(guī)模推廣的藥物協(xié)同作用預(yù)測模型仍有不少差距。
為了解決上述問題食拜,在這項研究中,團隊提出一個端到端的深度學習框架负甸,通過利用多模態(tài)數(shù)據(jù)、圖神經(jīng)網(wǎng)絡(luò)和大規(guī)模無監(jiān)督訓(xùn)練打月,提取和整合了藥物協(xié)同作用的重要特征蚕捉,從而準確地預(yù)測協(xié)同效應(yīng)奏篙。
圖:該研究提出的藥物組合預(yù)測框架
具體而言秘通,模型將藥物的化學結(jié)構(gòu)圖和細胞系的基因/蛋白質(zhì)表達作為輸入升筛,應(yīng)用預(yù)先訓(xùn)練好的藥物分子圖transformer和蛋白質(zhì)預(yù)訓(xùn)練語言模型,將藥物和蛋白轉(zhuǎn)換成嵌入向量柳竟,并使用知識嵌入學習算法莽恩,從醫(yī)學知識圖譜中獲得的融合疾病慰乾、藥物、蛋白關(guān)聯(lián)關(guān)系的基因表征嵌入向量欧舒。
接下來,通過將藥物-藥物相似性關(guān)系阐拭、藥物-靶點基因/蛋白對應(yīng)關(guān)系、以及蛋白和蛋白相互作用關(guān)系等構(gòu)建成具有更豐富信息的圖,利用圖神經(jīng)網(wǎng)絡(luò)將生成的嵌入向量作為節(jié)點表示鹉梨,對藥物協(xié)同作用進行傳播和推演谊却,在圖神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上妨舟,團隊建立了一個協(xié)同效應(yīng)預(yù)測器茵烈,通過多層感知器(MLP)來預(yù)測協(xié)同效應(yīng)环疼。
實驗效果最優(yōu)炫隶,且實現(xiàn)對全新藥物的預(yù)測
為了驗證新模型對于藥物組合的預(yù)測效果阎曹,研究團隊做了一系列的測試。
驗證的第一步栅贴,是在公開的DrugCom數(shù)據(jù)集上與最先進的方法進行比較,其中包括五種深度學習方法:DeepDDS檐薯、 TranSynergy谊某、DeepSynergy、MR-GNN订岗、 MatchMaker,以及兩種經(jīng)典機器學習方法:XGBoost雪奠、Adaboost。
如表2所示,新方法在所有重要指標上都取得了當前最好的結(jié)果慢俄。具體來說,在最重要的兩大指標AU ROC和F1磨夕,新方法比第二優(yōu)的DeepDDS方法提升2%以上蔓姚,比經(jīng)典機器學習方法更有超過20%的提升慨丐。
更進一步的房揭,表3則總結(jié)了上述7種方法在行業(yè)公認的阿斯利康(AZ)數(shù)據(jù)集上遷移測試的表現(xiàn)晌端。這一數(shù)據(jù)集基于專門評估藥物協(xié)同預(yù)測的賽事“AstraZeneca-Sanger Drug Combination Prediction DREAM Challenge",由阿斯利康斩松、桑格研究所、Sage Bionetworks-DREAM Challenge組委會共同推出惧盹。
相比于其他的方法钧椰,新方法在指標上大幅超越了其他的方法粹断,體現(xiàn)了很強的推廣能力刻吵。
為了進一步驗證新方法的泛化能力,團隊開發(fā)了兩個覆蓋39個獨立的藥物和10個獨立的細胞系的數(shù)據(jù)集牙硫,以測試了這些方法在訓(xùn)練數(shù)據(jù)中沒有見過的藥物和細胞系上的表現(xiàn)街剂。
如表4顯示,新方法在這方面保持了很好的性能选芦,各項指標均達到80%以上版逼,而其他方法如DeepDDS和DeepSynergy出現(xiàn)了下降到70%以下的情況。
總體而言钮隙,該研究提出的新模型在實驗中充分驗證了其有效性和穩(wěn)健性,并始終且顯著優(yōu)于其他模型载迄。
研究團隊認為,將這一模型擴展到更多任務(wù)上磷杏,會是一個很有前途的研究方向。在未來极祸,將諸如三維分子結(jié)構(gòu)這樣的更多信息納入框架之中怠晴,該方法的性能還可以進一步提升遥金。此外蒜田,研究團隊也將開發(fā)能夠進行更多的藥物、細胞系和疾病相關(guān)任務(wù)的方法冲粤,而不局限于藥物聯(lián)合效應(yīng)預(yù)測。
我們相信船遣,研究團隊提出的新方法可以作為一個強大的工具,促進精確的藥物聯(lián)合治療醫(yī)學的發(fā)展欺靠,尤其是實現(xiàn)全新用藥組合的推薦覆珍。
關(guān)于百圖生科
百圖生科(BioMap)是中國首家生物計算引擎驅(qū)動的創(chuàng)新藥物研發(fā)平臺,由百度創(chuàng)始人李彥宏于2020年創(chuàng)立锌仅。
公司致力于結(jié)合前沿AI和生物技術(shù),構(gòu)建高通量干濕閉環(huán)的生物計算引擎热芹,建模蛋白質(zhì)/免疫細胞/免疫系統(tǒng)的復(fù)雜規(guī)律惨撇,從而開發(fā)全新的蛋白質(zhì)藥物—— “ImmuBot?免疫機器人”府寒,重編程免疫系統(tǒng)、治療數(shù)十種免疫相關(guān)疾病株搔。
目前,公司已在北京肌辑、蘇州、硅谷建立了三個研發(fā)中心和上萬平米的高通量實驗室刹造,組建了由多位院士和產(chǎn)業(yè)專家領(lǐng)銜的數(shù)百人專業(yè)團隊,所開發(fā)的數(shù)千億關(guān)系的多組學免疫圖譜劫欣、上千億參數(shù)的多模態(tài)生物計算大模型、年產(chǎn)上億組數(shù)據(jù)的智能化蛋白質(zhì)與免疫系統(tǒng)實驗?zāi)M器等一系列重大科學裝置處于世界領(lǐng)先水平晋挑。公司目前圍繞多種腫瘤免疫和自身免疫疾病建立了30余個自主藥物研發(fā)項目,并通過卓越開發(fā)者計劃與國內(nèi)外著名機構(gòu)建立了數(shù)十個聯(lián)合開發(fā)項目肄寻。
播禾創(chuàng)新中心
播禾創(chuàng)新中心
播禾創(chuàng)新(adock)由中國第一支專注于全周期孵化的生命健康投資基金-薄荷天使基金發(fā)起坡沿,通過引進和孵化以IT技術(shù)支持的生命健康創(chuàng)業(yè)項目,構(gòu)建交叉融合的創(chuàng)新生態(tài)圈钾埂,輔以專業(yè)的載體平臺及扎實的科學孵化服務(wù)河闰,致力于成為中國首家信息科技(IT)及生物科技(BT)交叉融合的創(chuàng)新孵化中心褥紫。
— THE END?—