當(dāng)藥物研發(fā)遇上阿里云超算,GHDDI如何實(shí)現(xiàn)高通量分子篩選?

2020年6月1日凌晨,武漢市衛(wèi)健委發(fā)布通告稱,5月31日,武漢市對(duì)6萬余人進(jìn)行了核酸檢測(cè),未發(fā)現(xiàn)無癥狀感染者。這是武漢市公布無癥狀感染者人數(shù)以來,首次無癥狀感染者當(dāng)日新增為零,國內(nèi)抗疫取得又一關(guān)鍵的階段性成果。

 

然而,全球范圍內(nèi)的新冠疫情對(duì)社會(huì)經(jīng)濟(jì)活動(dòng)帶來的影響還在持續(xù),尋找行之有效的治療方案仍是全球科學(xué)家當(dāng)下重要的任務(wù)。4月中旬接受央視記者白巖松采訪時(shí),比爾·蓋茨曾特別提及:“GHDDI的研發(fā)團(tuán)隊(duì)將幫助世界更好地理解并對(duì)抗疫情?!边@家創(chuàng)立于2016年的獨(dú)立運(yùn)營、非營利性質(zhì)新藥研發(fā)機(jī)構(gòu),再次以如此高調(diào)的方式進(jìn)入公眾視野。

 

GHDDI,全稱全球健康藥物研發(fā)中心(Global Health Drug Discovery Institute),由比爾及梅琳達(dá)·蓋茨基金會(huì)、清華大學(xué)和北京市政府聯(lián)合發(fā)起成立于中國北京。清華大學(xué)藥學(xué)院院長(zhǎng)、拜耳特聘教授丁勝教授擔(dān)任中心主任。通過匯聚全球頂尖資源、發(fā)揮中國特色優(yōu)勢(shì),GHDDI致力于建設(shè)引領(lǐng)性的生物醫(yī)藥研發(fā)能力和創(chuàng)新藥物轉(zhuǎn)化平臺(tái),攻克人類面臨的重大疾病挑戰(zhàn),改善全球健康。

 

與GHDDI一同抗疫的,還有阿里云。1月29日,阿里云宣布對(duì)全球公共科研機(jī)構(gòu)免費(fèi)開放一切AI算力,以支持抗疫。在此之前,阿里云高性能計(jì)算平臺(tái)就開始免費(fèi)支持GHDDI研究新冠病毒。

 

早在新冠肺炎疫情爆發(fā)之初的2020年1月,GHDDI即宣布會(huì)同清華大學(xué)藥學(xué)院向全球科研人員免費(fèi)開放了包括高通量藥物篩選平臺(tái)和多個(gè)化合物庫在內(nèi)的內(nèi)部研發(fā)平臺(tái)和藥研資源。隨后,數(shù)以百計(jì)的海內(nèi)外科研機(jī)構(gòu)和研究團(tuán)隊(duì)基于GHDDI的開放資源進(jìn)行針對(duì)新冠肺炎病毒的藥物、疫苗開發(fā)。

 

藥物篩選平臺(tái)和內(nèi)部藥研資源開放的兩天后,GHDDI人工智能研發(fā)團(tuán)隊(duì)就上線了針對(duì)新冠病毒研究的一站式科研數(shù)據(jù)與信息共享平臺(tái) “Targeting COVID-19”。據(jù)了解,“Targeting COVID-19”平臺(tái)從設(shè)計(jì)到搭建完成,耗時(shí)僅4天。此外,GHDDI聯(lián)合阿里云共同搭建新冠病毒人工智能全球共享云計(jì)算系統(tǒng),用頂尖的數(shù)據(jù)庫和高性能的超算資源助力全球抗疫的創(chuàng)新探索。


高通量:快速鎖定新冠病毒潛在靶點(diǎn)


1月21日,全國已有13個(gè)省市相繼出現(xiàn)新冠肺炎確診病例,疫情加劇。同時(shí),新冠病毒基因組序列公開發(fā)布。

 

在阿里云高性能計(jì)算負(fù)責(zé)人何萬青的詢問下,GHDDI人工智能部門負(fù)責(zé)人潘麓蓉博士比對(duì)了新冠病毒和SARS病毒的相似度。意識(shí)到這種病毒的潛在威脅,GHDDI決心投入資源幫助對(duì)抗新冠病毒。


實(shí)際上,GHDDI在1月即模擬了幾乎全部新冠病毒相關(guān)靶點(diǎn)的三維結(jié)構(gòu),并完成全面的同源性、傳染性相關(guān)分析,快速鎖定在后續(xù)藥物開發(fā)、抗體設(shè)計(jì)中發(fā)揮關(guān)鍵作用的抗原靶點(diǎn)。確定關(guān)鍵靶點(diǎn)后,GHDDI公布前期研究數(shù)據(jù)供外部團(tuán)隊(duì)進(jìn)行藥物開發(fā)的同時(shí),也開展了基于計(jì)算模型的虛擬藥物分子篩選。

 

動(dòng)脈網(wǎng)從GHDDI相關(guān)負(fù)責(zé)人處了解到,GHDDI藥研團(tuán)隊(duì)聚焦“老藥新用”思路,對(duì)現(xiàn)有超過9000種抗病毒活性小分子和內(nèi)部ReFRAME化合物庫(內(nèi)含12000多種臨床安全的化合物)進(jìn)行構(gòu)效關(guān)系和歷史數(shù)據(jù)分析,篩選出幾百個(gè)高概率具有抗擊新冠病毒活性的小分子。至此,GHDDI始終秉持開源的態(tài)度,將科研數(shù)據(jù)和基于此間數(shù)據(jù)構(gòu)建的各級(jí)抗原靶點(diǎn)表型分析模型對(duì)外發(fā)布,供全球科研群體開展后續(xù)的成藥性相關(guān)研究。

 

新冠病毒疫情的背景下,資源和研究成果共享無疑能極大的加速研究者的進(jìn)展,避免重復(fù)工作。

 

我們知道,藥物研發(fā)是一個(gè)非常復(fù)雜和耗時(shí)的過程。在化合物發(fā)現(xiàn)階段,傳統(tǒng)方法是通過大量實(shí)驗(yàn)完成篩選,發(fā)現(xiàn)可能適合的化合物。以確定與蛋白病毒酶結(jié)合的小分子為例,由于存在數(shù)量巨大的不同商業(yè)化合物庫,且每個(gè)庫的化合物數(shù)以百萬計(jì),合計(jì)上億,完全依靠實(shí)驗(yàn)方式一一測(cè)試幾乎不可能實(shí)現(xiàn)。

微信圖片_20200604141309.jpg

于是,科學(xué)家嘗試通過機(jī)器模擬分子化合物與靶點(diǎn)的相互作用等計(jì)算方式篩選出可能有效的化合物做小通量實(shí)驗(yàn)。其中一種傳統(tǒng)虛擬篩選方式是通過小分子和靶點(diǎn)對(duì)接,對(duì)不同配體的結(jié)合效果打分或者通過分子動(dòng)力學(xué)進(jìn)一步計(jì)算,篩選出得分高且結(jié)合模式合理的配體作為候選藥物進(jìn)行實(shí)驗(yàn)驗(yàn)證,加速藥物研究進(jìn)程。

 

由于分子庫巨大,哪怕用計(jì)算機(jī)實(shí)現(xiàn)虛擬篩選,需要在有限時(shí)間完成,也極大挑戰(zhàn)了計(jì)算機(jī)性能。假設(shè)某化合物庫有10,000個(gè)候選配體,以每個(gè)化合物在單核CPU平均處理時(shí)間1.5個(gè)小時(shí)計(jì)算,總共需要15,000 個(gè)小時(shí)(625天)才能完成此化合物庫的分子篩選。而高性能計(jì)算集群的應(yīng)用,為現(xiàn)代藥物研發(fā)提供了必不可少的支撐。


如果在高性能集群上,用625個(gè)CPU并行計(jì)算,一天則可完成上述任務(wù)。如果用高性能GPU訓(xùn)練好的人工智能模型進(jìn)行預(yù)測(cè)篩選,在單個(gè)GPU上四分鐘則可以完成上述任務(wù)。


云超算的藥物研發(fā)場(chǎng)景驗(yàn)證


高性能計(jì)算又稱超算,是一種用超級(jí)計(jì)算機(jī)或大規(guī)模的計(jì)算集群來解決需要大量計(jì)算能力(如并行計(jì)算、AI模型運(yùn)算)需求的方法,在石油勘探、氣象預(yù)報(bào)、藥物研發(fā)中廣泛應(yīng)用。一般而言,為在規(guī)定時(shí)間內(nèi)完成藥物研發(fā)的分子篩選,研究者需要擁有強(qiáng)大計(jì)算能力的計(jì)算平臺(tái)、大容量存儲(chǔ)和大量配套的高性能應(yīng)用軟件,如Amber, NAMD等。

 

在高性能計(jì)算出現(xiàn)后的許多年中,由于虛擬化造成的性能損耗,云計(jì)算并不被從事高性能計(jì)算開發(fā)的專家看好。在單個(gè)節(jié)點(diǎn)實(shí)驗(yàn)中,物理機(jī)性能一定比虛擬機(jī)高,使用配置最好最快的物理機(jī)器幾乎成為高性能計(jì)算領(lǐng)域的“潛規(guī)則“。

 

2017年,阿里云在云棲大會(huì)上發(fā)布神龍服務(wù)器。這款由阿里云自主開發(fā)的云服務(wù)器,主要通過自研芯片和MOC卡來實(shí)現(xiàn)虛擬化功能,并將存儲(chǔ)網(wǎng)絡(luò)的管控放上來,使得CPU本身不再浪費(fèi),100%地為計(jì)算者提供服務(wù)。

 

盡管理論上還是會(huì)耗掉資源,但神龍服務(wù)器的優(yōu)勢(shì)顯而易見。容器在神龍服務(wù)器上運(yùn)行的性能,比傳統(tǒng)物理機(jī)上高20-30%。因?yàn)樵趥鹘y(tǒng)物理機(jī)上高密度部署容器時(shí),由于存儲(chǔ)網(wǎng)絡(luò)虛擬化的資源核心和業(yè)務(wù)所占的CPU的資源,之間會(huì)互相爭(zhēng)搶,隨著整體負(fù)載率提升,它的業(yè)務(wù)的延時(shí)會(huì)迅速惡化,最后導(dǎo)致業(yè)務(wù)不可用。而在神龍上面,因?yàn)?每一個(gè)容器之間的數(shù)據(jù)鏈路都是用芯片的硬件隊(duì)列進(jìn)行隔離的,不會(huì)互相影響,即便負(fù)載接近90%,延時(shí)的變化依然不大。

 

消除了虛擬化損耗的神龍讓云超算得以實(shí)現(xiàn),阿里云超級(jí)算計(jì)集群以神龍服務(wù)器作為算力底座,通過RoCE高速網(wǎng)絡(luò)連接,加上并行存儲(chǔ)文件系統(tǒng)CPFS,對(duì)外提供了完整高性能計(jì)算所需要的硬件基礎(chǔ)設(shè)施。軟件調(diào)度層面則提供了E-HPC(Elastic High Performance Computing)能夠讓用戶自助在云上搭建自己的高性能集群系統(tǒng),配置高性能服務(wù)器和大容量存儲(chǔ),提供軟件多節(jié)點(diǎn)運(yùn)行和高通量任務(wù)處理解決方案,直接滿足藥物研發(fā)人員對(duì)計(jì)算平臺(tái)的需求。

 

新冠疫情期間,GHDDI在阿里云之上搭建了開放共享平臺(tái),使用E-HPC搭建高性能計(jì)算集群,用于藥物研發(fā)的分子對(duì)接、分子動(dòng)力學(xué)模擬、深度學(xué)習(xí)模型訓(xùn)練,同時(shí)為合作伙伴創(chuàng)建不同的云超算子賬戶,實(shí)現(xiàn)計(jì)算資源共享和數(shù)據(jù)共享。

 

阿里云資深專家何萬青博士告訴動(dòng)脈網(wǎng),GHDDI的共享平臺(tái)幫助科學(xué)家更便捷地將即時(shí)的想法轉(zhuǎn)化為具有指導(dǎo)意義的創(chuàng)新探索,極大地提高了新冠肺炎相關(guān)藥物、疫苗的開發(fā)效率。未來,阿里云超算將基于彈性的高性能計(jì)算能力,為更多的藥物研發(fā)工作提供必要的算力支撐。