近日,國際頂刊《自然》雜志發表了百度在生物計算領域的突破性研究成果,并以“加速預覽”(Accelerated Article Preview,AAP)形式快速發表。
這“待遇”與當初DeepMind提出AlphaGo、AlphaFold2時相同。
論文提出mRNA序列優化算法LinearDesign,對生物醫學領域意義深遠。這是中國科技互聯網企業首次以第一完成單位的身份發表論文于《自然》正刊,也是AI應用于mRNA領域首篇CNS正刊論文。
這項研究由百度主導,并與論文合作單位斯微生物公司等共同完成。近期,百度生物計算團隊接受媒體采訪對這一成果作了解讀,并披露成果背后的故事。《中國科學報》擇其精要,特整理如下。
《中國科學報》:
能夠在《自然》正刊發論文,大家都好奇你們做了哪些研究,做出了什么成果?
百度生物計算團隊:
作為一種全新的疫苗類型,mRNA疫苗在研發中存在一個棘手問題:如何找到一個既具有穩定二級結構,而且還有效的mRNA疫苗。如果用“窮舉法”尋找這樣的穩定序列,計算量將會是天文數字,無異于“大海撈針”。為了解決這一問題,我們引入了人工智能技術和方法。
受自然語言處理技術啟發,我們設計了LinearDesign算法。LinearDesign是一個mRNA序列優化算法,它最大的特點就是運用自然語言處理中的網格解析技術(lattice parsing),對mRNA疫苗序列進行優化,來提升疫苗穩定性和有效性。
這個算法實現了將AI技術與生物疫苗研發相結合。簡單來說,mRNA序列是由堿基序列組成的,與一段語句是由單詞排列組成的相類似,兩者都會形成某種“結構”。
我們用AI技術,提前設計穩定mRNA序列的結構,再根據這些穩定結構“按圖索驥”,去找到最符合要求的候選序列——這個過程就像是在一連串發音相似的詞組里,找到最貼近語義的那一句。
這一創新思路成效十分顯著。
實驗表明,LinearDesign算法只需11分鐘,就能鎖定最穩定的新冠mRNA疫苗序列,不僅讓疫苗研發更高效,也讓疫苗研發更有成效——以新冠mRNA疫苗序列設計為例,對比疫苗公司提出的序列,百度算法設計的序列穩定性最多提升5倍以上,抗體反應最多提升128倍。
《中國科學報》:
你們做了哪些驗證工作?結果如何?
百度生物計算團隊:
我們分別做了新冠mRNA疫苗和帶狀皰疹mRNA疫苗這兩款疫苗的驗證工作,相關的生物實驗是聯合斯微生物一起開展的。實驗數據表明,我們設計的序列在穩定性(體外mRNA半衰期)、蛋白質表達和抗體反應方面,均比傳統方法設計的疫苗的基準序列有顯著提升。這也證明了我們這個算法的有效性、實用性和普適性。
曾在美國Moderna 公司工作的計算RNA生物學家戴夫·莫格 (Dave Mauger)了解我們這個工作后,認為這種新方法“非常了不起”,說我們的“計算效率確實令人印象深刻,而且比以往任何時候都更加復雜”。
《中國科學報》:
這項研究是何時開展的?中間經歷了哪些過程?
百度生物計算團隊:
我們從2020年初就啟動了這個項目。
新冠疫情剛開始的時候,我們就想利用算法技術做點事。2020年5月,LinearDesign算法就“誕生”了。為驗證算法是否有效,我們邀請斯微生物作為合作方,合作推進了大量的生物實驗,直到2021年底、2022年初,才形成完整的論文。
論文投稿是在2022年三四月份,沒過多久,我們就收到了《自然》雜志非常正面和積極的第一輪反饋,編輯也給出了明確的修改意見。此后我們又補充了一些生物實驗和文章內容,到2023年3月再次提交了修改稿,之后一個多月就收到了正式接收函,最終論文在5月份被“加速發表”。
《中國科學報》:
這項研究成果還有哪些潛在應用?
百度生物計算團隊:
這項研究成果,實現了AI技術和生物學的跨學科融合創新,不僅有助于mRNA疫苗的研發,還將推動mRNA治療藥物、單克隆抗體和抗癌藥物等方向的進展,具有多方面的實際意義和廣泛的應用前景。
目前,百度已對外提供LinearDesign公有云服務,來助力科學研究和藥物研發。我們認為,自然語言處理有很多非常強大的能力,未來還可以沿著LinearDesign這個思路,開發更多更強大的算法模型,用于解決目前制藥、醫療領域的實際問題。
《中國科學報》:
設計和運行這個算法,需要什么樣的算力?
百度生物計算團隊:
這其實是個經常被問到的一個問題。
大家會覺得,這樣一個高效的算法,是不是需要很高的算力?其實恰好相反,我們算法對算力的要求并不高。借助云平臺的服務器可以輕松運行,甚至個人電腦都可以“跑”這個程序。
一般來講,一臺性能不錯的個人筆記本電腦,跑兩千個蛋白長度的序列是沒問題的。
該算法參考了自然語言處理中Lattice Parsing算法
《中國科學報》:
既然如此,那是不是意味著普通藥廠、初創公司都可以低成本地采用?
百度生物計算團隊:
可以這么說。新興的mRNA技術推進了諸如新冠疫苗、帶狀皰疹疫苗等疫苗和藥物研發進程,而生物計算與mRNA技術的結合,正使得這一進程更加快速、高效,并可能為未來的藥物研發提供全新思路。
早在2021年,百度就與國際生物制藥巨頭賽諾菲簽訂許可協議,賽諾菲可以利用百度LinearDesign平臺,優化mRNA疫苗和藥物,用于相關人類疾病的治療與預防。為此,百度提供了多種服務方式,比如私有化部署和云平臺服務,為藥企和科研機構賦能。
《中國科學報》:
百度在AI+生物計算方面有哪些積累和投入?
百度生物計算團隊:
在AI+生命科學領域,百度已有多年布局和投入。
2018年,百度就開始了對生物計算領域的探索;2020年1月,百度對外開放RNA二級結構預測算法LinearFold;2020年5月,mRNA序列設計算法LinearDesign面世;2020年12月,百度正式發布生物計算平臺——飛槳螺旋槳PaddleHelix。
螺旋槳PaddleHelix針對生命科學領域的重要問題,如藥物篩選、蛋白設計、疫苗設計、精準診療、機理研究、分子合成等,通過構建“數據+原理”雙驅動的生物計算大模型技術,并基于大模型技術打造面向藥物研發、疫苗設計、精準醫療等場景的產品工具,輔助生命科學領域的研究者和從業人員提升研發效率,降低AI技術的使用門檻,以更快速的推進科研成果轉 化和在研管線的上市。
截止目前,飛槳螺旋槳PaddleHelix平臺已開放文心·生物計算大模型技術,及基于大模型技術開發的多個場景模型,包括藥物篩選、ADMET性質預測、分子生成、蛋白結構預測、多蛋白相互作用、多肽藥物設計、mRNA序列設計和藥物重定向等。
如前所說,2021年,醫藥巨頭賽諾菲跟百度簽訂協議,利用百度的平臺來優化mRNA疫苗和藥物設計,未來百度在生命科學領域的多個算法模型,也有望能夠進入更多的藥物研發管線上,賦能科研。
可以說,《自然》雜志發表的LinearDesign算法,是百度深耕生物計算領域的一個標桿性案例。
《中國科學報》:
AI技術和前沿生物技術結合,需要AI人才和生物人才密切合作。在研發的過程中,合作是怎樣開展的?不同專業人才的配比如何?合作過程中有沒有遇到一些困難?
百度生物計算團隊:
在AI人才和生物人才合作過程中,確實遇到了很多情況,因為這其中存在一個雙向的“知識鴻溝”(knowledge gap)。
AI人才有算法模型的經驗,但是往往缺乏對真實世界中生物問題的理解和經驗,存在著“舉著錘子找釘子”的問題。生物人才也不是非常了解AI領域的一些進展,所以也存在類似的問題。
具體到這個研發項目, AI人才和生物人才的占比接近于1:1,百度這邊主要是以AI算法的人才為主,生物實驗合作方主要以生物人才為主。當然我們也有同時具備生物計算和生物實驗雙重背景的專家的指導。
在這個合作過程中,有兩點非常重要。
一是要有明確的分工,有明確的責權。比如在項目之初我們負責算法的研發,后續合作方的生物人才負責生物實驗的驗證。
二是需要互相碰撞、互相學習、互相迭代。我們在一年多的時間里,會定期召開討論會,研討生物實驗設計、結果分析,雙方都會有更新和反饋。在這個過程中,大家都學到很多。比如,現在我們對mRNA也由最初的“小白”變得對它有一些了解了。
未來,AI技術還將和各個領域結合,各方都應以更開放的心態不斷碰撞和交互,這樣大家就有機會成長為具有交叉背景知識和技術特長的綜合性人才。
企業標準化促進辦法2023年8月31日國家市場監督管理總局令第83號公布自2024年1月1日起施行第一條為了引導企業加強標準化工作,提升企業標準化水平,提高產品和服務質量,推動高質量發展,根據《中華人......
市場監管總局關于印發《經營者集中反壟斷合規指引》的通知 各省、自治區、直轄市和新疆生產建設兵團市場監管局(廳、委):現將《經營者集中反壟斷合規指引》印發給你們,請結合本轄區經營者合規情況,做......
加快實現高水平科技自立自強,勝利推進強國建設、民族復興歷史偉業——學習習近平《論科技自立自強》科技自立自強是國家強盛之基、安全之要。黨的十八大以來,以習近平同志為核心的黨中央深刻總結我國科技事業發展實......
9月2日,召開2023年中國國際服務貿易交易會(下稱“服貿會”)。近年來,新一輪科技革命和產業變革興起,帶動了數字技術強勢崛起,促進了產業深度融合,引領了服務經濟蓬勃發展。工業和信息化部總工程師趙志國......
8月27日,詹天佑科學技術發展基金會換屆暨第四屆理事會第一次會議在北京召開。第十三屆全國政協副主席、中國科學技術協會主席萬鋼,中國國家鐵路集團有限公司董事長、黨組書記劉振芳致賀信,向會議召開表示熱烈祝......
8月27日,詹天佑科學技術發展基金會換屆暨第四屆理事會第一次會議在北京召開。第十三屆全國政協副主席、中國科學技術協會主席萬鋼,中國國家鐵路集團有限公司董事長、黨組書記劉振芳致賀信,向會議召開表示熱烈祝......
8月28日,中國互聯網絡信息中心(CNNIC)在京發布第52次《中國互聯網絡發展狀況統計報告》(以下簡稱《報告》)。《報告》顯示,截至2023年6月,我國網民規模達10.79億人,較2022年12月增......
8月24日,工業互聯網一體化進園區活動(大同站)啟動儀式在大同市舉辦。山西省工信廳副廳長李鑫、山西省通信管理局副局長劉紅雨、山西大同市副市長孟維君出席啟動儀式。來自科研院所、高校、企業等專家學者和技術......
......
根據《國家企業技術中心認定管理辦法》(國家發展改革委、科技部、財政部、海關總署、稅務總局2016年第34號令)和《國家發展改革委辦公廳關于組織開展2023年(第30批)國家企業技術中心認定及國家企業技......