基于 Transformer 的大語言模型(LLM)在自然語言處理、生物、化學和計算機編程等各個領域取得了重大進展。
但對于在實驗室工作的研究人員或那些不熟悉計算機代碼的人來說,人工智能方法并不那么容易理解。
近日,卡內基梅隆大學的研究團隊找到了如何讓人工智能系統自學化學的方法。提出了一種基于 GPT-4 的智能 Agent(以下簡稱 Coscientist),用一個簡單的語言提示就可以執行整個實驗過程。能夠自主設計、規劃和執行復雜的科學實驗。
Coscientist 可以設計、編碼和執行多種反應,在濕實驗中使用其機器人設備制造包括撲熱息痛和阿司匹林在內的化合物。
比如,科學家可以要求 Coscientist 找到具有給定性質的化合物。該系統搜索互聯網、文檔數據和其他可用資源,綜合信息并選擇使用機器人應用程序編程接口(API)的實驗過程。然后將實驗計劃發送給自動化儀器并由其完成。總之,與系統一起工作的人可以比單獨工作的人更快、更準確、更有效地設計和運行實驗。
領導該研究的卡內基梅隆大學的化學家 Gabe Gomes 表示:「當我看到非有機智能能夠自主計劃、設計和執行人類發明的化學反應時,真是太棒了。那真是一個 holy crap 的時刻。」
研究人員表示:「我們預計,用于自主科學實驗的智能代理系統將帶來巨大的發現、不可預見的療法和新材料。雖然我們無法預測這些發現會是什么,但我們希望看到一種新的方式,通過人與機器之間的協同合作來進行研究。」
該研究以《Autonomous chemical research with large language models》為題,于 2023 年 12 月 20 日發表在《Nature》上。
論文鏈接:https://www.nature.com/articles/s41586-023-06792-0
AI 的快速進步使得這些工具的應用在整個科學領域激增。但對于在實驗室工作的研究人員或那些不熟悉計算機代碼的人來說,人工智能方法并不那么容易理解——至少 Gomes 是這么認為的。
當 ChatGPT 背后的大語言模型 (LLM) 的最新版本(GPT-4)于 3 月份推出時,Gomes 和他的團隊開始著手讓它為化學家服務。
研究人員表示,該研究使用的所有 AI 系統都是 LLM,主要是 GPT-3.5 和 GPT-4,盡管其他一些系統(Claude 1.3 和 Falcon-40B-Instruct)也進行了測試。GPT-4 和 Claude 1.3 表現最好。但是,研究人員并沒有使用單一系統來處理化學的各個方面,而是設置了不同的實例以分工設置進行合作,并將其稱為「Coscientist」。
結果,Coscientist 使用最新的強大的 LLM(包括 GPT-4)來搜索化學文獻,并設計一條反應途徑,在人類的提示下制造分子。LLM 閱讀互聯網上的說明手冊,并決定其庫中最好的試劑盒和試劑,以在現實生活中制造該分子。
Coscientist 加速六種不同任務研究
Coscientist 展示了其加速六種不同任務研究的潛力,包括鈀催化交叉偶聯的成功反應優化,同時展示了(半)自主實驗設計和執行的先進能力。研究結果證明了像 Coscientist 這樣的 AI 系統在推進研究方面的多功能性、有效性和可解釋性。
Coscientist 可以使用工具瀏覽互聯網和相關文檔、使用機器人實驗應用程序編程接口 (API) 并利用其他 LLM 來完成各種任務。
圖示:Coscientist 系統架構。(來源:論文)
研究人員在六項任務中展示了 Coscientist 的多功能性和性能:
(1)使用公開數據規劃已知化合物的化學合成;
(2)有效地搜索和瀏覽大量的硬件文檔;
(3)使用文檔在云實驗室中執行高級命令;
(4)用低級指令精確控制液體處理儀器;
(5)解決需要同時使用多個硬件模塊和集成不同數據源的復雜科學任務;
(6)解決分析先前收集的實驗數據的優化問題。
設計、編碼、合成
該團隊促使系統計劃合成幾種已知分子,包括止痛藥撲熱息痛和阿司匹林,以及有機分子硝基苯胺和酚酞。在規劃階段,Coscientist 能夠制定出總體上能獲得最佳反應產率的步驟。并正確地制造了分子。
為了演示網絡搜索器模塊的功能之一,研究設計了一個由七種要合成的化合物組成的測試集。
圖示:Coscientist 在化學合成計劃任務中的能力。(來源:論文)
基于 GPT-4 的 Web 搜索器顯著改進了合成規劃。對乙酰氨基酚、阿司匹林、硝基苯胺和酚酞的所有試驗均達到最高分。
評估智能體推理能力的可能策略之一是測試它是否可以使用之前收集的數據來指導未來的行動。在此,研究人員重點關注 Pd 催化轉化的多變量設計和優化,展示了 Coscientist 處理涉及數千個示例的現實實驗活動的能力。研究目標是直接使用 Coscientist。
將 Coscientist 的化學推理能力測試設計為游戲,目標是最大化反應產率。使用標準化優勢指標來評估 Coscientist 的表現。
圖示:優化實驗結果。(來源:論文)
標準化優勢值隨著時間的推移而增加,這表明該模型可以有效地重用獲得的信息,以提供有關反應性的更具體的指導。
LLM 潛力巨大,但也要考慮風險
英國格拉斯哥大學(University of Glasgow)化學家 Lee Cronin 表示:「這很好地展示了如何使用 LLM 來探索文獻,幫助提出可行的化學反應的想法。」
葡萄牙里斯本大學(University of Lisbon)藥物化學家 Tiago Rodrigues 表示,「像 Coscientist 這樣的工具可能會被更廣泛地使用。我確實可以預見自動化硬件配備這些人工智能助手的未來。自動駕駛實驗室是未來,需要人工智能工具來完全自動化設計-制造測試循環。」
現在這些系統可以完成日常任務,但 Rodrigues 補充說,大多數研究問題,特別是在藥物發現方面,仍然遙不可及。「不僅需要對化學有很好的理解,還需要對生物學有很好的理解。」
「科學家可以做訓練有素的化學家可以做的大部分事情。我經常思考這個問題,」Gomes 說。他的團隊尚未免費提供其發明背后的完整代碼,Gomes 表示,仔細考慮如何以及在哪里使用 Coscientist 和 ChemCrow 等技術是很重要的,因為某些應用程序可能存在危險。
參考內容:
https://arstechnica.com/science/2023/12/large-language-models-can-figure-out-how-to-do-chemistry/
https://www.nature.com/articles/d41586-023-03790-0
https://www.nature.com/articles/d41586-023-04073-4
https://techxplore.com/news/2023-12-artificially-intelligent-coscientist-automates-scientific.html
消費者研究與零售監測公司尼爾森IQ26日發布的《通往2025:中國消費者展望》(以下簡稱“報告”)指出,展望2025年,可以預見新科技、新需求的介入將帶來全新生活方式,刺激新的消費方式形成。國家統計局......
AI時代如何培養拔尖創新人才AI教育不是一個“筐”什么都能往里裝人工智能無疑是最近一段時間最響亮的名字。特別是今年的諾貝爾獎——三大自然科學獎項中的兩項都頒給了與人工智能相關的研究,這樣的結果更讓人工......
人工智能倫理準則、軸子暗物質探測、表觀遺傳時鐘……27日發布的《2024研究前沿》報告和《2024研究前沿熱度指數》報告,遴選出2024年全球較為活躍或發展迅速的125個研究前沿,并對相關學科的發展趨......
當前,人工智能等新一代信息技術迅猛發展,為我國智能育種技術發展帶來新機遇,也為我國打贏種業翻身仗提供了新方法新手段。中國工程院院士、中國農業大學校長孫其信長期從事作物遺傳育種研究。圍繞我國智能育種技術......
“未來將是一個更加開放的超連接世界,未來工程教育必須有新的思維、新的理解和新的創新。”在近日舉辦的2024國際工程大會上,中國工程教育認證協會理事、東北大學原校長趙繼強調,跨學科協同網絡和合作方式的扁......
據美國科學促進會旗下網站19日報道,美國普林斯頓大學和斯坦福大學團隊開發出一種新壓縮算法CALDERA,能精簡大型語言模型(LLM)的海量數據,為LLM“瘦身”。這項算法不僅有助保護數據隱私、節約能源......
“未來將是一個更加開放的超連接世界,未來工程教育必須有新的思維、新的理解和新的創新。”在近日舉辦的2024國際工程大會上,中國工程教育認證協會理事、東北大學原校長趙繼強調,跨學科協同網絡和合作方式的扁......
近日,中國長城參與承擔的新一代人工智能國家科技重大專項“面向人工智能應用的神經網絡處理器關鍵標準研究與芯片驗證”項目經專家組評審,順利通過驗收。作為首批人工智能領域的國家科技重大專項,“面向人工智能應......
《中共中央關于進一步全面深化改革、推進中國式現代化的決定》提出:“建立人工智能安全監管制度。”這是黨中央統籌發展與安全,積極應對人工智能安全風險作出的重要部署。人工智能是引領這一輪科技革命和產業變革的......
引言:“大鵬一日同風起,扶搖直上九萬里。”細胞和基因治療(CGT)領域在過去幾年中取得了顯著進步,其管線和批準產品的數量急劇增加。然而CGT市場仍然面臨許多挑戰,這些挑戰阻礙了其增長并延遲了這些療法的......