在人工智能革命之前,蛋白質(zhì)設(shè)計(jì)方法僅限于基于自然界現(xiàn)有蛋白質(zhì)生成設(shè)計(jì),這存在局限性,因?yàn)榇笞匀恢粚?duì)可能的蛋白質(zhì)景觀的一小部分進(jìn)行了采樣。相比之下,生成式人工智能方法強(qiáng)調(diào)從頭開(kāi)始的蛋白質(zhì)設(shè)計(jì)——從零開(kāi)始設(shè)計(jì)新的蛋白質(zhì)——以擴(kuò)大功能和理想屬性的范圍,超越自然界已經(jīng)實(shí)現(xiàn)的功能。
在《Nature》雜志上發(fā)表的一項(xiàng)名為“用可編程生成模型照亮蛋白質(zhì)空間”的新研究中,研究人員提出了一種名為Chroma的生成式人工智能(AI)模型,該模型創(chuàng)造了自然界中以前未發(fā)現(xiàn)的具有可編程特性的新型蛋白質(zhì),具有治療潛力,并在實(shí)驗(yàn)室中取得了實(shí)驗(yàn)成功。Chroma用于在外部約束下設(shè)計(jì)蛋白質(zhì),包括對(duì)稱性、子結(jié)構(gòu)、形狀,甚至是自然語(yǔ)言提示。實(shí)驗(yàn)表征了從Chroma產(chǎn)生的310種蛋白質(zhì),這些蛋白質(zhì)表達(dá)、折疊并具有良好的生物物理特性。
這項(xiàng)工作來(lái)自馬薩諸塞州薩默維爾(Somerville)的Generate:Biomedicines公司,該公司致力于機(jī)器學(xué)習(xí)、生物工程和醫(yī)學(xué)的交叉研究,重點(diǎn)是蛋白質(zhì)設(shè)計(jì)。
Biomedicines的聯(lián)合創(chuàng)始人兼首席技術(shù)官Gevorg Grigoryan博士指出,可編程性從一開(kāi)始就是Chroma框架不可或缺的一部分,因?yàn)樯a(chǎn)治療應(yīng)用需要的不僅僅是生成可以通過(guò)實(shí)驗(yàn)驗(yàn)證的結(jié)構(gòu)。評(píng)估蛋白質(zhì)的功能,如結(jié)合、變構(gòu)控制和酶活性,對(duì)治療潛力至關(guān)重要。
此外,這項(xiàng)研究的一個(gè)新穎之處在于,當(dāng)考慮在蛋白質(zhì)設(shè)計(jì)活動(dòng)中進(jìn)行實(shí)驗(yàn)驗(yàn)證時(shí),它改變了范式。
“我們的目標(biāo)不是‘我想讓這種蛋白質(zhì)起作用’,而是表征這種模型。我們想了解Chroma學(xué)到的東西有多少是真實(shí)的,多少是不真實(shí)的,”Grigoryan說(shuō)。
在決定實(shí)驗(yàn)驗(yàn)證哪些計(jì)算結(jié)構(gòu)時(shí),常用的方法包括一個(gè)過(guò)濾步驟,在這個(gè)步驟中,蛋白質(zhì)設(shè)計(jì)者根據(jù)他們對(duì)生物物理結(jié)構(gòu)的理解來(lái)批評(píng)設(shè)計(jì),例如由于溶解度問(wèn)題而懲罰疏水區(qū)域的過(guò)度代表。
讓數(shù)據(jù)為你工作
蛋白質(zhì)設(shè)計(jì)領(lǐng)域傳統(tǒng)的“自下而上”方法,即基于原子的生物物理動(dòng)力學(xué)模擬蛋白質(zhì)行為,在邏輯上是“精細(xì)和一致的”,但并沒(méi)有帶來(lái)現(xiàn)在通過(guò)機(jī)器學(xué)習(xí)可以實(shí)現(xiàn)的進(jìn)步。
機(jī)器學(xué)習(xí)方法不是從第一原理開(kāi)始,評(píng)估模擬是否準(zhǔn)確,而是從觀察開(kāi)始,推斷導(dǎo)致這些觀察的原理。
具體來(lái)說(shuō),Chroma利用了擴(kuò)散模型,這是一種機(jī)器學(xué)習(xí)工具,在圖像生成工具中取得了相當(dāng)大的成功,例如Midjourney、OpenAI的DALL-E 2和Stability AI的Stable diffusion。這些生成模型學(xué)習(xí)訓(xùn)練數(shù)據(jù)的模式,并生成具有相似特征的新輸出。這個(gè)框架使Chroma具有可塑性,可以引入新的可編程條件。
“為新屬性創(chuàng)建模型并將其插入Chroma非常容易。與DALL-E圖像生成器類似,您不必為動(dòng)物、海灘和山脈創(chuàng)建單獨(dú)的圖像模型。你只要告訴模型,‘我想要一只戴著寬邊帽在海灘上跳舞的熊貓’,它就能為你生成這樣的場(chǎng)景。”
Chroma并不是唯一利用擴(kuò)散模型進(jìn)行蛋白質(zhì)設(shè)計(jì)的生成式人工智能工具。今年7月,華盛頓大學(xué)(UW)蛋白質(zhì)設(shè)計(jì)研究所(IPD)主任、生物化學(xué)教授David Baker博士的實(shí)驗(yàn)室在《Nature》雜志上發(fā)表了他們的擴(kuò)散模型RoseTTAFold擴(kuò)散(RFdiffusion),該模型證明了強(qiáng)有力的實(shí)驗(yàn)驗(yàn)證和易用性。
“到目前為止,[Chroma]只被實(shí)驗(yàn)證明可以設(shè)計(jì)新的結(jié)構(gòu),但可能適用于設(shè)計(jì)新的蛋白質(zhì),肽和小分子相互作用,正如RFdiffusion所證明的那樣,”Baker說(shuō)。
有效的蛋白質(zhì)設(shè)計(jì)模型只是更廣泛的治療發(fā)現(xiàn)過(guò)程的一部分。
“Chroma是一個(gè)模型,而不是藥物打印機(jī)。還有很多東西要做治療,這可能是資源密集型的,涉及干濕實(shí)驗(yàn)室之間非常緊密的整合,”Grigoryan說(shuō)。
向所有人開(kāi)放
Chroma背后的代碼作為開(kāi)源軟件提供給學(xué)術(shù)界和工業(yè)界的所有研究人員。
“我們的意圖是在發(fā)布預(yù)印本之前先開(kāi)源。從社會(huì)的角度來(lái)看,阻礙[Chroma]在推進(jìn)生物醫(yī)學(xué)科學(xué)以及其他應(yīng)用(如納米技術(shù)和材料科學(xué))方面的作用是不對(duì)的,”Grigoryan解釋說(shuō)。
從公司的角度來(lái)看,Grigoryan還指出,能夠繼續(xù)走在科學(xué)前沿的能力與公司吸引和留住最優(yōu)秀人才的能力有關(guān)。分享這項(xiàng)工作是為研究界做出貢獻(xiàn)的關(guān)鍵行動(dòng)。
雖然擴(kuò)散模型是“當(dāng)下的潮流”,但新的蛋白質(zhì)設(shè)計(jì)工具有望滲透到一個(gè)快速增長(zhǎng)的領(lǐng)域。
“既然代碼是可用的,(全人類)當(dāng)然可以自由地在其基礎(chǔ)上進(jìn)行構(gòu)建并創(chuàng)建更好的版本。我期待并希望這正是發(fā)生的事情。”
Illuminating protein space with a programmable generative model
(文章來(lái)源:www.ebiotrade.com/newsf/2023-11) |