<strike id="ckiu0"><s id="ckiu0"></s></strike>
<kbd id="ckiu0"><acronym id="ckiu0"></acronym></kbd>
  • <strike id="ckiu0"><td id="ckiu0"></td></strike>
    <ul id="ckiu0"></ul>
    科研進展

    深圳先進院?| 功能基因智能挖掘大模型SYMPLEX推動生物制造與合成生物元件開發(Science Advances)

    發布時間:2025-04-11 來源:深圳先進技術研究院


    隨著生物測序技術突破,全球天然基因庫已積累數十億量級序列,其中蘊藏海量高價值功能基因。然而,當前僅有少數明星基因被深度挖掘,絕大多數仍處于“沉睡”狀態。如何突破傳統注釋與建模局限,利用AI等手段激活“基因寶庫”,正成為合成生物學與生物制造領域的關鍵挑戰。

    4月9日,中國科學院深圳先進技術研究院定量合成生物學全國重點實驗室、合成生物學研究所婁春波團隊與北京大學定量生物學中心錢瓏團隊合作在國際學術期刊Science Advances上發表題為"Discovery of Diverse and High-quality mRNA Capping Enzymes through a Language Model-enabled Platform"的研究論文,報道了全球首個面向合成生物學元件挖掘與生物制造應用的大語言模型——"SYMPLEX",并將SYMPLEX模型應用于mRNA加帽酶基因的挖掘,展示了大語言模型賦能生物制造的巨大潛力。

    該模型通過融合領域大語言模型訓練、合成生物專家知識對齊和大規模生物信息分析,實現了從海量文獻中自動化挖掘功能基因元件,并精準評估其工程化應用潛力。研究團隊將SYMPLEX應用于mRNA疫苗生物制造關鍵酶——加帽酶的挖掘,成功獲得多種高性能新型加帽酶。第三方公司實驗驗證顯示,這些酶在催化效率上超越國際頭部企業New England Biolabs(NEB)商業化加帽酶2倍以上,顯著提升了mRNA疫苗生產率和成本效益。此項成果不僅為合成生物學元件設計提供了AI驅動的新范式,更展現了大語言模型等人工智能技術在生物制造中的廣闊應用前景。

    ?

    ■ 破局傳統:功能基因深度挖掘的大語言模型

    天然生物基因組蘊藏著海量功能基因,這些基因在進化過程中不斷優化,形成了多樣化的序列空間和復雜精巧的功能活性,賦予生物體適應復雜環境的獨特優勢。隨著高通量測序技術的發展,全球生物序列數據庫已突破數十億規模,為生物制造和合成生物學提供了前所未有的基因元件資源庫。然而,盡管這些天然基因蘊含著巨大的應用潛力,目前僅有少數明星基因(如基因編輯工具酶)得到了系統的注釋和結構解析。這種研究的不均衡導致現有基于序列、結構或深度學習的基因挖掘技術和蛋白質設計方法難以應用于更復雜的基因系統,嚴重制約了高價值功能基因的開發與利用。

    針對上述問題,研究團隊創造性地將大型語言模型(LLM)與結構化生物知識庫深度融合,開發出SYMPLEX智能基因挖掘平臺(圖1)。SYMPLEX是強大的功能基因搜索引擎,通過自動化閱讀和理解千萬級體量的生物學文獻,在基因、功能和知識水平上提取分析文獻內容,并與專家數據庫進行概念對齊、交互和基于先進生物信息技術的統計模式生成,從而提供證據鏈完整的高質量候選基因集合。SYMPLEX不僅有效規避了大語言模型幻覺,還能自動生成基因功能相關的細粒度知識樹,引導科學家探索廣泛的生物機制和分子過程(圖1)。

    對比結果表明,SYMPLEX大模型在挖掘基因的深度、數量和多樣性上均顯著優于傳統生物信息學方法,其挖掘的基因多樣性也超越了現有蛋白質功能預測模型的邊界(圖2)。


    ■ 應用案例:解鎖mRNA疫苗高效生產的蛋白質密碼

    近年來,mRNA疫苗以其高效、可快速開發等特點在全球抗疫中發揮了關鍵作用。然而,mRNA疫苗背后的一項關鍵工藝——mRNA 5’端加帽(capping),卻因其效率較低、成本高昂成為“卡脖子”環節。加帽過程對穩定mRNA、促進翻譯和減少免疫反應至關重要,而目前mRNA疫苗生產工藝中使用的仍是傳統的痘病毒雙蛋白(Vaccinia D1/D12)加帽酶,選擇有限且價格昂貴。

    研究團隊利用SYMPLEX大規模挖掘mRNA加帽酶,并進行了實驗驗證。SYMPLEX通過批量處理生物學文獻和生物信息分析,識別出16,685個與 mRNA 加帽相關的基因,并進一步篩選出75類(18,779 條序列)高置信度的完整加帽酶基因。經過46種候選基因實測,研究團隊獲得了14種可在哺乳動物和酵母細胞中穩定發揮作用的加帽酶,其中2種新型加帽酶的體外活性比商業化痘病毒加帽酶高出兩倍(圖3)。值得一提的是,本研究挖掘的新型加帽酶與已知加帽酶的序列相似性低于20%,且編碼序列長度縮減30%,有望為mRNA疫苗和基于mRNA的基因療法研究提供關鍵使能技術支持。

    此外,SYMPLEX的挖掘還揭示了加帽酶在自然界中多樣的構型與進化策略。研究發現,加帽酶TPase功能域的桶狀外圍結構具有保守與可設計區間,而MTase功能域則存在新的酶活中心模體。這些發現表明,SYMPLEX不僅能助力于理解生物過程的多樣化策略,還可為酶的理性工程優化或生成式蛋白設計提供高質量數據集。

    ?

    ■ 平臺賦能:合成生物制造的“智能基座”

    目前,SYMPLEX在線交互式平臺已上線供研究人員免費使用(https://bdainformatics.org/page?type=SYMPLEX)(圖4)。平臺采用模塊化設計,提供三個核心功能:

    (1)文獻智能提取引擎PubEngine:支持高通量的文獻智能檢索分析與可視化交互;

    (2)基因功能標注系統GeneTagger:實現從分子機制到生物過程的細粒度自動化基因與功能提取;

    (3)標準化知識中樞GeneNorm:實現與專家知識庫的概念對齊與標準化,支持知識樹構建和功能模式識別。

    各模塊既可無縫協同實現高效數據流轉,又能獨立運行,以加速功能基因挖掘以及蛋白質設計。平臺現有注冊用戶200余人,2024年訪問量達6000余次。

    本項研究開創了功能基因深度挖掘的新范式,利用大語言模型高效推動生物知識轉化,為mRNA疫苗規模化生產提供了關鍵酶資源庫。研究團隊正利用SYMPLEX挖掘更多可用于生物制造和合成生物學的關鍵酶元件,并將該平臺拓展至合成通路設計等領域,有望推動生物制造進入“AI for Science”新紀元。

    北京大學研究員錢瓏、中國科學院深圳先進技術研究院研究員婁春波為本文共同通訊作者。北京大學博士研究生王天澤、覃博文、厲思宏,中國科學院深圳先進技術研究院博士研究生王子陌為共同第一作者。本研究獲得了浙江大學歐陽頎教授團隊和北京遠軒科技有限公司的大力支持,并得到國家重點研發計劃、國家自然科學基金、北京市重點基金以及深圳合成生物學創新研究院等項目的資助。



    ?



    ??


    圖1.SYMPLEX大模型的技術路線及其與傳統基因挖掘流程對比



    圖2.SYMPLEX挖掘結果多樣性對比和細粒度知識樹生成




    圖3. 候選加帽酶在細胞體系和體外轉錄體系中表現出跨物種、跨體系的高加帽效率


    ?圖4.SYMPLEX平臺



    附件下載:

    国产午夜亚洲精品午夜鲁丝片| 国产精品尹人在线观看| …久久精品99久久香蕉国产| 久久精品韩国三级| 骚片AV蜜桃精品一区| 精品九九人人做人人爱| 久久精品一区二区影院| 国产成人久久久精品二区三区| 国产农村妇女精品一二区| 99偷拍视频精品一区二区| 亚洲爆乳精品无码一区二区| 国产精品资源在线观看网站| 国产香蕉一区二区精品视频| 久久精品人妻中文系列| 精品福利一区二区三区免费视频 | 久久99久国产麻精品66| 日韩人妻无码精品专区| 中文字幕精品在线| 中文字幕日韩专区精品系列| 国产区精品福利在线观看精品| 国产精品视频九九九| 精品久久综合1区2区3区激情| 国产精品原创巨作?v网站| 久久99精品免费一区二区| 中文字幕久热精品视频在线| 中文字幕精品一区| 精品久久久久久亚洲| 久久91精品国产99久久yfo| 亚洲视频精品在线| 亚洲精品成人图区| 亚洲精品无码专区在线播放| 精品久久久久久久免费加勒比 | 欧洲精品在线观看| 国产日韩精品一区二区在线观看| 精品女同一区二区三区在线| 九九热视频精品在线| 国产亚洲精品无码拍拍拍色欲| 99久久国产精品免费一区二区| 国产国产精品人在线视| 久久久国产乱子伦精品作者| 亚洲av专区无码观看精品天堂|