近日,中國科學院廣州生物醫藥與健康研究院王杰課題組與廣州國家實驗室李亦學課題組合作,成功開發了一種在單細胞水平構建調控網絡的新工具ScReNI(Single-cell Regulatory Network Inference)。該工具通過整合單細胞轉錄組(scRNA-seq)與單細胞染色質可及性(scATAC-seq)數據,實現單細胞精度的基因調控網絡推斷。相關研究成果以題為“ScReNI: Single-cell Regulatory Network Inference Through Integrating scRNA-seq and scATAC-seq Data”的論文形式發表于國際學術期刊《Genomics,Proteomics & Bioinformatics》。
每個細胞都具有獨特的轉錄組和染色質可及性特征,其內在的基因調控網絡也呈現出顯著的異質性和細胞特異性。然而,目前仍缺乏能夠有效整合單細胞多組學數據,構建單細胞精度調控網絡的方法。scRNA-seq和scATAC-seq技術分別能夠在單細胞水平上測量基因表達和染色質開放區域,二者的結合為解析精細的細胞特異性調控機制提供了新機會。無論是配對還是未配對的單細胞多組學數據,都為構建單個細胞的調控網絡奠定了基礎。盡管已有多種方法可用于推斷細胞類型特異性的調控網絡,但在單細胞尺度上系統構建基因調控關系的研究仍十分有限,特別是在整合scRNA-seq與scATAC-seq數據方面仍面臨諸多挑戰。
針對上述問題,研究團隊提出了一種創新算法ScReNI,能夠在單細胞水平上整合scRNA-seq與scATAC-seq數據,實現細胞特異性的調控網絡推斷。ScReNI的核心設計思路包括以下四個關鍵步驟(圖1):
1.?多組學數據整合:利用Seurat軟件中的加權最近鄰(weighted nearest neighbor)分析方法,整合配對或未配對的scRNA-seq和scATAC-seq數據;
2.?確定細胞鄰域集合:為每個細胞識別k個最近鄰細胞,作為后續調控網絡推斷的基礎;
3.?在細胞鄰域內建立非線性基因調控關系:采用改進的隨機森林模型,結合轉錄因子(TFs)活性、基因表達和染色質可及性信息,推斷非線性調控關系;
4.?識別關鍵調控因子:基于細胞特異的調控網絡,統計識別每個細胞中的富集調控因子,揭示其在不同生物過程中的潛在作用機制。
ScReNI利用鄰近細胞的信息模擬局部調控環境,并通過機器學習方法挖掘基因表達與染色質可及性之間的復雜關聯,從而構建個性化的調控網絡。評估結果顯示,ScReNI在調控關系預測和細胞聚類任務中均表現出優異性能,同時還能識別出每個細胞中的關鍵調控因子,為深入理解單細胞層面的功能調控機制提供了有力支持。
中國科學院廣州生物醫藥與健康研究院的助理研究員徐雪麗、碩士研究生梁嫣然以及博士研究生湯杪庥為本研究的共同第一作者;廣州國家實驗室李亦學研究員和中國科學院廣州生物醫藥與健康研究院王杰研究員為共同通訊作者。研究工作得到了國家自然科學基金、國家重點研發計劃以及廣東省科技研發專項的支持。
圖1 ?ScReNI流程圖
附件下載: