近年來,隨著多種植物參考基因組的不斷公布及同種不同個體植物基因組間的相互比較,人們逐漸認識到單一參考基因組不能代表物種內的多樣性,這導致了泛基因組概念的產生。隨后,在三代測序技術的助力下,拓展了泛基因組的深度和精度,植物泛基因組也迎來了黃金發展期。2014年,開啟了作物泛基因組研究歷程。自2014年開展泛基因組研究至今,先后開展了玉米、大豆、油菜、小麥(六倍體面包小麥)、短柄草、水稻、番茄、芝麻、木豆等的泛基因組研究,有助于充分挖掘遺傳變異資源;鑒定品系特有性狀調控基因;通過對不同環境下野生物種基因分布進行研究,有助于培育更適應不同環境氣候變化的作物。未來,泛基因組逐漸取代單一參考基因組,成為研究植物進化、選擇與基因功能的“新標準”。



01什么是泛基因組


泛基因組進而可以分為,核心基因(core genome)和非核心基因(dispensable / variable / accessory / genome)。核心基因:在所有動植物品系或者菌株中都存在的基因;非核心基因:在1個以及1個以上的動植物品系或者菌株中存在的基因。通過,分析核心基因和非核心基因的基本情況,并從特有基因序列的角度來研究物種內的差異。一般來說,核心基因組控制著生命體基本生成代謝的功能。另外,結構變異中的存在/缺失變化(presnece/absence variation)是泛基因組的重點研究對象,因為可變基因組可能就是使個體產生不同性狀(抗病性,抗寒性等)的原因。

圖1 利用多個個體構建泛基因組



02 為什么要開展泛基因組測序?


在漫長的進化過程中,由于地域因素,環境因素等的影響,每個個體都形成了極其特別的遺傳性狀,單一個體的基因組已經不能涵蓋這個物種的所有遺傳信息。多項研究表明,選取野生近緣種(CWRs)進行泛基因組分析,能夠檢測在馴化和育種過程中的基因保留和丟失,支持對丟失多樣性的描述和將基因重新引入現代品種的潛力。例如,在南美洲和中美洲番茄馴化過程中與風味有關的基因發生丟失,后來又被重新引入。同時,對不同環境下野生物種基因分布進行研究,有助于培育更適應不同環境氣候變化的作物。比如,PAV基因容易富集在對非生物和生物脅迫反應有關的通路中,尤其是抗病相關通路,類似的結論在單子葉、雙子葉甚至人類中都有發現。技術的發展。由于基因測序變得更加廉價,為近年來火爆的泛基因組的研究提供了可能性。尤其是,三代測序技術(PacBio or Nanopore Technology)無論在基因組組裝還是在結構變異檢測上具有極大的優勢,成了現今泛基因組研究的核心技術平臺。
泛基因組通過對不同品種基因組進行測序、組裝,然后將組裝好的基因序列進行整合注釋,進而獲取這個物種全部的遺傳信息并且對每一個個體間遺傳變異信息進行解析。



03 植物泛基因組的構建方式


概況來看,植物目前構建泛基因組的方式有三種:迭代組裝、多個體De novo、圖形基因組。
· 迭代組裝指將多個樣本的下機數據比對到一個參考基因組后,將未比對上的reads組裝成新的contigs。通過將這些新的contigs添加到原始的參考序列中,就可以構建一個泛基因組;
· 多個體De novo即對多個樣本同時進行組裝注釋,從全基因組層面識別PAV,也是目前運用最廣的方法;
· 圖形泛基因組即在De novo的基礎上,將物種基因組分為Dispensable genome與Core genome區域。


圖2 植物泛基因組的構建方式



04 作物泛基因組的材料選擇


泛基因組可以是開放的或關閉的(圖3)。當泛基因組關閉時,對足夠數量的個體進行測序,幾乎可以獲得整個基因/序列信息,可以預測泛基因組的理論大小。相反,當泛基因組開放時,每增加一個新的個體,新的基因就會被整合到泛基因組中,使得不能預測最終的泛基因組大小。

圖3 泛基因組大小與個體數量的關系
1. 數量選擇
影響泛基因組規模的因素之一是非核心基因所占百分比 (在作物泛基因組的研究中,非必需基因組的比例從8%上升到61%),其中,樣本量是泛基因組究的重要因素。在構建泛基因組開始,隨著鑒定新基因的個體數目的增加,泛基因組的大小也隨之增加,但核心基因的百分比隨之下降。

例如,在針對3010份水稻種質的研究中,pan-genome(48098 genes)中非核心基因占比達到~41%,該比例比前期的3份水稻種質的pan-genome(40362 genes)研究中(非核心基因3144個,占比~8%)高很多(Schatz et al., 2014;Wang et al., 2018)。對于作物研究,隨著測序個體數量的增加,鑒定出的新基因數量趨于減少,這表明存在有限數量的基因組,超過此數量的基因組后,將更多的基因組納入分析中將不會導致泛基因組的進一步擴張。

2.材料特性

材料的選擇對pan-genome研究的檢測效率和完整性也有十分重要的影響:1. 親緣關系遠近:親緣關系近的材料的選擇將會低估pan-genome的大??;2. 野生種質與栽培種質的結合:野生種質和栽培種質的結合可產生更大種規模的pan-genome,其非核心基因的比例比單純的利用栽培作物材料的高出很多。



05 泛基因組的分析內容


1. 泛基因組特征分析
泛基因組分析可以回答三個重要問題,以助于了解物種特性:
(1)核心基因組的大小是多少,換句話說就是有多少基因/基因家族在所有個體中都存在;
(2)泛基因組的大小是多少,在這些物種里共有多少基因/基因家族;
(3)隨著每個新個體的加入,將有多少基因/基因家族被加入泛基因組。
同時,泛基因組研究會對核心基因組和可變基因組進行比較,包括:
(1)基因特性,比如平均基因長度、外顯子數目;
(2)SNP 密度、Indel 密度;
(3)同義替換率 dS、非同義替換率 dN、非同義替換率與同義替換率比值 dN/dS;
(4)基因表達水平;
(5)基因功能富集。
2. 全面準確的變異檢測

泛基因組研究可以得到物種全面且準確的變異信息 (SNP、Indel、CNV、PAV)。與重測序變異檢測相比,泛基因組研究基于基因組序列進行變異分析能夠大幅度提高變異檢測的準確性,以及大結構變異的檢出性。比如,2019年發表的番茄泛基因組研究中,PAV(presence/absence variations)分析通過統計群體中每個個體的基因組包含哪些基因,對個體基因組進行分型,并進行后續的進化分析。在群體中各個個體相對差異較大時,使用PAV分析比使用SNP等變異信息來分析更加能夠體現群體內部的差異。而在本研究中,通過對野生、早期栽培和現代栽培的番茄進行PAV比較,可以揭示馴化種植過程中番茄基因組發生變化的過程。野生番茄品系(SP和SCG)包含的基因顯著較多,顯示番茄馴化中存在基因丟失過程。


 圖4 4類番茄基因數量的小提琴圖



3. 新基因鑒定
泛基因組分析能鑒定出參考序列中不存在的基因,對這些新基因進行功能分析也是其研究的焦點。比如,在2018年水稻泛基因組文章中,研究者鑒定出大量基因不存在于參考基因組“日本晴”,其中一些新基因具有重要的功能,包括抗澇性基因 Sub1A-1, Snorkel-1, Snorkel-2和缺磷耐受性基因 Pstol1(圖5)。


圖5 水稻泛基因組中6個功能特征基因的 PAV
4. 系統進化分析
泛基因組可以對物種進行廣而深入的進化研究,以了解物種的起源與演化。同時,還能結合生物地理學分析物種傳播途徑的演化。泛基因組研究收集到的數據是較全面的,因此,在某些情況下可以解決物種進化分歧的問題。
5. 泛基因組進階分析
調控區差異分析
泛基因組對存在/缺失變異的分析大多集中在編碼區域,然而,越來越多的人認識到順式調控元件和重復序列在健康和疾病以及作物馴化和改良中的重要性。因此,泛基因組的研究也擴展到非編碼序列。
核心基因和可變基因的調控網絡構建
泛基因組分析得到了大量核心基因和可變基因,這些基因都行使著什么樣的功能,以及相互之間有什么樣的聯系?這些問題將在未來泛基因組的研究中得到解答??勺兓虻淖饔弥皇翘峁┻m應環境變化和新的生態位所需要的表型可塑性,為了履行這一功能,可變基因需要整合到現有的生物學通路和調控網絡中。



06 植物泛基因組的發展趨勢


泛基因組逐漸取代單一參考基因組,成為研究植物進化、選擇與基因功能的“新標準”。未來植物泛基因組學的發展可重點關注以下3個方面:
(1)泛基因組學數據的存儲和可視化:重點是對泛基因組進行精確和一致性的功能注釋,以探索變異基因更廣泛的功能。
(2)綜合基因組學方法,將基因的特性(如表達水平、生物網絡中的連接性和序列保守性)與功能聯系起來:即泛基因組的研究不應只局限在基因部分,基因組的調控區域也是諸多農藝性狀的決定因素。
(3)泛基因組的“跨屬”研究:由于測序成本和計算資源的制約,目前植物泛基因組集中在“種”水平,而未來開始“屬”甚至“科”水平的泛基因組,可以使得我們回答植物學最古老的問題:什么基因造就了植物?




07 植物泛基因組的數據庫


GreenPhylDB v5:植物比較基因組數據庫

GreenPhylDB(https://www.greenphyl.org)是一個旨在促進探索基因家族和植物基因組之間的同源關系的數據庫,收集整理了與全球糧食安全至關重要的主要作物數據。自擬南芥和水稻基因組公布后,自2007年起GreenPhylDB經歷了多次更新。GreenPhylDB v5通過利用物種的多個基因組序列引入了泛基因組學的概念,并通過基于系統發育的分析預測其同源關系。
通過整理132個數據庫的46種植物共105個基因組,獲得了19個泛基因組,并基于系統發育分析預測其同源關系。數據庫提供了強大的搜索功能,用戶可以通過數據庫檢索基因樹和相關基因家族的完整列表,按序列或基因座ID進行搜索鑒定pangene ID,在基因家族界面分別展示了基因家族組成、結構、蛋白質結構域、植物遺傳學分析和同源預測等分析內容。


轉自網絡