人人爽人人爽人人片|国产午夜精品久久久久|色影院不卡中文一区二区|亚洲真人无码永久在线后宫|精品一区二区国产在线观看|国产欧美日韩一区二区搜索|久久综合给合久久狠狠狠88|亚洲v欧美v日韩v国产v在线

VIP標(biāo)識歡迎光臨種業(yè)商務(wù)網(wǎng) | | 手機版
商務(wù)中心
商務(wù)中心
發(fā)布信息
發(fā)布信息
排名推廣
排名推廣
 
當(dāng)前位置: 首頁 » 資訊 » 推薦閱讀 » 正文

AI育種家:作物育種的基因組預(yù)測

放大字體  縮小字體 發(fā)布日期:2024-03-27  來源:智種網(wǎng)NOVOSEED  瀏覽次數(shù):990
 

      編輯|智種網(wǎng)(智種網(wǎng)NOVOSEED)

      來源|生物信息與育種

      分享一篇近期來自華中農(nóng)大王旭彤老師(即SoyDNGP作者)的綜述,以SoyDNGP為例。建議參考之前的推文:基于深度學(xué)習(xí)框架的基因組預(yù)測新模型SoyDNGP。

      摘要

      人工智能(AI)與作物育種的結(jié)合代表了向數(shù)據(jù)驅(qū)動型農(nóng)業(yè)實踐的范式轉(zhuǎn)變,旨在提高作物改良的效率和精度。本文對大豆深度神經(jīng)網(wǎng)絡(luò)等基因組預(yù)測模型對作物育種的影響進(jìn)行了批判性評價,討論了它們目前的應(yīng)用、挑戰(zhàn)和未來潛力。通過解決現(xiàn)有障礙,如優(yōu)化親本選擇、準(zhǔn)確預(yù)測多個性狀和基因的組合效應(yīng)、推進(jìn)可解釋的深度學(xué)習(xí)以及納入環(huán)境因素,提出了克服這些挑戰(zhàn)的實際方法。我們的見解旨在釋放基因組預(yù)測中AI的全部潛力,為全面理解AI在農(nóng)業(yè)中的作用做出貢獻(xiàn),并倡導(dǎo)利用人工智能來培育可持續(xù)和公平的食物體系。

      簡介

      AI 的發(fā)展催生了生命科學(xué)的新階段。AlphaFold 是一個很好的例子,它能夠成功預(yù)測蛋白質(zhì)的結(jié)構(gòu)。使用AI技術(shù)有潛力顯著加速農(nóng)作物育種過程。通過利用AI模型在播種前預(yù)測作物性狀,育種家可以將數(shù)年的工作量減少到一個季節(jié)。“人工智能育種家”結(jié)合了先進(jìn)的計算能力和對生物學(xué)的理解,提高了育種家的技能,使他們能夠根據(jù)AI對未來育種結(jié)果的可能性進(jìn)行預(yù)報,從而提高育種過程的速度和準(zhǔn)確性。

      人工智能是作物改良發(fā)展的關(guān)鍵參與者,使研究人員能夠為克服對可持續(xù)農(nóng)業(yè)實踐的關(guān)鍵需求開辟道路。通過使用預(yù)測模型利用遺傳數(shù)據(jù)的廣泛潛力,AI Breeders 可以突破傳統(tǒng)選擇性育種的極限,引領(lǐng)我們進(jìn)入一個由科學(xué)和數(shù)據(jù)驅(qū)動的作物改良時代。在根據(jù)基因型預(yù)測表型的初步基礎(chǔ)上,我們的重點已轉(zhuǎn)移到基因組預(yù)測上,分享觀點和可能性,表達(dá)觀點和前景,旨在促進(jìn)基因組預(yù)測在育種中的應(yīng)用,從而加速精準(zhǔn)設(shè)計的育種。

      基因組預(yù)測的演變

      基因組預(yù)測,也稱為基因組選擇(GS),是現(xiàn)代作物改良策略的基礎(chǔ)。它是根據(jù)候選育種個體的遺傳組成預(yù)測其表現(xiàn)的科學(xué)。GS 的發(fā)展是現(xiàn)代植物育種的關(guān)鍵一步。最初由 Meuwissen 等人(2001)在動物育種中發(fā)現(xiàn),GS 已成為使用全基因組標(biāo)記確定植物和農(nóng)作物多基因性狀表型的中心策略。這種方法已在多種作物中得到證實,包括小麥、玉米水稻,強調(diào)了它在實際育種計劃中的實用性。然而,挑戰(zhàn)仍然存在,特別是在基因型標(biāo)記數(shù)量超過群體規(guī)模的高維標(biāo)記空間內(nèi)進(jìn)行準(zhǔn)確預(yù)測時。傳統(tǒng)的 GS 模型依賴于基于 BLUP(例如rrBLUP 和GBLUP)和基于貝葉斯等統(tǒng)計算法,通常難以應(yīng)對標(biāo)記數(shù)據(jù)的高維性以及基因型和表型內(nèi)部和之間關(guān)系的復(fù)雜性。

      深度學(xué)習(xí)技術(shù)開創(chuàng)了基因組選擇的新時代。如用于從基因型預(yù)測表型的R包 DeepGS 和用于基因組預(yù)測的深度神經(jīng)網(wǎng)絡(luò)DNNGP,利用深度神經(jīng)網(wǎng)絡(luò)和策略,包括卷積、抽樣、丟棄和集成學(xué)習(xí)來處理高維基因型數(shù)據(jù)的復(fù)雜性。例如,DeepGS通過提供更準(zhǔn)確的表型值選擇補充了傳統(tǒng)方法(如rrBLUP)。DNNGP通過使用具有多層分層結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行動態(tài)特征學(xué)習(xí),在植物中結(jié)合多種組學(xué)數(shù)據(jù)而區(qū)別于其他方法。該模型可以在各種尺度上管理育種數(shù)據(jù),比典型方法提供更好的預(yù)測精度和更快的計算速度,使其成為遺傳評估平臺有價值的工具。

      SoyDNGP模型是深度學(xué)習(xí)在作物育種中進(jìn)行基因組預(yù)測的另一個重要示例。SoyDNGP模型的一個關(guān)鍵進(jìn)展是其處理遺傳變異信息的新方法。傳統(tǒng)模型通常將 DNA 序列轉(zhuǎn)換為“獨熱編碼(one-hot)”的二進(jìn)制數(shù)據(jù),從而導(dǎo)致大型稀疏矩陣,這些矩陣缺乏對核苷酸序列的完整生物學(xué)意義的信息。相比之下,SoyDNGP 將遺傳變異轉(zhuǎn)化為類似圖像的數(shù)據(jù)格式,使卷積神經(jīng)網(wǎng)絡(luò) (CNN) 能夠像圖像識別任務(wù)一樣處理這些信息。這種獨特的表示方式使得 SoyDNGP 能夠在基因組數(shù)據(jù)中表征復(fù)雜的模式和特征,利用多個卷積和池化層來確定不同遺傳區(qū)域之間的復(fù)雜關(guān)系和相互作用。

      基于基因組預(yù)測模型的親本選擇

      SoyDNGP 模型結(jié)構(gòu)中,每個樣本的基因型被轉(zhuǎn)換為一個類似于圖像的三通道格式,以捕獲來自純合子和雜合子突變位點的信息(圖1 A)。這種結(jié)構(gòu)改進(jìn)了預(yù)測模型的功能,使其能夠識別最佳的親本混合物,這一特征對于受益于雜交育種方法的作物很有用(圖1 B)。通過數(shù)字合并潛在親本植物的基因型來模擬雜交育種過程,以模擬其后代中的純合和雜合遺傳位點。雖然我們主要在 F1 世代示例中證明這一點,但該方法同樣適用于 F2、F3 和 F4 世代,允許用戶在這些環(huán)境中探索遺傳組合。通過將這些虛擬基因型輸入到模型中,我們能夠預(yù)測一系列可能的表型。例如,使用 100 個潛在的親本系,我們的模型可以快速生成 4,950 組預(yù)測表型。然后,可以對這些預(yù)測的性狀進(jìn)行排名,以確定最有前途的親本組合(圖1 B)。這種方法為育種者提供了一種更有效、成本更低的方法,使他們能夠在傳統(tǒng)上困難和不確定的雜交育種任務(wù)中做出明智的決定。

      圖1. SoyDNGP模型架構(gòu)和功能應(yīng)用概述。

    (A) SoyDNGP模型框架示意圖。以 VCF 格式顯示的基因型文件被轉(zhuǎn)換為每個樣本的三個通道圖像輸入。核心體系結(jié)構(gòu)由十二個卷積層組成,隨后是一個全連接層,專門用于對數(shù)量性狀進(jìn)行回歸分析和對質(zhì)量性狀進(jìn)行分類。

      (B) 在選擇親本系中的應(yīng)用。通過數(shù)字模擬來自親本系的變量位點組合,例如代表 P1 和 P2 之間虛擬雜交的 haplotype C12。通過組合方法,我們可以評估所有可能的親本系組合。然后使用SoyDNGP 模型來預(yù)測特定性狀(如 T1、T2 和 T3)的表型。對于每個性狀,都會編制一個排名指數(shù)以與預(yù)期值對齊。排名“1”、“2”和“3”表示給定性狀的首選項。

      (C) 多性狀綜合育種中的應(yīng)用。為了實現(xiàn)所希望的性狀整合,為每個性狀分配了初始權(quán)重,從而產(chǎn)生了總體復(fù)合性狀的期望指數(shù) (EI)。例如,樣本 C12 的得分為 1.4,這是根據(jù)其性狀分?jǐn)?shù)加權(quán)計算得出的(1×0.6+3×0.2+2×0.1)。相比之下,樣品 C23 和 C13 分別獲得了 2.8 和 2.3 的分?jǐn)?shù)。最終,該 EI 將復(fù)合性狀按優(yōu)先順序排列為“1”、“3”和“2”,以便于選擇,并且 P1 和 P2 成為理想復(fù)合性狀的最佳配對。

      (D) 關(guān)于多基因綜合育種的前景。通過隨機地將每個遺傳位點從參考(Ref) 突變?yōu)閭溥x(Alt),并考慮三種可能狀態(tài):純合子 Ref、純合子 Alt 或雜合子,我們可以開發(fā)出 3n 種潛在的模擬 haplotype。預(yù)測單個或多個性狀的結(jié)果。這種方法使我們能夠評估最有利的基因組合,適用于特定性狀。

      (E) 應(yīng)用于闡明性狀變異效應(yīng)的應(yīng)用。要研究個體位點對性狀的影響,我們可以在兩個形式(純合子 Alt 和雜合子)中模擬每個位點上的突變,并將其影響與原始性狀影響(H0)進(jìn)行比較。這一過程可以構(gòu)建效果圖,以確定顯著貢獻(xiàn)到特定性狀的大位點,類似于 GWAS 中的曼哈頓圖。

      使用多性狀綜合育種進(jìn)行基因組預(yù)測

      對改良作物品種的追求通常需要同時提高多個表型性狀,這一過程被稱為多性狀聚合育種。多性狀聚合育種依賴于這樣一種理解:某些性狀可以遺傳相關(guān)聯(lián),一個性狀的改善可能會導(dǎo)致其他性狀的變化,無論是積極的還是消極的。為了在這個錯綜復(fù)雜的景觀中正確工作,育種家必須預(yù)測多個基因如何相互作用并調(diào)節(jié)各種表型。這項復(fù)雜的任務(wù)需要仔細(xì)平衡和選擇幾個性狀以實現(xiàn)后代所需的組合。傳統(tǒng)的育種方法雖然有效,但在處理低遺傳力的多基因性狀時通常是緩慢和復(fù)雜的。

      通過利用大量數(shù)據(jù)集來學(xué)習(xí)復(fù)雜的基因相互作用模式,基于人工智能的模型在這一領(lǐng)域表現(xiàn)出色。它們能夠?qū)π誀钸M(jìn)行排序,并檢查導(dǎo)致多種表型的共同遺傳貢獻(xiàn),從而可以更精確地預(yù)測育種結(jié)果。我們可以根據(jù)重要性對性狀進(jìn)行排序,并為預(yù)測結(jié)果分配權(quán)重(圖1 C)。這種加權(quán)方法使我們能夠綜合并排名多個目標(biāo)性狀的結(jié)果,實現(xiàn)統(tǒng)一評估。無論單個種質(zhì)資源還是虛擬組合親本基因型,具有最高分?jǐn)?shù)的基因型都可以被選為首選育種材料(圖1 C)。這樣,模型可以分析多變量數(shù)據(jù),以確定各種性狀之間最佳的等位基因組合,告知選擇最有可能產(chǎn)生最優(yōu)育種效果的親本基因型。這種方法簡化了選擇過程,并為育種人員探索可能難以考慮的性狀組合提供了新的可能性。因此,人工智能作為加速器,有助于培育新品種,滿足作物更高產(chǎn)量、改善質(zhì)量和增強抗性的日益增長的需求,確保糧食安全和可持續(xù)農(nóng)業(yè)實踐。

      為了優(yōu)化育種結(jié)果,我們的目標(biāo)是對父母組合進(jìn)行表型描述,使其具有各種期望性狀的理想基因組混合。通過利用我們的性狀預(yù)測模型,可以對虛擬基因型進(jìn)行全面交換,特別是那些在遺傳圖譜或功能基因組中被發(fā)現(xiàn)具有高重要性的特定基因位點。通過分析該模型產(chǎn)生的表型數(shù)據(jù),我們可以優(yōu)先選擇最有希望的等位基因組合(見圖1D)。這種方法依賴于現(xiàn)有的基因型或假定的親本配對,并且優(yōu)于傳統(tǒng)的GWAS和關(guān)聯(lián)研究,特別是在低遺傳力的復(fù)雜性狀如作物產(chǎn)量方面。通過關(guān)注多個關(guān)鍵基因的累加效應(yīng),我們提高了在植物育種計劃中產(chǎn)生有意義改進(jìn)的能力。

      使用可解釋的人工智能模型進(jìn)行基因組預(yù)測

      在農(nóng)業(yè)基因組學(xué)預(yù)測中,被稱為可解釋人工智能(XAI)的人工智能模型的可解釋性不僅僅是學(xué)術(shù)性的;它具有實際意義。能夠解釋預(yù)測結(jié)果可以快速開發(fā)育種用的遺傳標(biāo)記,并且可能導(dǎo)致更健壯、更具適應(yīng)性的作物品種。它還培養(yǎng)了育種者對基于人工智能的決策的信心,這對于他們在育種計劃中的采用至關(guān)重要。XAI 的最新方法有很多,例如模型無關(guān)的方法,通過使用更可解釋的方法來近似復(fù)雜模型的預(yù)測,或者基于擾動的方法,評估輸入變化對預(yù)測的影響。例如,為了朝著可解釋的深度學(xué)習(xí)發(fā)展,我們可以使用序列擾動來檢查我們的改進(jìn)模型中特定位點突變的效果。與通過序列擾動預(yù)測染色質(zhì)可及性或轉(zhuǎn)錄因子結(jié)合的其他基因組預(yù)測模型相比,這種方法具有獨特性;我們關(guān)注的是特定位點的突變和表型影響。這使我們能夠評估每個位點對表型的影響,并提取關(guān)鍵變異位點信息。雖然這種技術(shù)與全基因組關(guān)聯(lián)研究 (GWAS) 有相似之處,但它仍然是獨特的(圖 1E)。然而,這些方法通常只能提供部分見解,并且可能在處理大規(guī)?;蚪M數(shù)據(jù)時代價高昂或不切實際。

      在SoyDNGP模型架構(gòu)中,我們實現(xiàn)了一個注意力機制,指導(dǎo)神經(jīng)元在整個提取過程中優(yōu)先考慮關(guān)鍵特征,并為更關(guān)鍵的位置屬性分配更高的權(quán)重。這樣可以允許從基因型中提取重要位置數(shù)據(jù),就像GWAS量化每個遺傳關(guān)聯(lián)的相關(guān)性一樣。通過關(guān)注注意力權(quán)重,我們可以定位最具影響力的位點。為了解釋遺傳變異對特定性狀的影響,我們構(gòu)建了一個解碼器,該解碼器模仿了訓(xùn)練好的全卷積神經(jīng)網(wǎng)絡(luò)(FCNN)模型的結(jié)構(gòu)(圖2A)。解碼器中的每個轉(zhuǎn)置卷積塊都經(jīng)過調(diào)整和加權(quán),以與FCNN中的對應(yīng)塊對齊,從而保證當(dāng)輸入充滿1且形狀像FCNN輸出的張量時,生成的權(quán)重分布矩陣與特征圖尺寸對齊(圖2 A)。這個矩陣的權(quán)重分布使我們能夠近似估計模型對不同位點的權(quán)重分配,衡量變異位點對性狀的影響。試驗表明,注意力機制能夠準(zhǔn)確地表征與大豆FC和POD等單個基因性狀相關(guān)的相關(guān)位點(圖2B)。然而,對于復(fù)雜的數(shù)量性狀,它不太成功。這可能是由于高度準(zhǔn)確的表型模型的要求以及模型激活函數(shù)對權(quán)重分配的影響。移除這些功能會損害預(yù)測精度,導(dǎo)致來自不精確模型的不可靠信息。

SoyDNGP的解碼器結(jié)構(gòu)和大豆的初步應(yīng)用

      圖2. SoyDNGP的解碼器結(jié)構(gòu)和大豆的初步應(yīng)用。

      (A) 在 SoyDNGP 中編碼器-解碼器框架的說明。解碼器中的轉(zhuǎn)置卷積塊被構(gòu)建并加權(quán),以匹配全卷積神經(jīng)網(wǎng)絡(luò)(FCNN)中相應(yīng)的元素。這保證了當(dāng)一個張量被輸入到系統(tǒng)中時,它的形狀與 FCNN 的輸出相似,但充滿張量的張量被輸入系統(tǒng)這時,構(gòu)建的權(quán)重分布矩陣準(zhǔn)確地反映了特征圖的維度。這個矩陣中權(quán)重的分布使得可以估計模型對不同位點的優(yōu)先級,并評估遺傳變異對性狀表達(dá)的影響。

      (B) 對于描述大豆性狀(如花和豆莢顏色)的權(quán)重映射的分析。對于 SoyDNGP-baseline 版本,我們在關(guān)聯(lián)的解碼器上進(jìn)行了權(quán)重反轉(zhuǎn),使用 Z 分?jǐn)?shù)標(biāo)準(zhǔn)化得到的結(jié)果,并使用曼哈頓平鋪可視化來去除異常值。在正態(tài)分布下,在 (u-3σ,u+3σ) 范圍內(nèi)的值有 0.9974 的可能性。我們通過應(yīng)用 3σ、5σ 和 7σ 的閾值來評估位點權(quán)重的重要性。

      如何利用網(wǎng)絡(luò)來有意義地解釋位置數(shù)據(jù)仍然是一個懸而未決的問題,也是我們未來決心要解決的挑戰(zhàn)。因此,推動基因組學(xué)中的可解釋人工智能不僅僅是揭示人工智能,而是與提高我們對復(fù)雜遺傳特征的基本理解的愿望密切相關(guān)。這一追求需要跨學(xué)科的合作,并整合計算建模、生物信息學(xué)和實驗生物學(xué)。只有通過這樣的共同努力,我們才有希望以有意義的方式推進(jìn)可解釋的人工智能,滿足基因組預(yù)測的需求,并幫助確保農(nóng)業(yè)的未來。

      整合環(huán)境因素的基因組預(yù)測

      環(huán)境因素對作物生長發(fā)育的影響尤為顯著。在大豆中,開花期明顯受環(huán)境條件影響。多環(huán)境試驗在育種中的整體作用凸顯了環(huán)境因素納入基因組預(yù)測模型的必要性。研究表明,考慮環(huán)境與遺傳互作關(guān)系的模型可以顯著提高預(yù)測能力。這些環(huán)境因素多種多樣,可分為兩類:容易觀察的因素,包括作物生長地點、溫度、光照和濕度,以及更難測量的因素,包括植物細(xì)胞內(nèi)環(huán)境。

      這種方法的困難在于考慮多方面的環(huán)境影響及其與遺傳因素的交集。然而,深度學(xué)習(xí)在各個領(lǐng)域的成功應(yīng)用表明了通過整合環(huán)境因素來改進(jìn)基因組預(yù)測模型的有希望的方法。我們以前的基因組預(yù)測模型主要側(cè)重于遺傳數(shù)據(jù),已經(jīng)證明了深度學(xué)習(xí)技術(shù)的有效性。在此基礎(chǔ)上,我們建議通過添加環(huán)境因素來增強這些模型,以實現(xiàn)更全面和現(xiàn)實的方法。例如,增強模型可以由兩個子模塊組成:一個用于基因,另一個用于環(huán)境因素。基因子模型將遵循 SoyDNGP 模型的預(yù)處理結(jié)構(gòu),而環(huán)境子模型將設(shè)計為處理 N 維環(huán)境特征矩陣,與基因模型輸入的維度一致(圖 3)。遺傳和環(huán)境這兩組特征可以使用包括點乘法或直接加法在內(nèi)的方法進(jìn)行整合(圖3)。這種融合的特征圖將被整合到基因-環(huán)境相互作用模型中進(jìn)行訓(xùn)練,最終產(chǎn)生更準(zhǔn)確的表型預(yù)測。這種方法旨在利用深度學(xué)習(xí)的優(yōu)勢來獲得作物育種中遺傳學(xué)和環(huán)境之間的復(fù)雜相互作用。

      圖3. 構(gòu)建結(jié)合基因型和環(huán)境特征的基因組預(yù)測模型。該圖顯示了整合基因型(G)和環(huán)境因素(E)的基因組預(yù)測模型架構(gòu)。為了預(yù)測作物對環(huán)境影響的表型,該模型包括三個部分:基因模型、環(huán)境模型和基因與環(huán)境交互模型?;蚰P筒捎妙愃朴?SoyDNGP 的預(yù)處理結(jié)構(gòu),而環(huán)境模型使用一個維度與基因模型輸入相匹配的矩陣,以適應(yīng)N維環(huán)境特征(N為環(huán)境特征維度數(shù))。這些輸入特征通過深度學(xué)習(xí)模型進(jìn)行調(diào)整,以使基因模型的功能映射保持一致。然后,來自兩個模型的特征被合并(通過點積或直接相加),并納入基因與環(huán)境交互模型中進(jìn)行訓(xùn)練。該模型的最終輸出是對給定環(huán)境條件下作物表型的預(yù)測。

      結(jié)論

      作物育種中的人工智能代表了一種變革性的轉(zhuǎn)變,并伴隨著重大影響。它有望加快育種周期,提高選擇精度,并充分處理復(fù)雜的基因組數(shù)據(jù)。包括SoyDNGP在內(nèi)的人工智能模型體現(xiàn)了這些優(yōu)勢,可能快速跟蹤作物育種過程。然而,由于我們提出的育種親本選擇、多性狀/基因聚集效應(yīng)預(yù)測以及環(huán)境因素整合的方法,深度學(xué)習(xí)模型的解釋需要可行性,它們也需要跨學(xué)科研究小組的進(jìn)一步驗證和開發(fā)。隨著我們完善這些技術(shù),人工智能育種者可以從預(yù)測工具演變成一個能夠在整個育種過程中做出明智決策的自主系統(tǒng)。這種演變將徹底改變育種決策的方式,并可能為全球糧食安全和可持續(xù)農(nóng)業(yè)做出重大貢獻(xiàn)。

 
 
 
[ 打印本文 ]  [ 關(guān)閉窗口 ]  [ 返回頂部 ]
 
 
0相關(guān)評論
 
 
 
 
推薦圖文
推薦資訊
點擊排行
 
 
網(wǎng)站首頁 | 關(guān)于我們 | 版權(quán)隱私 | 使用協(xié)議 | 聯(lián)系方式 | 廣告服務(wù) 友情鏈接 | 申請鏈接 | 網(wǎng)站留言