下载此文档

昆虫的水平基因转移研究.docx


文档分类:医学/心理学 | 页数:约31页 举报非法文档有奖
1/31
下载提示
  • 1.该资料是网友上传的,本站提供全文预览,预览什么样,下载就什么样。
  • 2.下载该文档所得收入归上传者、原创者。
  • 3.下载的文档,不会出现我们的网址水印。
1/31 下载此文档
文档列表 文档介绍
该【昆虫的水平基因转移研究 】是由【科技星球】上传分享,文档一共【31】页,该文档可以免费在线阅读,需要了解更多关于【昆虫的水平基因转移研究 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。昆虫的水平基因转移研究??黄羽豪,龚森瑞,李浩森,庞虹(有害生物控制与资源利用国家重点实验室,中山大学生态学院/生命科学学院,广州510275)生物体的遗传物质大多数情况下是由亲代到子代垂直传递的。然而,生物体中有的基因可能是从其它个体或线粒体、叶绿体等不同细胞器的遗传物质中获得的,这种现象被称为水平基因转移(ransfer,HGT)或横向基因转移(ransfer,LGT),而这些不依赖亲缘关系获得的基因被称为水平转移基因(horizontallytransferredgenes,HTGs)。HGT可以发生在同种的不同生物个体或者单个细胞的不同细胞器之间,但由于检测手段的限制和基因功能的探讨意义等原因,物种间的HGT在研究中更为常见。早在20世纪50-60年代,研究者发现遗传物质可以在不同菌种之间传递,如从大肠杆菌Escherichiacoli传递至沙门氏杆菌Salmonella(MiyakeandDemerec,1959;Zinder,1960),这是人们首次认识到HGT现象在细菌进化上的重要性,并能够解释抗药性在菌群中的快速传播。后续的大量研究发现,HGT在原核生物中十分常见,其促进了新性状的快速传播,如抗生素耐药性、致病性和其它各种有利于适应周围环境的代谢特性,同时也有许多HGT不带功能或功能未明(al.,2000;PallenandWren,2007)。近年来,真核生物中的HGT也逐渐被发现,并被认为是普遍存在于单细胞真核生物(KeelingandPalmer,2008)、动物(Hotoppetal.,2007;Gladyshevetal.,2008;Hotopp,2011;Flotetal.,2013;Boto,2014;al.,2017;Sieberetal.,2017)、植物(Gaoetal.,2014;Wangetal.,2020)及真菌(Fitzpatrick,2012)等类群中。在昆虫(Nakabachi,2015;Wybouwetal.,2016;Zakharov,2016)以及近源的蜱螨(Chouetal.,2015;Wybouwetal.,2016;Hayesetal.,2020)、蜈蚣(UndheimandJenner,2021)和弹尾虫(Faddeeva-Vakhrushevaetal.,2016;Faddeeva-Vakhrushevaetal.,2017;Wuetal.,2017)等节肢动物中也有大量HGT的报道。随着对共生微生物研究的不断深入,人们对宿主生物、共生微生物以及它们之间的联系也有了全新的理解,生物体对环境的适应离不开共生微生物的作用,甚至有观点将宿主生物及其所有共生微生物作为一个整体的完全生物(holobionts),并将这个整体的所有基因集合作为完全基因组(hologenomes)看待(Haag,2018);而HGT在这个共生系统中也扮演了重要的角色,是宿主生物和共生微生物联系的纽带之一。同时,HGT也更新了人们对于进化的观点,生命之网似乎比生物之树更符合真实的进化历程(Soucyetal.,2015;Malletetal.,2016)。昆虫物种多样性高,与微生物关系密切,昆虫体内的HGT研究是近年的热点之一。本文将从HGT研究的常用流程和方法、昆虫HGT的供体、HGT的受体昆虫以及昆虫HGT的功能4个方面进行综述,并提出现阶段昆虫HGT研究的一些问题以及未来展望。1水平基因转移研究的常用流程和方法HGT研究主要分为三大环节:搜索、验证以及功能探究(图1)。搜索通常是基于序列同源性的组学数据的搜索;验证包含两个方面,分别是系统发育关系的验证和内含子、侧翼序列、信号肽、不同数据及表达情况等污染排除的方面;功能探究则包括序列信息分析、选择压力分析等生物信息学探究和表达谱、功能验证实验等实验方面的探究。图1后生动物水平基因转移研究的常用流程、、转录组、蛋白组和代谢组等组学研究中基因注释后的意外发现,也有专门对组学数据进行搜索得到的HGT。HGT的搜索主要是基于序列同源性的方法。许多研究会将NCBI的非冗余蛋白序列数据库(Non-RedundantProteinSequenceDatabase,NR)、Swiss-Prot或基因组等数据库分为后生动物Metazoa类群数据库和细菌、真菌、植物、病毒及其它非后生动物的真核生物等其它类群数据库,或者建立特定外群物种的子库。为避免自身的序列或近源物种的序列造成干扰,后生动物的数据库通常还会去除自身或近源物种的序列,然后进行BLAST(Camachoetal.,2009)搜索,再对后生动物数据库和其它数据库的结果进行手动的比较以及后续的验证。在针对基因蛋白序列时有时也会使用DIAMOND(Buchfinketal.,2015)进行搜索,而搜索基因组中的HGT片段有时会使用MUMmer(Marcaisetal.,2018)搜索。手动比较通常是基于比对结果中的bitscore值、E值、一致度和覆盖度等参数,判断与后生动物或其它类群的同源性大小,若与其它类群的基因比后生动物更近源,则认为是HGT。然而,手动比较存在一定的主观性,导致标准不统一的问题;另外,需要检测的基因或基因组片段数以万计,手动比较工作量较大。因此,水平基因转移的搜索需要更为系统性、流程化和标准化的方法。目前,较为常用的流程化方法有4种:HGT指数h、外源指数(alienindex,AI)、比对一致支持度(ConsensusHitSupport,CHS)和Wheeleretal.(2013)的检测方法(表1)。h指数(***ettietal.,2012)和外源指数(Gladyshevetal.,2008)分别是基于BLAST的bitscore值和E值计算的指标,h指数是非后生动物的物种序列数据库最佳比对的bitscore值减去后生动物库最佳比对bitscore值的差,当h≥30且bitscore≥100时认为该基因是HGT;外源指数则表现为两个最佳比对的E值的对数比较,当≥45时认为该基因为HGT。Wheeleretal.(2013)的检测方法同样是以BLAST的E值作为指标,仅以小于1e-5的E值的大小作为直接判断,若细菌数据库比对的E值比后生动物数据库的E值更小则作为HGT的候选。Wheeleretal.(2013)的方法较为简单,后面更是改良为滑动窗口的方式搜索基因组的HGT片段,被用于光肩星天牛Anoplophoraglabripennis(McKennaetal.,2016)、烟盲蝽Nesidiocoristenuis(al.,2020)、乳草长蝽Oncopeltusfasciatus(Panfilioetal.,2019)、identalis(Rotenbergetal.,2020)、温带臭虫Cimexlectularius(Benoitetal.,2016)、黑森瘿蚊Mayetioladestructor(Zhaoetal.,2015)、茶翅蝽Halyomorphahalys(Sparksetal.,2020)、厩螯蝇Stomoxyscalcitrans(al.,2021)和一种寄生茧蜂Diachasmaalloeum(Tvedteetal.,2019)等许多基因组的HGT搜索中。CHS方法(Koutsovoulosetal.,2016)则基于DIAMOND搜索提供的物种来源信息,每条跟数据库比对上的序列会对应相应的物种及其所属阶元,若90%以上的比对来源于细菌或其它非后生动物类群,则认为该基因可能是HGT的候选基因。表1后生动物HGT搜索环节常用的工具和方法基于外源指数开发的Alienness网络服务器()可以上传用户提供的NR数据库搜索结果,计算外源指数和h指数,并根据外源指数AI和对非目标类群的比对一致度的大小检测出3类蛋白序列:AI>15且一致度70%的疑似污染(Rancureletal.,2017)。而且,该网站还可以排除指定的近源类群,防止近源类群HGT的影响,并能够将HGT来源供体分为细菌、真菌、植物、病毒、古菌和不等鞭毛类Stramenopiles等默认类群以及指定的类群。另外,该网站还在不断完善本地化的AvP模块,该模块可以进行本地化的计算、系统发育分析和供体类群的分类,更准确的预测HGT基因,并可能在未来将AvP模块内置在网络服务器中。、更成熟的细菌HGT研究中,更多HGT搜索的方法被开发出来(表2)。表2HGT搜索方法的类型Table2TypesofsearchmethodsforHGT这些方法主要可以分为两类:基于序列组成的参数方法和基于系统发育的方法(Ravenhalletal.,2015)。基于序列组成的参数方法主要使用GC含量、密码子使用偏好、基因结构及寡核苷酸组成等参数判断序列的外源性。最近开发的DeepHGT软件正是基于序列特征,使用深度残差网络(work)训练并识别HGT插入位点,但目前仅适用于细菌的基因组(Lietal.,2020)。而Arevaloetal.(2019)开发的PopCOGenT方法则基于近期发生HGT的基因组之间比自然突变的基因组拥有更长相同区域的原理,使用长度分布模型估计出细菌基因组之间近期的HGT事件,并构建出细菌的HGT网络,将细菌分为不同功能的种群单元。基于序列组成的方法更有利于探索HGT机制的本质,但会受基因组内部的参数变化影响,且古老HGT由于长时间跟随基因组经历相同的进化而被逐步同化,易造成识别不准(Ravenhalletal.,2015)。系统发育的方法则包括隐式和显式两大类型(Ravenhalletal.,2015)。隐式的系统发育方法主要是各类非进化树的聚类或同源性分析手段,包括最常用的基于序列同源性的BLAST搜索、基因和物种距离、同源基因分析及多态位点聚类等方法;而显式系统发育方法则完全基于进化树,如使用Shimodaira-Hasegawa检验(ShimodairaandHasegawa,1999)对物种树和基因树的拓扑结构进行比较等。但大多数显式系统发育方法容易受基因复制丢失等其它进化事件和系统发育不确定性的影响,物种树和基因树协调的方法被尝试用来分离这些影响,用来分析物种在进化过程中的HGT、基因渐渗、基因复制和基因丢失等进化事件。这种方法在昆虫中也有零星的尝试,如Chauveetal.(2018)对按蚊属Anopheles基因组的分析。另外,显式系统发育方法操作较为繁琐,难以流程化(Ravenhalletal.,2015)。因此,研究中通常先使用同源性搜索寻找出候选的HGT,再将系统发育分析作为验证的一个环节。,古老的HGT由于序列组成趋同于受体的基因组,且数据库中存在近源物种的同源基因,难以通过统一流程化的方法准确搜索到,需要在搜索前对数据库进行一些近源物种的删减,或在Alienness网络服务器中排除对近源物种的考虑;也可以使用MEGAN(al.,2016)等软件可视化同源搜索比对到的序列物种分布,人为做出判断。同时,基于同源性搜索的方法可能会因为非后生动物类群中偶然出现的同源序列(如后生动物转移到非后生动物类群的HGT基因)而将检测的基因判断为HGT基因,或无法判断HGT的方向,公用数据库的物种序列缺失、物种序列污染以及序列信息错误等因素也会影响HGT的检测。另外,搜索和检测HGT的方法一般无法区分HGT和污染序列。而其它物种尤其是共生菌或肠道微生物的污染可能会体现在基因组的部分序列中;由于二代测序读长短,因此也容易发生拼接错误导致的污染片段(KuandMartin,2016)。一种水熊虫Hypsibiusdujardini的HGT曾被认为占全部基因总数的1/6,明显多于其它物种,而后续的研究却表明其HGT仅占1%~4%,引起了很大的争议,这种分歧可能就是由严重的细菌序列污染造成的(Boothbyetal.,2015;Arakawa,2016;Bemmetal.,2016;DelmontandEren,2016;Koutsovoulosetal.,2016;Yoshidaetal.,2017)。KuandMartin(2016)认为,真核蛋白与原核蛋白的一致度在70%以上时很可能是测序污染、组装或者注释等技术的问题,并提出了70%原则防止HGT的误判。因此,搜索出来的候选HGT还需要进行进一步的验证,防止污染序列的影响。此外,HGT搜索前的基因组组装、预测和注释阶段同样可能给HGT的检测带来影响,例如寄生蜂Leptopilinaheterotoma的Lar基因为处于另一基因RRP8的长内含子内的嵌套基因(nestedgene),昆虫基因组中也含有较多嵌套基因,然而,基因预测中常用的EVidenceModeler等软件默认情况下并不进行嵌套基因的预测(Haasetal.,2008;Huangetal.,2021),有可能造成HGT挖掘的不全面。对于现阶段的昆虫及其它后生动物研究,HGT的搜索还无法做到准确的认定HGT事件及排除污染,只能以灵敏度为主,确定候选HGT的范围,并交由系统发育分析进行进一步的验证与认定,以及使用多种手段排除污染的可能。:系统发育分析与排除污染为了验证HGT候选基因的进化历程和供体来源,进一步确认HGT事件,需要对候选基因及搜索到的同源基因进行系统发育构建,这在HGT研究中是定性的必要环节,但由于同源基因等序列资源配置较为繁琐,通常在流程化的同源性搜索确定候选范围后再进行。系统发育关系可以使用RAxML(Stamatakis,2014)或IQ-TREE(Minhetal.,2020)等软件构建得到。随后在构建出的进化树中观察基因的进化历程,若候选基因或候选基因集在进化树上被非近源物种的基因包围,则这些基因可能是HGT基因,那些相邻支系的物种可能是HGT的供体。除此之外,昆虫及其他后生动物的候选HGT还应排除可能为污染的情况。首先,需要验证候选基因周围的侧翼基因或片段序列属于真核生物,如利用基因组的注释信息BLAST搜索周围序列,还可以进一步采用PCR方法或者高通量数据中对应的原始序列验证基因的连接处。另外,不同个体、种群与物种的数据可以使用BLAST相互印证,排除某个数据的污染,也可以用PCR直接验证准备好的生物样品,这一过程可以说明该基因在该物种或该类群的共同祖先出现前就已经发生了HGT事件。真核基因的特征也可以用来辅助验证,比较常用的特征包括内含子、信号肽、polyA位点和GC含量等。部分真核基因中含有内含子,研究表明内含子能够增加基因的表达(LeHiretal.,2003),因此可以证明含有内含子的基因来自真核生物,检测HGT候选基因中是否存在内含子,也是对基因结构的描述,这一步可以通过基因组的注释信息或PCR进行验证。真核生物分泌系统的信号肽与原核生物不同,用SignalP(Armenterosetal.,2019)等软件进行真核信号肽的预测,若HGT候选基因含有信号肽,则可以证明该基因为真核基因,并且为分泌蛋白。可以使用转录组或qRT-PCR等方法验证该基因是否表达,同时得到该基因的表达谱。如果表达,不但能较大程度排除污染的可能性,还可以说明该基因在生物体中发挥了作用,通过表达谱也能推测该基因的作用。此外,转录本中的polyA位点也可以进一步说明该基因为真核基因。:生物信息学与实验HGT的功能探究通常可以分为生物信息学和实验两方面的探究。生物信息学分析包括了信号肽、结构域、同源性注释、催化位点及蛋白结构等序列信息的分析,除此之外,选择压力分析也是常见的分析之一。基因在进化过程中经历正选择或负选择说明该基因在进化过程中发挥了重要的作用,选择压力可以使用HyPhy(Pondetal.,2020)或PAML程序包的CODEML程序(Yang,2007)进行检测。实验方面,主要包括表达谱和功能验证实验。通过转录组或qRT-PCR等手段获取基因在各部位或各发育阶段的时空表达谱以及不同实验处理的表达谱,不同情况下某一基因的表达上下调情况有利于间接推测该基因的作用。在表达谱和序列信息分析的基础上,可以提出对基因功能的合理假设,设计实验验证基因的功能,常用的实验手段包括RNA干扰、体外表达与底物实验等。2昆虫水平基因转移的供体HGT的供体是指提供基因的物种,即HGT基因的来源。HGT的供体通常是通过构建基因的进化树推断的,但由于数据库的物种缺失、系统发育推断的不确定性以及古老物种和现存物种的差异等,推测得出的HGT供体很可能并不是客观的供体。Crispetal.(2015)通过HGT指数h的方法搜索了果蝇属Drosophila的基因组,结果表明HGT主要来自细菌(%)和原生动物(%),也有来自植物(%)、真菌(%)和古菌(%)的HGT。然而,从现有研究来看,昆虫HGT

昆虫的水平基因转移研究 来自淘豆网www.taodocs.com转载请标明出处.

相关文档 更多>>
非法内容举报中心
文档信息
  • 页数31
  • 收藏数0 收藏
  • 顶次数0
  • 上传人科技星球
  • 文件大小50 KB
  • 时间2024-04-23