咨询热线:400-065-6886   天昊基因

中文 / English

主页 > 技术支持 > 科研进展 >

Nature Genetics 4月精选文章


(一)
 
Causal relationships among the gut microbiome, short-chain fatty acids and metabolic diseases
肠道微生物组,短链脂肪酸和代谢疾病之间的因果关系 
    基于大型群体的微生物组关联研究强调了肠道微生物组与复杂性状之间的关联性,对于二型糖尿病(T2D)和肥胖,已经针对这种关联性开展了很多研究。然而,其因果关系仍然没有得到解决。本研究中,我们收集了952名正常血糖个体的全基因组基因分型数据,肠道宏基因组测序信息和粪便短链脂肪酸(SCFA)水平数据,然后将这些信息与17种代谢和人体测量学特征的全基因组关联汇总统计数据相结合。采用双向孟德尔随机化(MR)分析来评估这些数据之间的因果关系,我们发现宿主遗传信息驱动的SCFA丁酸盐肠道产生增加与口服葡萄糖耐量试验后胰岛素反应的改善相关(P = 9.8×10-5),而另一种SCFA,丙酸盐的产生或吸收异常与T2D风险增加有因果关系(P = 0.004)。这些数据提供了肠道微生物组对代谢特征的因果影响的证据,并提示MR是从微生物组范围的关联研究中阐明因果关系的有效工具。
 
(二)
 
Retinal transcriptome and eQTL analyses identify genes associated with age-related macular degeneration
视网膜转录组和eQTL分析鉴定与年龄相关的黄斑变性相关的基因 
全基因组关联研究(GWAS)已经确定34个位点的遗传变异导致年龄相关性黄斑变性(AMD)。我们获得453例不同阶段AMD对照和病例死亡后视网膜样本的转录组数据,涵盖13,662个蛋白质编码基因和1,462个非编码基因,联合超过900万个常见SNP的基因型数据用于表达数量性状基因座(eQTL)分析。目前基因型-组织表达(GTEx)数据库和其他大型数据集中都不包括视网膜eQTL数据。 Cis-eQTL分析鉴定了处于遗传调控的10,474个基因,包括仅在视网膜中检测到的4,541个eQTL。 AMD-GWAS与eQTL的综合分析确定了六个已报告位点的靶基因。使用转录组范围关联分析(TWAS),我们在Bonferroni校正后鉴定了另外三个基因,RLBP1,HIC1和PARP12。我们的研究扩展了AMD的遗传景观,并建立了眼基因型表达(EyeGEx)数据库,可以作为眼部特征研究的GWAS阶段后续资源。
 
(三)
 
Transposable elements drive widespread expression of oncogenes in human cancers
转座因子驱动人类癌症中癌基因的广泛表达 

    转座因子(TEs)在基因组中大量存在,是一种数量丰富的调控序列遗传资源。 在癌症发生发展过程中,TE中的隐蔽状态调节元件可以通过表观遗传模式在癌症中重新激活,从而影响肿瘤发生,这个过程被称为onco-exaptation。然而,在不同的癌症类型中TE onco-exaptation事件的发生率和影响尚不清楚。在本研究中,我们分析了来自15种癌症类型的7,769个肿瘤和625个正常样本数据集,确定了129个TE 启动子激活事件,涉及3,864个肿瘤的106个癌基因。此外,我们还对AluJb-LIN28B候选基因进行了深入研究:AluJb这个转座因子的遗传缺失可以抑制癌基因表达,而动态DNA甲基化调节了启动子活性,说明TE对癌基因激活的必要性和充分性。总的来说,我们的结果提示在多种癌症中均存在TE的onco-exaptation现象,并且这个现象是致癌基因激活和最终肿瘤发生的重要机制。
 
(四)
 
A genome-wide algal mutant library and functional screen identifies genes required for eukaryotic photosynthesis
利用全基因组藻类突变体库和功能筛选鉴定真核生物光合作用所需的基因
    光合生物为地球上几乎所有的生命提供食物和能量,然而它们尚有一半的蛋白质编码基因没有得到解析。单细胞生物的新遗传资源可以大大加速这些基因的鉴定。在本研究中,我们为单细胞藻类莱茵衣藻建立了全基因组索引的作图插入突变体库。该文库中的62,389个突变体,覆盖了83%的核蛋白编码基因,可供人们使用。每个突变体都含有独特的脱氧核糖核酸条形码,使得收集的样本可以作为一个池进行筛选。我们对光合作用所需的基因进行了全基因组分析,确定了303个候选基因。其中一个基因,经预测很保守的磷酸酶编码基因CPL3,它对多种光合蛋白复合物的积累很重要。值得注意的是,43个高置信度基因中有21个是新的,为理解这一生物地球化学基本过程提供了新的机会。该突变库将加速藻类、植物和动物中数千个基因的表征。
 
(五)
 
Multi-ancestry genome-wide gene–smoking interaction study of 387,272 individuals identifies new loci associated with serum lipids
基于387,272个个体的多民族全基因组基因-吸烟相互作用研究鉴定了与血清脂质相关的新基因座

    高密度脂蛋白胆固醇,低密度脂蛋白胆固醇和甘油三酯的浓度受到吸烟的影响,但尚不清楚吸烟是否改变脂质的遗传相关性。我们基于133,805名个体进行了多民族全基因组遗传信息-吸烟相互作用研究,并对另外253,467人进行了随访。综合荟萃分析确定了13个与脂质相关的新基因座,其中一些位点的出现仅仅是因为吸烟状况的相关性不同。此外,我们证明了研究设计中包括不同人群的重要性,特别是在遗传与生活方式因素相互作用的研究中,不同人群基因组和生活方式的差异可能有助于获得新的发现。
 
 
(六)
 
Biallelic expansion of an intronic repeat in RFC1 is a common cause of late-onset ataxia
RFC1基因内含子中双等位重复序列扩展是迟发性共济失调的常见致病原因 
    迟发性共济失调是常见疾病,通常是特发性的,可由小脑,本体感受或前庭功能障碍引起,若三者功能均受损害,该疾病则称为伴神经病变和前庭反射消失的小脑性共济失调综合征(CANVAS。我们使用非参数连锁分析和基因组测序,确定了复制因子C亚基1(RFC1)基因中的双等位基因内含子AAGGG重复扩增,是家族性CANVAS的致病原因并且是迟发性共济失调的常见致病原因,特别是集中于感觉神经元病和双侧前庭无反射并存的患者。扩增发生在AluSx3元件的poly(A)尾部,其大小和核苷酸序列与参考基因组的(AAAAG)等位基因不同。该扩增不影响患者外周和脑组织中的RFC1表达,表明没有造成明显的蛋白功能损伤。以上数据以及欧洲人群RFC1双等位基因AAGGG扩增频率为0.7%,提示RFC1中的双等位基因AAGGG扩增是迟发性共济失调的常见原因。
 
 
(七)
 
Gene expression imputation across multiple brain regions provides insights into schizophrenia risk
基于多个大脑区域的基因表达填补分析提供了对精神分裂症风险的新见解 
    转录组学填补方法将eQTL参考数据集与大规模基因型数据相结合,以测试疾病与基因表达之间的关联性。这些基因关联可以阐明复杂的全基因组关联研究(GWAS)基因座中的信号,并可能提示不同组织在疾病发展中的作用。本研究中,我们基于背外侧前额叶皮层(DLPFC)组织的最大规模eQTL参考数据集创建了一组基因表达预测因子,并证明其实用性。我们将DLPFC和12个GTEx脑预测因子应用于40,299个精神分裂症病例和65,264个匹配对照的大型转录组填补研究。我们确定了13个大脑区域的413个基因组关联。逐步条件回归最终鉴定了67个非MHC基因,其中14个不属于先前的GWAS基因座。我们鉴定了36种显著富集的途径,包括己糖胺酶-A缺乏症和多种卟啉病障碍途径。后续,我们研究了67个非MHC基因的发育表达模式,并鉴定了这些基因的出生前和出生后表达情况。
 
(八)
 
Probabilistic fine-mapping of transcriptome-wide association studies
跨转录组关联研究的概率精细定位
    通过使用预测表达的转录组范围的关联研究人们已经鉴定了数以千计的基因,这些基因的局部调节表达与复杂的性状和疾病有关。在这项工作中,我们表明连锁不平衡在非因果基因上诱导显著的基因-性状关联,作为表达预测中使用的表达数量性状基因座权重的函数。我们引入了一个概率框架,该框架模拟跨转录组关联研究信号之间的相关性,为风险区域中的每个基因分配一个概率来解释观察到的关联信号。重要的是,当因果基因的表达数据在因果组织中不可用时,我们的方法通过利用来自其他组织的表达预测保持准确。我们的方法产生了含有标称置信度(例如,90%)的因果基因的可信基因集,这些基因集可用于功能分析的基因优先排序。我们通过对脂质性状的综合分析来说明,我们的方法优先考虑具有强有力因果关系证据的基因。
 
 
(九)
 
Interrogation of human hematopoiesis at single-cell and single-variant resolution
以单细胞和单变量分辨率对人类造血表型进行研究
    广泛的连锁不平衡和细胞间状态变异的不完全注释是阐明性状相关遗传变异机制的重大挑战。在这里,我们对英国生物银行的血细胞性状进行基因精细定位,以识别可能的因果变异。这些变异体富含特征相关生物途径中编码蛋白质的基因和造血祖细胞可及的染色质。对于调节变异,我们探索发育增强子活性的模式,预测分子机制,并识别可能的靶基因。在一些情况下,我们将多个独立的变异体定位在同一调控元件或基因上。我们进一步观察到,具有多效性效应的变异体优先作用于普通祖细胞群体,以指导不同谱系的产生。最后,我们利用精细作图的变异体结合连续表观基因组注释来识别密切相关群体和单细胞中的性状-细胞类型富集。我们的研究为遗传关联的单变异和单细胞分析提供了一个全面的框架。
 
(十)
 
Chromosome segregation errors generate a diverse spectrum of simple and complex genomic rearrangements
染色体分离错误产生多种简单和复杂的基因组重排
    癌症基因组的典型特征是存在染色体数量和结构异常。在本研究中,我们开发了被称为CEN-SELECT的一种着丝粒特异性灭活方法,用以选择条件必需基因,从而可以系统地查询错误分离染色体的结构景观。研究结果表明,若只有单个染色体错误分离进入微核,后续可以直接触发广泛的基因组重排类型。细胞遗传学分析表明,错误分离染色体的七大类结构畸变的易感性高出正常分离染色体120倍,包括易位,插入,缺失和通过与经典的非同源末端连接相结合的铬合成的复杂重组。克隆繁殖重排的全基因组测序鉴定了引发拷贝数改变的聚类断裂点的随机模式,导致散布的基因缺失和染色体外DNA扩增事件。本研究得出结论,有丝分裂细胞分裂过程中的个体染色体分离错误足以驱动广泛的结构变异,从而重现与人类疾病相关的基因组特征。
 
(十一)
 
Gossypium barbadense and Gossypium hirsutum genomes provide insights into the origin and evolution of allotetraploid cotton
海岛棉和陆地棉基因组为异源四倍体棉花的起源和进化提供了见解 
    异源四倍体棉花是世界上一种经济上重要的天然纤维生产作物。多倍体化后,陆地棉进化出比生产优质纤维的海岛棉更高的纤维产量,更好地在恶劣环境中生存。这些种间差异的遗传和分子基础尚不清楚。在这里,我们报道了这两个培养的异源四倍体物种的高质量从头组装基因组,在富含重复脱氧核糖核酸的着丝粒区域有显著的改善。全基因组比较分析表明,基因表达的物种特异性改变、结构变异和扩大的基因家族是这些物种物种形成和进化历史的原因。这些发现有助于阐明棉花基因组的进化及其驯化历史。产生的信息不仅能使育种者提高纤维质量和对不断变化的环境条件的适应能力,还能转化为其他作物,以便更好地了解它们的驯化历史和在改良中的应用。
 
 
(十二)
 
 
Linked-read analysis identifies mutations in single-cell DNA-sequencing data
Linked-read分析识别单细胞DNA测序数据中的突变
     单细胞的全基因组测序有可能重塑我们对正常和患病组织突变异质性的理解。然而,一个主要的困难是区分扩增产物和生物来源的体细胞突变。在这里,我们描述了Linked-read分析(LiRA),这是一种通过使用reads水平阶段和邻近种系杂合多态性来准确识别体细胞单核苷酸变异(sSNVs)的方法,从而能够表征突变特征和估计单细胞中体细胞突变率。



上海天昊生物科技有限公司 版权所有 沪ICP备17008908号
地址:上海市浦东新区康桥路787号9号楼 邮箱:techsupport@geneskies.com 电话:400-065-6886