咨询热线:400-065-6886   天昊基因

中文 / English

主页 > 技术支持 > 科研进展 >

迄今为止最全的多物种微卫星注释数据库MSDB发布


    去年十月,Nucleic Acids Research刊登了一篇SSRome数据库的文章,发布了一个整合了所有物种SSR在线数据资源的专业SSR数据库(“终于等到你!“SSRome”,所有物种SSR标记开发整合数据库发布)。今年十月,Nucleic Acids Research又带来一个最新的SSR数据库—MSDB,微卫星综合注释数据库,涉及的物种增加到了37262种,增加了近7倍,可谓SSRome的“加强版”!


 
 
发表时间:2019-10-10  影响因子:11.147

MSDB网址:https://data.ccmb.res.in/msdb/
 

 
 
网站首页节选

    微卫星数据库(MicroSatellite DataBase,MSDB)是简单序列重复序列的集合。微卫星是存在于所有基因组中的1-6个碱基基序的短串联重复序列。人们研究它们作为分子标记和法医学的用途,最近研究它们的基因调节功能。此外,许多研究指出它们在进化中的作用,因为它们在物种内和物种间的多态性比率很高。MSDB的目标是成为获取和可视化SSR相关信息的直接资源。
    MSDB来自37680个基因组的40亿多个微卫星的集合,呈现在一个用户友好的门户网站上,便于进行交互式分析和可视化。这是迄今为止访问和分析多物种微卫星数据的最全面、带注释、最新的数据库。MSDB的特性使用户能够以可过滤和导出的表格的形式浏览数据,也可以以交互式图表的形式同时查看和比较多个物种的数据。它的模块化和架构允许新数据的无缝更新,特别是在它们的进化和基因组组织和基因调控新作用的背景下,会使它成为研究微卫星的强大工具和有用资源,
 
 
表1、MSDB与现有微卫星数据库的比较,基于(A)可获得数据的物种数量,(B)数据库的特征和功能
 

MSDB搭建方法
    MSDB中所有基因组数据都是从NCBI的RefSeq和GenBank,以及UCSC中获得的。序列信息以FASTA格式下载,基因注释以GFF/GTF格式下载。如果相同装配水平的多个基因组可用,则选择最近发布的版本。除了序列之外,还记录了该物种的其他信息,如系统发育分类。
    在重复的识别方面,使用PERF鉴定来自基因组序列的微卫星。PERF根据基序序列的周期性变化,将5356个1-6nt长的DNA基序的可能排列分为501个独特的微卫星类别。所有基序最小长度截止值为12 nt。PERF的输出是一个TSV文件,它遵循BED格式规范来描述所识别的微型卫星的位置和其他信息。除了FASTA输入之外,还向PERF提供基因注释,根据这些注释确定每个微卫星的最近基因以及到最近TSS(转录起始位点)的距离。此外,微卫星被分为外显子、内含子或基因间重复。
    数据库设计方面,MSDB的后端由MySQL支持,使用基于Python的Django框架作为中间件进行查询和访问。重新设计的数据库由两个表组成;基因组表将所有关于可用基因组的信息存储在数据库中,所有微卫星信息存储在单个大重复表中。这提高了整个网络界面的速度和响应性,并最小化了服务器上的计算量。
    MSDB的Web界面方面,其前端是一个单页应用程序,它是使用虚拟环境接口和元素界面构建的。网站的整个状态存储在一个JavaScript对象中,该对象在网站的选项卡中有效。这可以确保网页记住用户选择和其他设置,直到网站重新加载。微卫星的基本信息是预先计算的,并存储在特定物种的JSON文件中。
  
数据库概述和功能
    MSDB是一个4330912429个长度≥12 nt的完整SSR的集合,来自37680个基因组,分属37 262种。MSDB的网络应用程序是为跨基因组交互式探索和分析SSR而设计的。主页提供了关于MSDB的一般信息,并提供了访问常用物种表格和微卫星数据的快速链接。如下所述,MSDB的其他功能可通过网站的各种选项卡访问。MSDB的主页将所选物种的微卫星信息总结为交互式表格和图表(图1)。默认情况下,该页面显示了Homo sapiens微卫星信息。
 

 
 
图1、浏览显示人类微卫星信息的MSDB网页

    物种选择:可以通过左侧的物种选择面板添加或更改物种(图1,左侧)。用户可以通过搜索栏按他们的学名或通用名搜索物种,也可以通过物种表过滤感兴趣的物种。
    模态视图:大多数在标题中有一个按钮(图1,红色箭头),用于切换MSDB的模态视图,这让用户可以用有用的方式自定义图。通过该模式,用户可以获得MSDB最独特的特征之一--微卫星数据的多物种特性比较。该模式还提供了基于物种基因组大小标准化数据的选项,以便于不同大小基因组之间的数据比较。 
    表格视图:点击“探索重复”按钮(图1,黑色箭头)打开一个新窗口,所选物种的微卫星数据显示为表格。页面顶部的过滤面板允许用户过滤显示的各种属性的数据,如基因组位置、微卫星基序(重复类)或长度、与特定基因的接近度、基因组上下文或与转录起始位点的距离。可以通过单击列标题对表进行排序,并可以使用“导出表”按钮将其导出为TSV文件。通过复选框选择感兴趣的重复序列,并点击表格上方的“获取序列”按钮,可以获得微卫星的侧翼序列。这将启动一个新窗口,显示所有选定微卫星的序列,默认侧翼大小为两侧100 bp。侧翼大小是可定制的,序列格式可以在表格格式和FASTA格式之间切换。 
    数据下载:MSDB提供了一个专门的下载页面来快速检索所需基因组的微卫星数据。下载页面以类似于浏览页面物种表的布局显示基因组列表。对于每个基因组,提供了三个链接--启动基因组的表格视图,将整个数据作为TSV文件下载,或者作为gzip压缩的TSV文件下载。 
    帮助页面:MSDB的帮助页面包含一个广泛的手册,帮助新用户理解网站的功能和布局。带注释的截图指导用户浏览网站。页面的各个部分详细描述了MSDB的每个图表,并提供了数据是如何获得或处理的信息。
 
关于天昊:
   天昊生物长期从事基因及遗传分析,可以提供包括SSR检测在内的多项基因检测服务。天昊生物自主研发的基于二代测序技术的SSR检测新方法--SSRseqTM,这种方法几乎克服了现存所有电泳检测方法的不足,尤其适合对多SSR位点、超高深度的分型,准确度高,并且分辨率达到单碱基的水平。因此适合所有二倍体人类、动植物、真核微生物,以及多倍体物种的SSR基因型分析。欢迎联系我们具体咨询!邮箱:techsupport@geneskies.com 电话:400-065-6886
 



上海天昊生物科技有限公司 版权所有 沪ICP备17008908号
地址:上海市浦东新区康桥路787号9号楼 邮箱:techsupport@geneskies.com 电话:400-065-6886