第16卷 第5期2019年  5月
中国发明与专利China Invention & Patent
V ol.16 No.5May  2019
浅谈SNP类专利申请在NCBI、UCSC、
ENSEMBL数据库检索 
代月函  吕小蒙
(国家知识产权局专利局专利审查协作北京中心,北京 100160)
摘 要:SNP 作为分子标记,在生物等众多领域有着重要的研究和推广价值。因此,保护主题涉及SNP 的发明专利申请量逐年上升,无论是对于专利审查员还是申请人,如何进行有效的SNP 检索都是亟待解决的问题。本文简介了SNP 的定义及特点,同时概述了SNP 检索常用数据库,最后以具体案例介绍了SNP 在NCBI 、UCSC 、ENSEMBL 数据库的检索,以期为相关生物领域SNP 专利审查工作和专利申请人提供借鉴。
关键词:单核苷酸多态性 专利 数据库 检索中图分类号: G306
文献标识码:A
0 序言
在生物领域的众多分子标记中,SNP(single nucleotide polymorphism ,单核苷酸多态性)标记是当前遗传标记中研究最多,也是最有前景的分子标记,因其在基因组中数量多、分布广且在基因分析过程中不需要根据片段大小将DNA 分带,即可实现大规模高自动化,因而更适合于数量庞大的检测分析,已被广泛应用于生物、农学、医学、生物进化等众多领域[1]。鉴于SNP 标记研究发展迅速,并伴随巨大的经济利益,近年来在向国家知识产权局专利局所提交的涉及SNP 类的发明专利申请也呈现逐年稳步增长的趋势,以往数据显示其年申请量基本稳定在年均500件[2],2018年的数据显示其申请量达到1000余件,因而总结如何进行有效的SNP 检索,对相应的专利审查工作以及申请人均大有裨益,故笔者介绍了SNP 分子标记的定义及特点,同时简要概述了SNP 检索常用数据库,最
后以具体案例介绍了SNP 检索,以期为相关生物领域SNP 审查工作和专利申请提供借鉴。1 SNP 的定义及特点
单核苷酸多态性(single nucleotide polymorphisms ,SNP)主要是指由于单个核苷酸的变异而引起基因组水平上的DNA 序列多态性,形式包括单碱基的缺失、插入、转换及颠换等[1]。SNP 示例如图1。
图1 SNP 示例
作者简介:代月函(1983—),女,专利审查协作北京中心审查员,助理研究员,导师级审查员,主要从事生物领域专利实质审查、兼职复审以及PCT 国际检索;吕小蒙(1982—),女,专利审查协作北京中心审查员,助理研究员,主要从事生物领域专利实质审查、兼职复审。
PATENT EXAMINATION COOPERATION (BEIJING)
CENTER OF THE PATENT OFFICE, CNIPA
2019年第5期
SNP作为分子标记,在不同基因组之间、同一基因组不同染体之间及编码区与非编码区之间的SNP 分布频率有所不同。在人类基因组中,平均每1900个碱基对出现1个SNP[3];在其他哺乳类动物中SNP的频率为每500~1000个碱基出现1次[4] ;玉米1号染体中每104个碱基就出现1个SNP,其多态性程度比人类及果蝇要高得多[5]。
SNP可分为编码区SNP与非编码区SNP,编码蛋白质的SNP有同义SNP及非同义SNP之分。编码区的SNP有的可导致基因编码区氨基酸的变化,进而改变蛋白质序列及其功能。据估计,SNP数据库中3084条非同义SNP中,25%的SNP影响蛋白质的功能。有的SNP并不改变氨基酸的序列,它只是通过改变它们所编码蛋白质的结构来发挥作用。也有的SNP可产生不同的mRNA折叠方式,进而使mRNA
合成、成熟、运输、翻译或降解过程中相互作用的细胞组分发生变化,最终导致生物功能的变化。非编码区的SNP有的与调节基因的作用有关,有的则无。大多数SNP对蛋白质无直接的影响,因绝大多数的SNP位于非编码区,故表现同义或沉默[6]。
2 SNP检索常用数据库简介
在生物领域,基因组研究有三大主要的数据库NCBI、UCSC Genome Browser、ENSEMBL。1998年9月,美国国家生物技术情报中心(National Center for Biotechnology Information NCBI)与美国国立人类基因组研究所(National Human Genome Research Institute)合作,在原有的人类基因组数据库的基础上,增设了SNP数据库,取名dbSNP(the database of SNP)[7]。dbSNP数据库包括SNPs,小范围的插入/缺失,多态重复单元和微卫星变异。dbSNP还包含种族特异的频率和基因型数据,实验条件,分子上下文,及中性多态和临床变异的定位信息。它接收来自任何物种或者一个基因组的变异的提交。NCBI的dbSNP数据库是启动最早,收集数据最多的涉及SNP的公共数据库,尽管它存在相当多的局限和问题,但仍然是在学术界最有影响的SNP数据资源之一。该数据库的数据一般都有两个身份标识(ID):ss编号和rs编号,前者是为所有研究者提交的SNP都生成的编号,称为NCBI分析编号(NCBI Assay ID),而后者是在对所有已有数据比较后,为独特SNP生成的编号,称为参考SNP编号(reference SNP ID)。
UCSC Genome Browser(以下简称UCSC)数据库是由University of California Santa Cruz (UCSC)(美国加州大学圣克鲁兹分校)创立和维护的,该数据库包含有人类、小鼠和大鼠等多个物种的基因组草图,并提供一系列的网页分析工具。用户可以通过它可靠和迅速地浏览基因组的任何一部分,并且同时可以得到与该部分有关的基因组注释信息,包括基因变异信息如SNP等。UCSC数据库提供基于引物的SNP检索。
ENSEMBL基因组数据库是欧洲生物信息研究所和Wellcome Trust Sanger(英国维康基金桑格)研究所之间的一个联合科学项目,该项目于1999年启动,以应对即将完成的人类基因组计划。ENSEMBL 数据库网站开始于真核生物基因组注释项目,其侧重于脊椎动物的基因组数据,但也包含了其他生物,如线虫,酵母,拟南芥和水稻等。随着时间推移,越来越多的基因组数据已经被添加到了ENSEMBL,同时ENSEMBL可用数据的范围也扩展到了比较基因组学、变异包括SNP等。
3  SNP检索在数据库中的检索
在生物领域专利申请中,SNP类申请的检索有其特殊性,在常规的非专利资源如百度、谷歌等进行关键词检索一般并不能获得有效的检索结果,而除了在生物领域序列数据库所提供的BLAST、WU-BLAST 以及FASTA 和EV A 等程序进行常规的序列检索外,还应在专门的SNP 数据库中进行针对性检索。以下结合具有代表性的实际案例介绍SNP类专利申请在NCBI、UCSC、ENSEMBL数据库的检索。
3.1NCBI的dbSNP数据库检索
案例1:权利要求1要求保护一种RanBP9突变基因,其特征在于RanBP9基因第133位点的C核苷酸突变成了T核苷酸即发生了c.133C>T突变,其核苷酸序列如SEQ ID NO:2所示。
检索过程:案例1是一个典型的要求保护SNP产品本身的权利要求。首先在NCBI数据库检索SEQ ID NO:2,没有检索到序列本身,检索到最接近的序列为“Homo sapiens RAN binding protein 9 (RANBP9)(人RAN结合蛋白9), mRNA”,NCBI Reference Sequence: NM_005493.2,其为未突变的人RanBP9基因,与本申请SEQ ID NO:2的差别就在于其第133位
代月函,等:浅谈SNP类专利申请在NCBI、UCSC、ENSEMBL数据库的检索
2019年第5期
是没有突变的C。在该序列的界面存在如图2所示的相关信息:
国家知识产权局专利审查协作中心
图2 NCBI中人RanBP9基因的相关信息
选择其中的“SNP”相关信息,点开之后结果如图3:
图3 人RanBP9基因的SNP信息
选择其中的任意一个RS号点击进入dbSNP数据库,获得该SNP的具体信息,下拉界面至该SNP所在的染体信息部分,两条碱基链的黑部分显示基因所在整条染体的信息,如图4:
图4 人RanBP9基因SNP所在的染体信息
选择序列中包括本申请突变位点的序列或其旁序列,输入Find框中,例如输入“cgccggcggccttg”(即本申请SEQ ID NO:2的第127-140位,包含第133位,其是未突变的c),查看弹出框的Sequence栏,可以查知输入序列在整个染体序列上的位置,记下起始位点,到最右边的Tools,点击,选择其中的go to,或者直接点击序列定位到染体上,具体过程如图5。
图5 在染体上查本申请SNP的序列位置
随着生物信息学的快速发展,不同的数据库将得到更广泛的应用。水稻然而定位到染体上发现,染体正向的5’到3’的序列与输入序列并不相同,而是其反向互补序列与输入的“cgccggcggccttg”相同。通过染体黑体字上面的+ -滑动条可以放大序列,相关的对应的RS号会出现在下面(红杠),寻本申请的SNP位点,然而并没有显示本申请C/T 的rs序列。此时,根据如上反向互补序列相同的启示,寻反向互补的A/G的rs序列,根据图6定位到rs1385787764。
图6 定位rs1385787764的SNP
点击打开rs1385787764的具体信息如图7,虽然
代月函,等:浅谈SNP类专利申请在NCBI、UCSC、ENSEMBL数据库的检索
2019年第5期
其上记载的SNP位点为A/G,然而下拉的GeneView 选项公开了rs1385787764位点位于Accession No: NM_005493.2序列的第133位,发生突变为GCG=>GTG,即案例1中权利要求1要求保护的第133位的C/T突变。
图7 SNP(rs1385787764)信息
案例1检索的关键点在于,在NCBI的dbSNP数据库中,并非如检索与权利要求记载一致的突变位点,而是先检索获得与其反向互补的SNP突变位点,进而根据其记载的具体信息获得案例1要求保护的SNP。这对于SNP 在其他数据库的检索也提供了启示,如在百度、谷歌等搜索引擎中进行关键词等检索时,不能忽视反向互补SNP突变位点的检索,否则很可能会漏检。
3.2UCSC数据库检索
案例2:权利要求1要求保护一种SNP分子标记在乌骨鸡肤性状检测中的应用,其特征在于,所述SNP分子标记的核苷酸序列如SEQ ID No.1所示,第171 bp处碱基突变类型为A/G。
检索过程:本文对案例2的检索针对的是SNP本身,并非用途。首先,通过案例1介绍的SNP检索方法,将SEQ ID No.1在NCBI进行blast,检索到基因GNAS,然而该基因并没有SNP的相关信息。然后,追踪案例2的发明人,以及以上述步骤获得的“GNAS”基因为关键词,获得申请日后发表的T类文献(“鸡GNAS基因启动子突变及其与肤性状的相关性”,王欢欢等,《畜牧兽医学报》,第47卷第12期,第2354-2361页,公开日期2016–12–31),该文献记载:经探查和筛选,得到位于-2 270 bp处的突变位点(染体上碱基位置11 167 660,rs号314048279)。该rs 314048279即为本申请涉及的SNP,然而在NCBI的dbSNP数据库没有该rs 314048279的检索结果。如上所述,dbSNP数据库目前存在非人源基因的rs序列收录不全等问题,因此无法获取相关的SNP信息。
笔者考虑从UCSC数据库入手进行检索,该数据库是基于引物进行SNP的检索。进入UCSC Genome Browser数据库网站,选择“Tools”的“In-Silico”,输入乌骨鸡涉及的“chicken”基因组以及案例2说明书中记载扩增SNP的上下游引物,点击搜索,获得案例2中的SNP分子标记,即342bp的SEQ ID No.1。检索及结果如下图8:
图8 UCSC检索案例2的SNP及结果
进一步点击该结果,获得该段基因在鸡染体上的相关信息,在其最下方有SNP信息,其中包括本申请涉及的rs314048279,点击rs314048279,具体如图9所示。
图9 UCSC数据库中SNP分子标记rs314048279
代月函,等:浅谈SNP类专利申请在NCBI、UCSC、ENSEMBL数据库的检索
2019年第5期
在UCSC数据库中获得案例2涉及SNP的对比文件(“dbSNP:rs314048279”,《UCSC Genome Browser》,公开日期2014年1月24日),其公开了核苷酸序列如SEQ ID NO:1所示的SNP分子标记,第171bp处碱基突变类型为A/G。
3.3 ENSEMBL数据库检索
如上所述,案例2通过追踪检索已获得SNP分子标记rs314048279,因此在ENSEMBL数据库直接检索rs314048279,如图10所示。
图10 ENSEMBL检索rs314048279
点击该结果,图11显示出rs314048279的具体信息,包括表型数据(Phenotype data)、引文(Citations)等内容。
图11 ENSEMBL数据库中SNP分子标记rs314048279
但是,对于ENSEMBL数据库中收录的SNP,笔者没有查询到的明确的公开日期,因此也无法作为案例2现有技术的证据。然而,根据该数据库公开的相关信息可以为后续检索提供新的思路或方向,比如根据其引文内容继续追踪检索等。
4总结
除了上文介绍的检索SNP的数据库以外,伴随着生物信息学的蓬勃发展,很多物种的全基因组测序业已完成,生物领域还有人类[8][9]、水稻[10]等不同物种专门的SNP数据库可提供更有针对性的检索。本文通过检索SNP专利申请的实际案例,介绍了在NCBI、UCSC、ENSEMBL基因组数据库中如何检索SNP,并比较了上述三种数据库的不同以及特点。本文检索应用的数据库均为免费的网络在线资源,所提供的SNP 检索方法便捷、快速、易于操作且低成本,可为相关领域审查员在检索专利申请案件时提供有效的检索帮助。在另一方面,对于申请人而言,为避免将现有技术中已知的SNP提出专利申请,最后导致案件被驳回无法获得专利权,可在申请SNP类专利之前,根据笔者提供的上述检索方法进行初步的分析,排除现有技术的SNP,或者根据检索结果相应地改变申请方向。可见,本文的SNP检索方法可为生物领域专利审查员以及申请人提供一定的帮助和借鉴。
参考文献:
[1] 唐立,等.SNP分子标记的研究及其应用进展[J].
中国农学通报,2012, 28(12): 154-158.
[2] 廖文勇,等.关于生物领域涉及SNP 类专利申请
的探讨,2014年中华全国专利代理人协会年会第
五届知识产权论坛论文(第三部分),2014, 1-6. [3] The International SNP Map Working Group. A map
of human genome sequence variation containing 1.42 million single nucleotide polymorphisms[J]. Nature, 2001, 409: 928-933.
[4] Chakravarti A. To a future of genetic medicine[J].
Science, 2001, 409: 822-823.
[5] O’Brien S J, Menotti-Raymond M, Murphy W
J, et al. The promise of comparative genomics in mammals[J]. Science, 1999, 458-463.
[6] 曾燕如,等.一种新的分子标记¬——单核苷酸多
代月函,等:浅谈SNP类专利申请在NCBI、UCSC、ENSEMBL数据库的检索