126一、引言
专利分析涉及专利检索。为了便
于专利检索,常规做法是,综合考虑不同数据库优缺点后,选择其中一个数据库进行检索,从而便于后期数据处理。然而,由于不同数据库的数据收录范围、字段设置、特功能不同,导致只选择一个数据库检索往往不能满足检索需求。例如,从数据收录的全面性来看,SIPOABS数据库>DWPI数据库>J-PLATPAT日本专利库。为了尽可能防止由于文件未收录导致的漏检,优选SIPOABS数据库。然而SIPOABS数据库本身不包含同族信息,且关键词使用不规范,为了尽可能防止由于关键词不规范导致的漏检以及方便获得同族信息,优选DWPI数据库。然而,DWPI收录的日本早期文献不全,为了尽可能防止漏检日本文献,优选使用J-PLATPAT日本专利库,但J-PLATPAT日本专利库只包含日本文献。鉴于上述问题,考虑在专利分析中使用不同数据库分别进行检索,之后合并各检索结果。采用这种方式遇到的问题主要有两个:文献去重和同族合并。
二、文献去重
重复文献的来源主要有两个:一,在单个数据库中,各检索式的检索结果之间存在重复;二,在不同数据库之间,各数据库的检索结果之间存在重复。
对于第一种重复,可以直接在检索时执行各检索式之间的逻辑或命令,或者如果各检索式的检索结果已经分别导出,直接将各检索结果合并到一起,在EXCEL中执行删除重复项命令即可。需要明确的是,EXCEL删除重复项功能会保留首次出现的重复项,删除后续出现的重复项。对于第二种重复,首先,选择用于判定重复的字段。以下,称用于判定重复的字段为判定字段。虽然不同数据库具有不同字段,但某些字段各数据库通常都会具有,比如公开号、申请号等。选择这些字段中便于区分不同记录的字段为判定字段。例如,若需处理DWPI检索结果和J-PLATPAT检索结果的重复项,可以选择公开号字段作为判定字段。其次,统一判定字段格式。不同数据库对于同样字段通常会采用不同格式进行记录。比如DWPI的公开号
格式与J-PLATPAT的公开号格式不同。
为了能够通过对比两者的公开号判定重
复项,需要将两者的公开号转换为相同
的格式。目标格式的选择以利于专利分
析为要。比如,考虑到后续还需要合并
同族,因此,直接锚定具有同族信息
的DWPI或者INCOPAT,将所有其它数
据库的公开号格式转化为DWPI格式或
INCOPAT格式。最后,删除重复数据。
同样地,可以利用EXCEL的删除重复
项命令。以锚定DWPI数据库为例,将
DWPI数据库检索结果作为基础,其它各
检索结果合并到该结果,注意将这些结
果统一格式后的PN号与DWPI的PN号置
于同列,然后针对该列执行删除重复项
命令。
三、同族合并
合并同族前首先需要明确如何定义
同族。不同数据库对同族的定义不同,
如DWPI同族和INCOPAT扩展同族具有不
同含义。可以根据同族数据覆盖范围、
同族内不同专利之间的技术关联性等因
素挑选适于专利分析的同族类型。
如果文献去重时锚定的数据库恰
好具备该同族类型,且被锚定数据库的
判定字段包含全部同族信息,那么文献
去重的同时事实上也去除了锚定数据
库检索结果的同族文件。比如,分别从
SIPOABS、DWPI、J-PLATPAT检索并得
到各自检索结果,如果最终选择DWPI
同族,同时DWPI的PN字段包括全部的
DWPI同族信息,那么,锚定DWPI以PN
字段为判定字段进行文献去重的同时也
去除了SIPOABS和J-PLATPAT中与DWPI
检索结果属于同族文件,即完成了DWPI
检索结果范围内的同族合并。但是,对
于DWPI检索结果范围外的部分,也就是
SIPOABS检索结果和J-PLATPAT检索结
果文献去重后的保留部分,还需要进一
步合并同族。一种处理方式是,将上述
保留部分重新在DWPI数据库中进行检
索,若能被检索到,换句话说,DWPI的
数据涵盖了相关文献,则检索结果通过
PN字段就能得到DWPI同族信息,也就
能完成同族合并;若不能被检索到,换
句话说,DWPI的数据未涵盖相关文献,
则这部分文献的同族信息缺失。此时,
需要通过其它途径获得这部分文献的同
族信息。特别地,可以从结果中排除这
部分文献,或者如果影响不大,直接将
该部分文献按不具有同族文献处理即
可。
如果文献去重时锚定的数据库虽
然具备该同族类型,但被锚定数据库的
判定字段没有包含全部同族信息,那么
文献去重后需要将包括该锚定数据库
检索结果的全部结果进行同族合并。
比如,分别从SIPOABS、INCOPAT、
J-PLATPAT检索并得到各自检索结果,
如果最终选择INCOPAT扩展同族,但锚
定INCOPAT以公开(公告)号字段为判
定字段进行文献去重,由于该字段没有
包含全部INCOPAT扩展同族信息,因
此,文献去重后需要对全部去重结果进
行同族合并。类比之前的方法,直接将
全部PN号在INCOPAT重新检索获得同族
信息即可。但注意,由于INCOPAT单次
输入的PN号有数量限制,这样可能存在
数据量过大需要分批输入的情形,而不
同输入批次的结果之间可能依然存在合
并同族问题。为了克服或减轻该缺陷,
可以利用DWPI同族和INCOPAT扩展同族
虽然不同,但前者大致被后者包含的情
况,首先使用DWPI同族进行同族合并,
然后利用该合并结果进入INCOPAT获得
INCOPAT扩展同族。
四、总结
专利检索中,选择不同数据库分别
检索后合并各检索结果能够充分利用各
数据库特点,满足查全、查准的要求。
合并主要分为文献去重和同族合并。文
献去重分为单个数据库内部和不同数据
库之间的去重。合并同族时应该选择适
国家知识产权局专利审查协作中心
于专利分析的同族类型。
参考文献:
[1]杨铁军.专利分析实务手册[M].知识产权出版
社,2012.
[2]李斌,等.专利分析工具中同族专利合并处理方
法的研究[J].专利文献研究,2018年第5期.
作者简介:樊锦涛(1987—),男,汉,河南平顶
山人,硕士,知识产权师,从事专利审查工作。
专利分析中的文献去重和同族合并
樊锦涛  国家知识产权局专利局专利审查协作北京中心
【摘 要】专利分析中,在检索专利时使用不同数据库分别检索,之后将各检索结果合并有助于充分利用数据库特点。合并时,需要处理好文献去重和同族合并。
【关键词】专利;去重;同族;合并