情报研发自然语言处理全球专利计量分析【中国科讯】
情报研发⾃然语⾔处理全球专利计量分析【中国科讯】
吕璐成,张博,王燕鹏,赵亚娟,钱⼒,厉曈曈
【摘要】⾃然语⾔处理是⼈⼯智能研究的重要⽅向,已经在各⾏各业⼴泛应⽤。该⽂⾯向揭⽰⾃然语⾔处理技术布局现状和竞争格局的⽬标,基于全球范围内2000年以来布局的⾃然语⾔处理专利数据,从整体技术和典型分⽀技术两个层⾯,从专利申请趋势、有效专利持有情况、近三年专利布局情况以及四⽅专利布局情况等⾓度,对⾃然语⾔处理技术的专利布局情况进⾏分析。研究发现:全球⾃然语⾔处理专利的主要布局国家是中国、美国、⽇本和韩国,其中中国的专利申请增长幅度最为显著,且保持持续增长态势;美国的⾃然语⾔处理有效专利持有量全球最⾼;美国和⽇本的机构四⽅专利申请优势明显。
【关键词】⾃然语⾔处理;专利分析;专利布局态势;⼈⼯智能安徽的特产
1
引⾔
⾃然语⾔处理(Natural Language Processing,常简称为NLP)是⼈⼯智能研究的重要⽅向,旨在构建能够理解和⽣成⾃然语⾔、实现⼈机⾃然交互的技术⽅案,实现⽤户能⽤⾃⼰的语⾔与计算机对话的⽬标。
第⼀阶段:20世纪50年代到70年代。⼀般认为1950年图灵提出的“图灵测试”是⾃然语⾔处理思想的开端。这个阶段⾃然语⾔处理主要采⽤基于规则的⽅法,即研究⼈员认为⾃然语⾔处理的过程和⼈类学习认知⼀门语⾔的过程是类似的,⼈类可以通过整理语⾔规则教会机器理解⾃然语⾔。但是,这种⽅法的缺点在于,⾸先⼈类不可能穷举所有语⾔规则,另外基于规则的⽅法要求开发者对于语⾔学具有⼀定的知识储备。因此这个阶段虽然能解决⼀些简单问题,但是⽆法从根本上将⾃然语⾔理解实⽤化。
第⼆阶段:20世纪70年代⾄2008年。随着互联⽹的迅猛发展,语料库不断丰富完善,基于统计的⽅法替代基于规则的⽅法成为⾃然语⾔处理⽅法的主流。在这个阶段,基于数学模型和统计⽅法的⾃然语⾔处理取得了实质性突破,开始逐步⾛向应⽤。
近年来,⾃然语⾔处理技术取得突飞猛进的发展,基于海量⽆标注数据和⼤量标注数据进⾏建模,使得机器翻译、⾃动问答和阅读理解等很多任务的⽔准都得到了极⼤的提⾼,并且在电⼦商务、⾦融、健康等领域实际应⽤。在此背景下,客观揭⽰⾃然语⾔处理技术的发展态势和创新格局、分析全球各国围绕⾃然语⾔处理的技术布局差异,对于开展⾃然语⾔处理技术研发、指引宏观决策具有现实意义。专利⽂献是技术创新成果的重要载体,能够有效反映技术研发的进展和趋势。因此,本⽂从专利分析⾓度出发对⾃然语⾔处理技术开展分析,以期较为客观地呈现全球⾃然语⾔处理的技术布局现状和竞争格局。
2
数据及⽅法
2.1 技术分解和数据获取策略车怎么抵押贷款
为了细致地揭⽰技术发展情况,本⽂采⽤对⾃然语⾔处理进⾏技术分解分别构建检索式的⽅式分别获取数据。⼀般认为,⾃然语⾔理解有5个层次,分别是:语⾳分析、词法分析、句法分析、语义分析和语⽤分析。由于语⾳处理⽬前已经发展成为⽐较独⽴的研究体系,因此本系列专题⽂章会对语⾳处理进⾏单独分析,本⽂的⾃然语⾔处理不包括语⾳处理的相关专利,仅包括词法、句法、语义和语⽤的相关专利。同时,本⽂参考世界知识产权组织发布的⾃然语⾔处理技术分解体系,对于⾃然语⾔处理进⾏了技术分解,如表1所⽰。基于该技术分解表,本⽂对于每个技术分⽀单独拟定了检索策略,以此来检索并获取数据。
表1 ⾃然语⾔处理技术分解表
本⽂所采⽤的专利数据通过incoPat专利数据库检索获取,数据范围为全球范围内优先权年在2000年及其之后布局的发明专利和实⽤新型专利,检索⽇期为2020年6⽉4⽇,最终通过简单同族合并后共获得专利80647项并开展分析。
2.2 研究⽅法
2.2 研究⽅法
本研究基于专利计量分析⽅法,围绕通过检索获取的全球⾃然语⾔处理专利,从⾃然语⾔处理整体技术及其典型分⽀技术两个层⾯开展分析,如图1所⽰,主要分析维度包括专利布局整体态势、技术优势国家专利申请情况分析、技术优势机构专利申请情况分析、法律状态有效专利分析、近三年申请专利分析1(1本⽂的近三年专利是指在2017年、2018年、2019年向专利管理部门提交的专利申请。)和四⽅专利2(2本⽂的“四⽅专利”指同时在中国国家知识产权局、欧洲专利局、⽇本特许厅、美国专利与商标局提交专利申请的发明创造。)分析,⼒求较为全⾯地展⽰⾃然语⾔处理技术⽬前的专利布局态势和创新格局。本⽂采⽤Excel、Python等⼯具软件进⾏可视化展⽰,从⽽直观展⽰分析结果。
爱祖国爱家乡演讲稿
图1 专利计量分析维度
图2 ⾃然语⾔处理专利布局整体态势
3
⾃然语⾔处理技术整体专利分析
3.1 专利布局整体态势
图2展⽰了⾃然语⾔处理技术的专利布局年度趋势、技术布局优势国家和技术布局优势机构。
可以发现,⾃2000年以来,全球⾃然语⾔处理技术的专利布局呈现先平稳增长后爆发式增长的趋势。2012年之前年度专利布局数量在2000项左右,2012年之后,增长幅度显著提升,年度增长量在1000项左右,2018年年度专利布局数量达到最⼤,数量为8986项。由于专利从申请到公开有⼀定时滞,2019年的数据可能略⼩于实际数据,但也能反映出⾃然语⾔处理技术专利布局的活跃程度。
从布局国家层⾯看,全球⾃然语⾔处理专利的主要布局国家是中国、美国、⽇本和韩国。中国在⾃然语⾔处理⽅⾯的专利布局数量居全球⾸位,与排名第2的美国的专利数量均在2万项以上。美国位列第2,布局20695项,⽇本和韩国分别排在第3和第4位,布局数量分别为9300项和5180项。其他国家的专利布局数量均在1000项以下。
从布局机构层⾯看,美国机构表现⽐较突出,IBM公司的专利布局数量位居全球⾸位,共布局4087项,微软和⾕歌公司分别位列第2和第3。此外富⼠施乐公司排名第8位。我国的百度公司、腾讯公司和中国平安公司分别位列第4、第6和第7位,专利布局数量在900项左右。TOP10机构中的其他3家公司均来⾃⽇本,分别是NTT (⽇本电信电话株式会社)、富⼠通和东芝。
3.2 技术优势国家/地区专利申请趋势分析
图3展⽰了全球TOP10专利布局国的专利布局年度分布。可以发现,TOP10国家/地区围绕⾃然语⾔处理技术的专利布局均呈现增长态势。中国的增长幅度最为显著,且保持持续增长态势,2018年布局专利数
量达到5623项。排名第2的美国同样呈现增长态势,但增长幅度不及中国,其2017年的专利布局数量最⾼,为2197项。⽇本的⾃然语⾔处理专利布局较为稳定,年度专利申请量⼀直保持在500项左右。韩国在2010年之前也建⽴了⼀定的技术专利储备,之后呈现⼩幅增长趋势。其他国家/地区的专利年度布局数量相对较少,但也呈现⼀定的增长趋势。各个国家/地区在2019年的专利数据均较低,这可能是专利申请到公开的时滞造成的。
图3 全球专利布局TOP 10国家/地区专利布局年度分布(单位:项)
3.3 全球优势机构专利申请趋势分析
江南春天图4展⽰了全球TOP10专利布局机构的专利布局年度分布。可以发现国外机构的专利布局起步较早,在2010年之前就已经形成了⼀定的专利储备,且持续保持较为稳定的专利布局,⽽我国机构的专利布局基本始于2010年,但专利布局增长速度极快,尤其是中国平安公司特征最为明显,在2018年布局了303项⾃然语⾔处理类专利,较之上⼀年度增长了4.7倍,这在⼀定程度上证明了我国企业对于专利布局重视程度的提升。
图4 全球专利布局TOP 10机构专利布局年度分布(单位:项)
4
⾃然语⾔处理典型分⽀技术专利分析
4.1 技术构成分析七夕是什么时候
图7展⽰了⾃然语⾔处理各分⽀技术的专利布局情况。可以看到通⽤⾃然语⾔处理技术的专利数量最多,为41494项。其次是机器翻译和语义学,专利布局数量分别为16958项和10823项,其他技术分⽀的专利数量均在1万项以下。由此可知,机器翻译和语义学是⾃然语⾔处理专利布局的主要技术⽅向。此外,情感分析、形态学、⾃然语⾔⽣成技术的专利布局数量在1000项左右,专利布局相对较弱。因此,下⾯选择机器翻译和语义学作为典型⼦技术开展进⼀步的分析。
图7 ⾃然语⾔处理各技术分⽀专利布局数量
4.2 典型技术分⽀各国专利布局及有效专利占⽐分析
针对机器翻译和语义学的专利布局国家和有效专利持有情况进⾏分析,如表5和表6所⽰。从数量上看,机器翻译技术⽅⾯美国布局的专利量及持有的有效专利量均最多,分别为5913项和3096项,较排名第2的中国有明显优势;语义学⽅⾯中国布局的专利量及持有的有效专利量均最多,分别为6341项和1246项,但排名第2的美国的有效专利量为1226项,与中国相差⽆⼏。在有效专利占⽐⽅⾯,机器翻译技术领域美国占⽐52.36%,较中国的24.12%具有显著优势;语义学技术领域美国有效专利占⽐同样优势明显,达到43.4%,⽽中国仅为19.65%。
表5 机器翻译专利布局优势国家及有效专利占⽐
表6 语义学专利布局优势国家及有效专利占⽐
4.3 典型技术分⽀优势机构专利布局及有效专利分析
进⼀步对机器翻译和语义学的专利布局优势机构和有效专利持有机构进⾏分析,如图8和图9所⽰。IBM和微软在这两项技术上的专利布局数量和有效专利持有数量均排在全球机构的前两位,具有明显技术优势。我国机构在机器翻译技术领域表现并不突出,仅百度和腾讯分别以第13和第18的位次进⼊专利布局量TOP20机构榜单;在语义学技术领域,我国机构建⽴了⼀定的技术优势,在专利布局量TOP20机构中拥有13个席位,在有效专利持有数量TOP20机构中占据9席,⽐较有代表性的是百度公司,其在两个指标上均排名全球第3,中国科学院在两个指标上的排名分别为第6位和第4位。
图8 机器翻译和语义学专利布局量TOP20机构
图9 机器翻译和语义学有效专利持有量TOP20机构
5
结论与分析
本⽂基于全球范围内2000年以来布局的⾃然语⾔处理专利数据,从整体技术和典型分⽀技术两个层⾯,对专利申请趋势、有效专利持有情况、近三年专利布局情况以及四⽅专利布局情况等进⾏分析,以期揭⽰⾃然语⾔处理的专利布局态势,得到如下结论。
(1)⾃2000年以来,全球⾃然语⾔处理技术的专利布局呈现先平稳增长后爆发式增长的趋势,尤其在2012年之后,增长幅度显著提升。
(2)全球⾃然语⾔处理专利的主要布局国家/地区是中国、美国、⽇本和韩国,其中,中国的专利申请增长幅度最为显著,且保持持续增长态势,⽇本的专利布局较为持续稳定。
(3)有效专利⽅⾯,美国的⾃然语⾔处理有效专利持有量全球最⾼,中国的有效专利占⽐相对较低,排名全球第14位。
(4)中国在近三年的专利申请量上占据绝对优势,共15092项,是排名第2的美国的3.3倍,其中,中国平安、百度、腾讯、阿⾥巴巴和中国科学院等机构表现抢眼。
(5)四⽅专利⽅⾯,美国和⽇本的机构优势明显,美国的微软和⾕歌在TOP20机构中排名第1和第2位,⽇本共有9家公司进⼊TOP20机构名单,我国仅有阿⾥巴巴公司和百度公司上榜,国际专利布局有待加强。
(6)分⽀技术⽅⾯,除通⽤技术外,机器翻译和语义学是⾃然语⾔处理专利布局的主要技术⽅向,情感分析、形态学、⾃然语⾔⽣成技术的专利布局数量相对较少。
(7)机器翻译技术⽅⾯,美国布局专利量、持有有效专利量以及四⽅专利申请量均位居全球⾸位,但是中国近三年围绕该⽅向的专利布局显著提升,具有较⼤的成长潜⼒。
(8)语义学⽅⾯,我国机构已初步建⽴⼀定的技术优势,且近三年的专利布局稳步推进,但是在国际专利布局⽅⾯与美国相⽐仍有较⼤差距。
引⽤本⽂:
吕璐成,张博,王燕鹏,赵亚娟,钱⼒,厉曈曈. ⾃然语⾔处理全球专利计量分析☆[J]. 科学观察, 2021, 16(2): 84-95.
中国科学院⽂献情报中⼼⽴⾜中国科学院、⾯向全国,主要为⾃然科学、前沿交叉科学和⾼技术领域的科技⾃主创新提供⽂献信息保障、战略情报研究服务、公共信息服务平台⽀撑和科学交流与传播服务,同时通过国家科技⽂献平台和开展共建共享为国家创新体系其他领域的科研机构提供信息服务。
↓↓↓点击标题即可查看
1. 最新影响因⼦即将公布,还分不清JCR分区、中科院分区?
2. 北⼤核⼼期刊最新完整⽬录(2020版)
3. 2021年度中科院杰出科技成就奖进⼊总评的候选者建议名单(通⽤领域)
4. 侯建国:在中国科学院第⼆⼗次院⼠⼤会上的学部主席团⼯作报告
5. 围观!国科⼤本科招⽣综合评价考场
6. “别在学术研究⼀棵树上吊死!”博⼠后千⼈⼤调查结果出炉
7. 三部委发布重要通知:学术期刊要杜绝“关系稿”“⼈情稿”!引导重⼤原创成果在我国期刊发表
汽车轮胎品牌
8. 中国⼯程院2021年院⼠增选进⼊第⼆轮评审候选⼈名单
9. 论⽂致谢刷屏的中科院博⼠,出席母校毕业典礼再出⾦句
10. 50位中国学者当选国际欧亚科学院院⼠

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。