基于句法依存分析的图网络生物医学命名实体识别
2021⁃02⁃10
计算机应用,Journal of Computer Applications 2021,41(2):357-362ISSN 1001⁃9081
CODEN JYIIDU http ://www.joca
基于句法依存分析的图网络生物医学命名实体识别
牛年祝福语2021最火
力,李建华*
(华东理工大学信息科学与工程学院,上海200237)
(∗通信作者jhli@ecust.edu )
摘要:现有的生物医学命名实体识别方法没有利用语料中的句法信息,准确率不高。针对这一问题,提出基于
句法依存分析的图网络生物医学命名实体识别模型。首先利用卷积神经网络(CNN )生成字符向量并将其与词向量拼接,然后将其送入双向长短期记忆(BiLSTM )网络进行训练;其次以句子为单位对语料
进行句法依存分析,并构建邻接矩阵;最后将BiLSTM 的输出和通过句法依存分析构建的邻接矩阵送入图卷积网络(GCN )进行训练,并引入图注意力机制优化邻接节点的特征权重得到模型输出。所提模型在JNLPBA 和NCBI -disease 数据集上的F1值分别达到了76.91%和87.80%,相比基准模型分别提升了2.62和1.66个百分点。实验结果证明,提出的方法能有效提升模型在
生物医学命名实体识别任务上的表现。
关键词:生物医学;命名实体识别;双向长短期记忆网络;图卷积网络;句法依存分析;图注意力机制
中图分类号:TP391.1
文献标志码:A
Biomedical named entity recognition with graph network based on
syntactic dependency parsing
XU Li ,LI Jianhua *
(School of Information Science and Engineering ,East University of Science and Technology ,Shanghai 200237,China )
Abstract:The existing biomedical named entity recognition methods do not use the syntactic information in the corpus ,
resulting in low precision.To solve this problem ,a biomedical named entity recognition model with graph network based on
syntactic dependency parsing was proposed.Firstly ,the Convolutional Nerual Network (CNN )was used to generate character vectors which were concatenated with word vectors ,then they were sent to Bidirectional Long Short -Term Memory (BiLSTM )network for training.Secondly ,syntactic dependency parsing to the corpus was conducted with a sentence as a unit ,and the adjacency matrix was constructed.Finally ,the output of BiLSTM and the adjacency matrix constructed by
syntactic dependency parsing were sent to Graph Convolutional Network (GCN )for training ,and the graph attention mechanism was introduced to optimize the feature weights of adjacency nodes to obtain the model output.On JNLPBA
dataset and NCBI -disease dataset ,the proposed model reached F1score of 76.91%and 87.80%respectively ,which were
2.62and 1.66percentage points higher than those of the baseline model respectively.Experimental results prove that the proposed method can effectively improve the performance of the model in the biomedical named entity recognition task.Key words:biomedicine;named entity recognition;Bidirectional Long Short -Term Memory (BiLSTM)network;Graph
Convolutional Network (GCN);syntactic dependency parsing;graph attention mechanism
引言
在生物医学领域,每年都会新增大量的专利、期刊和报告
等文献。这些文献中包含的实体信息可应用于药物设计和临床医疗,对于生物医学研究具有重大意义。随着自然语言处理技术的发展,生物医学命名实体识别逐渐成为研究热点。广义的命名实体识别针对文本中的特定实体,如人名、地理位置和组织名称等,而在生物医学领域,实体则特指药物名称、蛋白质名称、疾病名称和基因名称等。与通用领域的命名实体识别任务相比,生物医学命名实体识别由于命名规则多样、实体名称较长且包含关系复杂,面临着更多困难。
现有的生物医学命名实体识别方法主要分为:基于规则和词典的方法、基于传统机器学习的方法和基于深度学习的方法。基于规则和字典的方法常见于早期命名实体识别研究,主要通过设计规则模板、构建实体字典来识别实体,如Krauthammer 等[1]提出的基本局部比对检索工具(Basic Local Alignment Search Tool ,BLAST ),Hanisch 等[2]使用基于规则的方法识别基因和蛋白质实体等。这种方法虽然简单实用,但规则和词典的设计过程复杂耗时且容易产生错误。基于传统机器学习的方法对于特征选取的要求较高,需选取例如前后缀、大小写等人工特征来训练模型。Leaman 等[3]提出的tmChem 模型融合了多种人工特征,在化学命名实体识别取得
文章编号:1001-9081(2021)02-0357-06
DOI :10.11772/j.issn.1001-9081.2020050738
收稿日期:2020⁃06⁃01;修回日期:2020⁃07⁃29;录用日期:2020⁃08⁃03。基金项目:国家重大新药创制国家科技重大专项(2018ZX09735002);国家重点研发计划项目(2016YFA0502304)。作者简介:许力(1997—),男,安徽合肥人,硕士研究生,主要研究方向:自然语言处理;李建华(1977—),男,安徽广德人,博士,副教授,CCF 会员,主要研究方向:计算机辅助设计、药物数据挖掘、生物信息学。
第41卷计算机应用
了较好效果;Li等[4]在条件随机场(Conditional Random Field,CRF)中融入词频和共现信息识别基因实体,进一步提升了模型表现。基于传统机器学习的方法进一步提高了实体识别的准确率,但由于过于依赖特征选取且识别策略单一,导致模型鲁棒性和泛化性能较差。基于深度学习的方法主要通过神经网络提取文本特征,在命名实体识别任务中获得了广泛应用。Rocktäschel等[5]提出的ChemSpot模型将CRF与词典结合,学习了化学品名称的多种形式。Huang等[6]提出的BiLSTM-CRF模型使用双向长短期记忆(Bidirectional Long Short Term Memory,BiLSTM)网络提取上下文特征,并通过CRF学习实体标签间的转换概率以修正BiLSTM的输出;李丽双等[7]提出的BiLSTM-CNN-CRF模型则是在BiLSTM-CRF的基础上使用卷积神经网络(Convolutional Nerual Network,CNN)提取字符级别特征,在生物医学命名实体识别中获得了良好的效果;Dang等[8]提出的D3NER模型在BiLSTM-CRF模型中引入语言学特征,对词向量进行优化;Crichton等[9]在CNN模型中融入多任务学习思想,使用多种不同标准和不同实体类型的数据集训练模型,提升了模型的泛化性能;Cho等[10]通过N-Gram 模型在词向量中融入上下文信息,进一步增强了模型表现。基于深度学习的方法在不依赖人工特征的情况下,在命名实体识别任务中获得了更好的表现。以上这些方法虽然均在一定程度上增强了模型在任务中的表现,但改进的思路大多是通过增加特征、优化词向量来丰富词与词之间的关联,没有从句法的角度考虑词与词之间的联系,效果有所局限。
句法依存分析是获取文本句法信息的重要方法,它以句子为单位构建依存分析图,揭示了词与词之间
的依存关系,提升了模型在自然语言处理任务中的表现。现有的句法依存分析方法大多采用线性方式对句法依存分析图进行编码[11-12],不能充分地利用依存分析图中的句法信息。随着图网络技术的发展,将图卷积网络(Graph Convolutional Network,GCN)应用于句法依存分析的研究已经出现,例如:Bastings等[13]利用GCN编码句法依存信息用于机器翻译;Marcheggiani等[14]使用GCN学习文本句法结构,并将其与BiLSTM结合应用于语义角标注等。虽然句法依存分析在自然语言处理的多个领域已有应用,但在生物医学命名实体识别上的研究还未出现。
针对以上问题,本文提出一种基于句法依存分析的图网络生物医学命名实体识别模型。模型利用CNN生成字符向量并将其与词向量拼接,送入BiLSTM进行训练;其次,对语料进行句法依存分析,使用GCN对句法依存分析图进行编码,并引入图注意力网络(Graph ATtention network,GAT)优化邻接节点的特征权重,得到模型输出。实验结果表明,本文提出的方法有效地提升了生物医学命名实体识别的准确率。
本文将GCN应用于生物医学命名实体识别领域,通过图网络学习文本句法信息并使用图注意力机制增强实体识别效果,为后续的生物命名实体识别研究拓展了思路。本文的工作主要有:
1)现有的生物医学命名实体识别方法没有利用语料中的句法信息,效果有所局限,为此本文对语料进行句法依存分析,并使用GCN对句法依存分析图进行编码,充分利用了文本中的句法信息;
2)引入图注意力机制优化句法依存分析图中邻接节点的特征权重,更好地聚合了邻接节点的特征,提升了模型的识别效果。
1基于句法依存分析的图网络生物医学命名实体识别
1.1句法依存分析
句法依存分析通过分析句子内的依存关系来获取文本句法结构,主张句子中核心动词是支配其他成分的中心成分,而它本身却不受其他任何成分的支配,所有受支配成分都以某种依存关系从属于支配者[15]。依存关系用依存弧表示,方向由从属词指向支配词。每个依存弧上有个标记,称为关系类型,表示该依存对上的两个词之间存在什么样的依存关系[16]。常见的依存关系有主谓关系(SBV)、动宾关系(VOB)和状中关系(ADV)等。
1.2GCN
GCN是卷积神经网络的一种,可用于编码与图相关的信息。给定一个具有n个节点的图,可以使用一个n×n的邻接矩阵A来表示图结构,若节点i到节点j有边,则令A ij=1。为了聚合节点自身的特征,需对邻接矩阵A进行自环操作,即令A对角线上所有元素都为1。其次,对A进行归一化处理,引入邻接矩阵A的度矩阵D,其中D ii=∑j A ij,令A=D-12AD-12。
在一个具有l层的GCN中,定义h(l-1)
i
为输入向量,h(l)i为节点i 在第l层的输出向量,图卷积的操作如下所示:
h(l)i=σ()
∑j=1n A ij W(l)h(l-1)j+b(l)(1)
其中:W(l)是权重矩阵,b(l)是偏置项,σ是非线性映射函数。每个节点可以通过邻接矩阵聚合邻接节点的特征信息,并传入下一层作为输入。
1.3模型架构
本文提出的模型框架如图1所示,模型由词表示层、BiLSTM层和图卷积层组成。首先利用CNN生成字符向量,将其与词向量拼接,送入BiLSTM层训练;其次,以句子为单位对语料进行句法依存分析,并构建邻接矩阵;最后将BiLSTM 的输出和构建好的邻接矩阵送入GCN训练,并引入图注意力机制优化邻接节点的特征权重,
得到模型输出。
图1本文模型整体结构
Fig.1Overall structure of the proposed model
358
第2期许力等:基于句法依存分析的图网络生物医学命名实体识别
1.3.1
词表示层
词表示层的作用是将原始文本转换为向量形式,如图2所
示。模型使用Glove (Global Vectors for Word Representation )将单词转化为向量,得到长度为200维的词向量X 1。将原始的单词按字母拆解,填充为长度为52的字母序列后送入CNN
学习,经过卷积、最大池化操作后,映射成为30维的字符向量X 2。将这两部分向量拼接后,构成模型输入X =X
X 2。
1.3.2
BiLSTM 层
BiLSTM 层由前向和后向LSTM 组成,主要用于提取文本
中的上下文特征。Marcheggiani 等[14]的工作指出,GCN 的主要
问题在于难以捕捉长距离节点之间的依存关系,将其与LSTM 结合后可以很好地避免这一问题。因此,本文沿用这一思路,将字符向量和词向量进行拼接后,加入BiLSTM 中进行编码。LSTM 的主要结构可以表示为:
i t =σ()x t ⋅w i xh +h t -1⋅w i hh ′+b i h (2)f t =σ()
x t ⋅w f xh +h t -1⋅w f hh ′+b f h (3)o t =σ()x t ⋅w o xh +
h t -1⋅w
o hh ′+b o
h (4)c t =tanh ()x t ⋅w c xh +h t -1⋅w c hh ′+b c h (5)c t =i t ⊗c t +f t ⊗c t -1
(6)h t =O t ⊗tanh ()
c t (7)
其中:σ是sigmoid 函数;i 、f 、o 和c 分别是输入门、遗忘门、输出门和细胞向量;⊗是点乘运算;w 、b 代表输入门、忘记门、输
出门的权重矩阵和偏置向量。1.3.3
图卷积层
图卷积层的作用是对语料中的句法依存分析信息进行编
码,其输入由两部分构成:一部分是BiLSTM 的输出,另一部分是根据句法依存分析构建好的邻接矩阵。本文使用Spacy 工具库对数据集进行句法依存分析,以句子为单位构建依存分析图。将句子中的单词看作图中的节点,将单词与单词之间的依存关系看作图中的边。Spacy 以child 和head 描述单词与单词之间的依存关系,依存关系弧从head 指向child 。得到一个句子的依存分析图之后,将其构建成邻接矩阵。假设一个句子由n 个单词构成,需要构建一个大小为n ×n 的邻接矩阵。若单词i 与单词j 之间存在依存关系,且依存弧由i 指向j ,则相应的令A ij =1。邻接矩阵构建好后,将会作为GCN 的部分输入。以句子“China ’s achievements attract the world ’s
attention ”为例,其依存分析图如图3所示。
根据依存分析图得到的邻接矩阵,经过自环操作后转为:
æèçççççççöø
÷÷÷÷÷÷÷1
00001100000110010001000000100
1
1
1经过归一化后,邻接矩阵转换为:
æèçççççççöø
÷÷÷÷÷÷÷1
00000.50.5000001/31/3001/30001000000100
1/3
1/3
1/3从上述矩阵可以看出,每个节点的出度经过归一化之后
得到相同的值。这种操作为节点的邻接节点分配了相同的权重,忽视了节点之间依存关系的差异性。因此,本文引入图注意力机制[17],在GCN 的基础上,对邻接节点的特征聚和做出调整。其操作如下所示:
z (l )i =W (l )h (l )
i (8)e (l )ij =LeakyReLU ()
a  (l )T
()z (l )i ‖
z (l )j (9)
其中:
z (l )i 表示对l 层第i 个节点的特征进行线性转换;e (l )ij 代表节点j 的特征对于节点i 的重要性;||是拼接操作;a  (l )T
代表一个可以学习的权重向量。将z (l )i 与z (l )j 拼接后,使用LeakyReLU 函数进行非线性映射。为了使权重系数在不同节点间方便比较,使用softmax 函数对e (l )ij 进行归一化操作,
N (i )代表节点i 的邻接节点集合:
秦国皇帝α
(l )ij
=
exp ()
e (l )ij ∑
k ∈N (i )
exp ()
e (l )
ik (10)
得到节点i 的邻接节点注意力权重后,对邻接节点特征进行加权求和:
h (l +1)i =σ
()
∑j ∈N (i )
α
(l )
ij z (l )
j (11)
为了均衡注意力机制的输出,采用多头注意力机制执行相同的操作,拼接后得到输出,K 代表注意力头数:
h  ′i =‖K k =1σ
(
)
∑j ∈N i
α
k ij
W k h
j (12)
获得图卷积层输出后,使用softmax 函数得到模型分类结果。
2实验过程与评估
2.1
数据集
本文在JNLPBA [18]和NCBI -disease [19]数据集中训练模型,数据集分布如表1所示。NCBI -disease 数据集来源于793篇生
新婚祝语图2词表示层
Fig.2Word representation layer
图3依存分析示意图
Fig.3
Schematic diagram of dependency parsing
359
第41卷计算机应用
物医学领域的摘要,主要包含疾病实体;JNLPBA数据集包含DNA、RNA、Cell_line、Cell_type、Protein五种实体,模型除了识别出实体,还需要给出实体的具体分类。数据集使用BIO标注方案:B代表Beginning,标注一个实体的开始部分;I代表Inside,标注组成实体的中间部分;O代表Outside,标注与实体无关的信息。
2.2评估标准
生物医学命名实体识别任务需要模型正确判定实体的边界并输出正确的实体类别。为了精确衡量实体识别效果,本文采用准确率P(Precision)、召回率R(Recall)和F1(F1值)三种评测指标,具体公式如下:
P=TP(TP+FP)(13)R=TP(TP+FN)(14)F1=2PR(P+R)(15)其中:TP为正确识别的实体个数,FP代表实体边界判定错误或类别分类错误的实体个数,FN代表未识别出的实体个数。
2.3实验设置
本文使用Glove将单词转换为200维词向量,利用CNN生成30维字符向量,将两部分向量拼接后形成230维特征表示;BiLSTM隐藏层单元数设为200,Dropout率设为0.5;图卷积层单元数设为50,图注意力机制头数设置为6;获得图卷积层输出后,通过softmax函数得到最终分类结果。
实验运行环境为Keras2.2.4,模型学习率设为5e-4,损失函数定义为多类交叉熵损失函数,优化器采用Nadam算法,模型经过100轮训练后达到收敛。
2.4实验结果与参数分析
2.4.1对比实验分析
为了验证本文方法的有效性,进行对比实验来说明各个模块作用,实验结果如表2所示。
为了说明字符向量在向量表征方面的优势,本文选择BiLSTM进行对比实验。从表中可以看出,Glove+char+ BiLSTM模型相比Glove+BiLSTM的方法,准确率平均提升了1.42个百分点,F1值平均提升了2.64个百分点。生物医学实体名称大多包含大小写和特殊字符,使用CNN提取字符特征,能够帮助模型区分实体,提高实体识别率。实验结果表明,使用CNN提取字符特征生成的字符向量,在与词向量结合后,提升了模型的准确率。
传统的生物医学命名实体识别方法不能很好地利用语料中的句法信息,而句法信息可以丰富实体与实
体之间的关联,对于生物医学命名实体识别有重要意义。本文方法对语料进行句法依存分析,并使用GCN利用这部分信息进行训练。对比Glove+char+BiLSTM模型和Glove+char+GCN+BiLSTM模型的实验结果可以发现,后者相比前者的准确率平均提升了3.80个百分点,F1值平均提升了2.68个百分点。实验结果表明,使用GCN可以很好地利用句法信息,增强模型表现。GCN使用归一化操作处理邻接矩阵,为每个节点的邻接节点赋予相同的权重,忽视了节点之间依存关系的差异性。本文在GCN的基础上引入了图注意力机制改善这一问题。对比Glove+char+GCN+BiLSTM模型和Glove+char+GAT+ BiLSTM模型的实验结果可以发现,后者相比前者的准确率平均提升了1.60个百分点,F1值平均提升了2.01个百分点。实验结果表明,引入图注意力机制可以更好地聚合邻接节点的特征,提升模型性能。
2.4.2与现有其他方法对比
各模型在JNLPBA数据集上的表现对比如表3所示。Tang等[20]在生物医学命名实体识别中融入词表示特征;Li 等[21]提出在模型中结合使用句子向量和双词向量;Wei等[22]在BiLSTM-CRF模型中引入注意力机制,获得了71.57%的准确率和73.50%的F1值;Dai等[23]在BiLSTM-CRF模型中使用预训练词向量模型ELMO(Embeddings from Language MOdels,ELMO),获得了74.29%的F1值。以上方法均没有利用语料中的句法信息,效果有所局限。本文模型使用CNN 提取字符特征,帮助模型识别包含特殊字符的实体,在不使用人工设计特征的情况下,提升了实体识别率;其次,本文使
用GCN学习语料中的句法依存分析信息,增强了词与词之间的关联。GCN在归一化操作后会为每个节点的邻接节点赋予相同的权重,忽视了节点之间依存关系的差异性。针对这一问题,本文还引入了图注意力机制优化邻接节点的特征权重,让模型更好地聚合邻接节点特征。实验结果表明,本文模型的F1值比Dai等[23]提出的模型高出了2.62个百分点,相比于Wei等[22]提出的模型,其准确率提高了5.99个百分点,F1值
提高了3.41个百分点,获得了更好表现。
模型在NCBI-disease数据集上的表现对比如表4所示。Leaman等[24]提出的DNorm模型使用CRF结合多种人工设计特征;Lu等[25]提出的TaggerOne模型通过正则化方法降低实体识别错误率;Dang等[8]提出的D3NER模型在BiLSTM-CRF 模型中引入语言学特征对词向量进行优化,取得了85.03%
表1实验数据集详细信息Tab.1Details of datasets used in the experiment
数据集NCBI-disease JNLPBA
实体类型
Disease
Gene/Protein
数据子集
Training
Validation
Test
Training
Validation
Test
实体数量
5423
922
939
14690
3856
3856
表2不同方法在NCBI-disease和JNLPBA数据集上的评价指标对比单位:% Tab.2Comparison of evaluation indexes of different methods on NCBI-disease and JNLPBA datasets unit:%
方法
Glove+BiLSTM
Glove+char+BiLSTM
Glove+char+GCN+BiLSTM Glove+char+GAT+BiLSTM(本文方法)
NCBI-disease
P
80.65
82.64
84.83
87.29
R
76.24
81.72
985最低分数线
85.51
88.31
F1
78.38
82.18
85.17
87.80
JNLPBA
P
70.58
71.42
76.83
77.56
R
72.81
74.97
74.25
76.28
F1
71.68
73.15
置换购车75.52
76.91
360
第2期许力等:基于句法依存分析的图网络生物医学命名实体识别
的准确率和84.41%的F1值;Wang 等[26]在BiLSTM -CRF 模型中融入多任务学习思想,同时学习
多种生物医学实体类型,取得了85.86%的准确率和86.14%的F1值。以上这些方法的思路大多是通过融合特征或优化词向量来提升模型效果,没有从句法的角度考虑词与词之间的关联。本文模型利用GCN 学习文本的句法依存信息,并引入图注意力机制优化邻接节点的特征权重,充分地利用了语料中的句法信息。实验结果表明,相比Wang 等[26]提出的模型,本文模型的准确率提升了1.43个百分点,F1值提升了1.66个百分点;相比D3NER 模
型[8]
,准确率提升了2.26个百分点,F1值提升了3.39个百分点,取得了良好的效果。
实验结果表明,本文模型通过GCN 编码句法依存分析图,充分地利用了语料中的句法信息,在生物医学命名实体识别任务中获得了更好的表现。2.4.3
实验参数分析
表5为模型在不同词向量嵌入维度中的性能表现。从表
中可以看出,低维度的词嵌入模型准确率较低,因为过低的嵌入维度不能很好地区分单词与单词间的语义,而过高的词向量维度会导致图卷积层参数过多,难以训练,降低模型性能。经过实验后,确定合适的词向量维度为200。
表6为模型在不同图卷积层数下的性能表现。可以看出,图卷积层数为2时,模型准确率最高,相比于1层图卷积,其准确率和F1值均得到了一定的提升;图卷积层数为3后,准确率和F1值反而有所降低。这是因为图卷积层的堆叠层数过多时,会出现过平滑问题[27]
,使得邻接节点的特征表示越来
越趋同,实体识别率下降。
3
结语
本文提出了一种基于句法依存分析的图网络生物医学命
名实体识别方法。模型以句子为单位对语料进行句法依存分析,通过图卷积网络(GCN )学习语料中的句法依存信息并引入图注意力机制优化邻接节点特征权重。实验结果表明,本文方法有效地利用了语料中的句法信息,提升了生物医学命名实体识别的准确率。未来会根据句法依存分析图的特点,尝试多种GCN 的变形,作出进一步改进。
参考文献(References )
[1]KRAUTHAMMER M ,RZHETSKY A ,MOROZOV P ,et al.Using BLAST for identifying gene and protein names in journal articles [J ].Gene ,2000,259(1/2):245-252.
[2]HANISCH D ,FUNDEL K ,MEVISSEN H T ,et al.ProMiner :rule -based protein and gene entity recognition [J ].BMC Bioinformatics ,2005,6(S1):No.S14.
[3]LEAMAN R ,WEI C H ,Chem :a high performance approach for chemical named entity recognition and normalization
[J ].Journal of Cheminformatics ,2015,7(S1):No.S3.
[4]LI Y ,LIN H ,YANG Z.Incorporating rich background knowledge for gene named entity classification and recognition [J ].BMC Bioinformatics ,2009,10:No.223.
[5]ROCKTÄSCHEL T ,WEIDLICH M ,LESER U.ChemSpot :a hybrid system for chemical named entity recognition [J ].Bioinformatics ,2012,28(12):1633-1640.[6]HUANG Z ,XU W ,YU K.Bidirectional LSTM -CRF models for sequence tagging [EB/OL ].[2019-08-09].https :///pdf/
1508.01991.pdf.
[7]
李丽双,郭元凯.基于CNN -BLSTM -CRF 模型的生物医学命名实
体识别[J ].中文信息学报,2018,32(1):116-122.(LI L S ,GUO Y K.Biomedical named entity recognition with CNN -BLSTM -CRF [J ].Journal of Chinese Information Processing ,2018,32(1):
116-122.)
[8]
DANG T H ,LE H Q ,NGUYEN T M ,et al.D3NER :biomedical named entity recognition using CRF -biLSTM improved with fine -
tuned
embeddings
of
various
linguistic
information [J ].
Bioinformatics ,2018,34(20):3539-3546.
[9]CRICHTON G ,PYYSALO S ,CHIU B ,et al.A neural network multi -task learning approach to biomedical named entity recognition
[J ].BMC Bioinformatics ,2017,18(1):No.368.[10]CHO H ,LEE H.Biomedical named entity recognition using deep neural
networks
with
contextual
information [J ].
BMC
Bioinformatics ,2019,20(1):No.735.
[11]LEVY O ,GOLDBERG Y.Dependency -based word embeddings [C ]//Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Stroudsburg ,PA :Association for Computational Linguistics ,2014:302-308.
[12]JIE Z ,LU W.Dependency -guided LSTM -CRF for named entity
recognition [C ]//Proceedings of the 2019Conference on Empirical
Methods in Natural Language Processing.Stroudsburg ,PA :
表3
不同模型在JNLPBA 数据集上的评价指标对比单位:%
Tab.3
Comparison of evaluation indexes of different models on
JNLPBA dataset unit :%
模型文献[20]模型
文献[21]模型文献[22]模型文献[23]模型本文模型P 70.7874.7771.57—77.56
R 72.0070.8575.55—76.28
F 1
71.3972.7673.5074.2976.91表4
不同模型在NCBI 数据集上的评价指标对比单位:%
Tab.4
Comparison of evaluation indexes of different models on
NCBI dataset unit :%
模型DNorm 模型[24]
TaggerOne 模型[25]D3NER 模型[8]文献[26]模型本文模型
P 82.2083.5085.0385.8687.29
R 77.5079.6083.8086.4288.31
F 1
79.8081.5084.4186.1487.80表5
不同嵌入维度的F1值
单位:%Tab.5F1scores of different embedding dimensions
unit :%
嵌入维度50
100200300
JNLPBA 数据集
博兴教育信息网
82.7186.5587.8085.43
NCBI -disease 数据集
72.3276.2876.9175.36
表6
不同图卷积层数的F1值
单位:%
Tab.6F1scores of different graph convolutional layers unit :%
图卷积层数
1
23
JNLPBA 数据集
86.78
87.8086.94
NCBI -disease 数据集
75.8476.9174.33
361

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。