本文共 793 字,大约阅读时间需要 2 分钟。
作者:崔金满 单位:燕山大学
论文链接:
代码地址:
数据集:ACE 2005 和 KBP 2017 (中文语料)
来源:EMNLP 2019
事件检测包括触发器识别和对事件提及进行分类两个子任务,对于没有分隔符的中文来说主流的方法是基于词汇的模型,即首先对句子进行分词,然后再执行后续任务。
本文将事件检测视为序列标注任务,将字符序列输入模型,然后模型将识别每个字符是否为触发器的一部分,并将其进行正确分类。
将文本分为字符级(character level)、单词级(word level)和基于HowNet的语义级(sense level)三个层级进行表示
在抽取触发词特征时,本文在传统LSTM的基础上 ,利用额外的LSTMCell来整合字符、单词的所有语义信息。
获取字符级语义信息为例:
首先通过HoeNet获取字符 的所有语义,然后将第j个语义表示输入LSTMCell,从而得到cell gate
然后,对所有的语义信息进行整合,保存到临时的单元状态
在获取字符级和单词级的临时细胞状态之后,通过一个额外的门对其进行整合,得到隐藏状态向量。
将每个字符的隐藏向量作为输入,使用CRF进行序列标注
本文在ACE和KBP两个数据集上分别通过与基于字符和基于词的模型进行对比,从整体上看均取得了很好的效果
转载地址:http://bqmgi.baihongyu.com/