建立了新的任务,提出了新的预训练模型和数据集。
将 xbrl 标记作为金融领域的新实体提取任务,并发布 finer-139,这是一个包含 110 万个带有金色 xbrl 标记的句子的数据集。XBRL是针对金融数据集中的数字等实体进行标注,实体类型种类较多,在FiNer中,涵盖了139个type。
SPACY
BILSTM
BERT
CRFs
一个实际用例是使用 xbrl 标记器作为推荐引擎,为用户选择的特定令牌提出 k 个最可能的 xbrl 标记
four English NER datasets (CoNLL2003, OntoNotes 5, ACE 2004 and ACE 2005)
two Chinese datasets (Weibo NER and Resume NER)
two Chinese datasets (OntoNotes 4 and MSRA)
不在考虑使用硬边界(确定性实体边界,非0即1),二是软边界(边界周围也可能是实体所在,不确定性更强)。

红色表示的smooth size=1,蓝色表示的smooth size==2.
在hard boundary中,x被feedforward映射得到两个表示hs和he,即span的start和end表示。
在识别type=c的实体时,还有一个wj-i向量,需要学习,可能表示的span长度信息。
一个span是否为实体的打分值为:

之后,通过softmax layer,得到分类。

loss函数计算为:cross_entropy

具体来说,给定一个被注释的实体,一部分概率被分配给其周围的跨度,而剩余的概率1-被分配给最初被注释的跨度。
周围跨度被分配的概率值为:
ϵ
/
D
\epsilon /D
ϵ/D,D为跨度距离最初被注释跨度的距离。
实验中,研究了在 ϵ \epsilon ϵ 取不同值的情况下,模型的效果。
这篇文章是提出了一种新方法,但为啥只限制于中文领域?方法不应该是通用性吗?
文章给出的解释是,中文不类似于英文以空格来分词,中文没有明显的分词标志,所以提出了一种用于中文NER的方法。(与英语相比,由于缺乏明确的词边界和时态信息,中文命名实体识别(NER)更具挑战性。在本文中,我们提出了一种边界增强方法来获得更好的中文 NER。特别是,我们的方法从两个角度增强了边界信息。一方面,我们通过额外的图注意网络(GAT)层增强了短语内部依赖的表示。另一方面,以实体头尾预测(即边界)为辅助任务,我们提出了一个统一的框架(然后将明确的头尾边界信息和基于Dependency GAT的隐性边界信息结合起来,以提高中文的误码率。)来学习边界信息并联合识别NE。)
3个part:
GRU-based head and tail representation(头、尾表示)
Star-transformer based contextual embedding layer
GAT-based dependency embedding layer(图依赖路径)
模型整体结构:
词嵌入层——GRU得到(looking up the pre-trained word embeddings1 (Li et al., 2018). The sequence of character embeddings contained in a word will be fed to a bi-direction GRU layer)
Star-transformer based contextual embedding layer——简化了transformer的结构。
GAT-based dependency embedding layer——利用词之间的依赖关系来构建图神经网络
GRU-based head and tail representation layer——两个单独的 GRU 层用于对实体进行头部和尾部预测,其隐藏特征与 GAT 层的输出相加:
最终的Hidden state 表示为:

模型的损失函数:


这篇文章没看完,涉及到语义解析的部分。需要用到句法树。