Skip to content

Latest commit

 

History

History
95 lines (57 loc) · 2.95 KB

co-reference_resolution.md

File metadata and controls

95 lines (57 loc) · 2.95 KB

中文指代消歧 (Co-reference Resolution)

背景

指代消歧 (co-reference resolution) 是指标识一段文本以及将这些文本与其他具有相同指代内容的文本连接起来。有时这些文本片段的长度为0,表示省略了的代词 (pronouns) 或是名词 (nouns)。

示例

输入:

我的姐姐给我她的狗。很喜欢.

输出:

[我]0的[姐姐]1给[我]0[她]1的[狗]2。[]0很喜欢[]2.

标准评价指标

以下三种精确率 (Precision) /召回率 (Recall) 得到的F1值 (F1-scores) 的平均值:

  • MUC.
  • B-cubed.
  • Entity-based CEAF.

CoNLL 2012 指代消歧任务.

CoNLL 2012 引入了一个中文的指代消歧任务.

评估数据是OntoNotes项目的一部分, 由Linguistic Data Consortium (LDC)发布.

Test set 指代提及的次数 主题(Genre)
CoNLL 2012 co-reference 144k (包含了15k个长度为零的被省略的主语) 新闻,广播新闻,广播对话

评价指标

MUC, B-cubed和CEAF三个指标各自的F1值 (F1-scores) 的平均值

评分代码: https://github.com/conll/reference-coreference-scorers

结果

System MUC, B-cubed和CEAF三个指标各自的F1值 (F1-scores) 的平均值
[Clark & Manning, 2016] 63.88
Kong & Jian (2019) 63.85
[Clark & Manning, 2016] 63.66

资源

评估数据是OntoNotes项目的一部分, 由Linguistic Data Consortium (LDC)发布。

零指代消解子任务 (CoNLL 2012 / OntoNotes 5.0).

评价指标

F1 score, 详见论文.

结果

System Overall F1 (w/ gold syntactic info) Overall F1 (w/o gold syntactic info)
Aloraini & Poesio (2020) 63.5
Song et al. (2020) 58.5 26.1
Yang et al. (2019) 58.1
Yin et al. (2018) 57.3
Liu et al. (2017) 55.3
Yin et al. (2017) 54.9 22.7

资源

更多关于数据集的具体数据详见 Yin et al. (2018)

Split Documents Sentences Words Anaphoric Zero Pronouns
Train 1,391 36,487 756K 12,111
Dev 172 6,083 110K 1,713

建议? 修改? 请发邮件到 [email protected]