词性标注任务是将给定句子中的每个单词从给定标签组 (tag set)中赋予一个词性标签 (part-of-speech tag)。
输入:
快速 的 棕色 狐狸 跳过 了 懒惰 的 狗
输出:
[快速] VA [的] DEC [棕色] NN [狐狸] NN [跳过] VV [了] AS [懒惰] VA [的] DEC [狗] NN
在联合分割标注的任务 (the joint segmentation and tagging task) 中, 计算基于词级别 (word-level) 的精确率 (Precision)和召回率 (Recall),以及F1-score.
- 该任务最早由Ng and Low (2004)提出。
- 数据集由LDC发布, 需要LDC许可证 (LDC licence) 才能获取数据集。
- 链接: https://verbs.colorado.edu/chinese/ctb.html
- 标签组 (tag set) 包含有33种词性标签 (POS tags).
Test set | # words (dev) | # words (test) | 主题 (Genre) |
---|---|---|---|
CTB5 | 6,821 | 8,008 | 新闻 |
- 代码实现: Github
System | F1 score |
---|---|
Tian el. al. (2020) | 96.92 |
Meng et. al. (2019) (Glyce + BERT) | 96.61 |
Meng et. al. (2019) (BERT) | 96.06 |
Shao et. al. 2017 | 94.38 |
Train set | # words | 主题 (Genre) |
---|---|---|
CTB5 | 493,935 | 新闻 |
- 数据集可免费获取 (GPL or equivalent licence)
- https://universaldependencies.org/
- 数据集详情: Nivre et. al. (2016)
- 标签组 (tag set) 包含有15种词性标签 (POS tags).
Test set | # words (dev) | # words (test) | 主题 (Genre) |
---|---|---|---|
UD Chinese | 12,663 | 12,012 | Learner essays, 新闻, 口语, Wiki百科 |
System | F1 score |
---|---|
Meng et. al. (2019) (Glyce + BERT) | 96.14 |
Tian el. al. (2020) | 95.69 |
Meng et. al. (2019) (BERT) | 94.79 |
Shao et. al. (2017) | 89.75 |
Train set | # words | 主题 (Genre) |
---|---|---|
UD Chinese | 98,608 | Learner essays, 新闻, 口语, Wiki百科 |
建议? 修改? 请发邮件到 [email protected]