diff --git a/examples/information_extraction/DuEE/README.md b/examples/information_extraction/DuEE/README.md index 3dfc155383f6..e2cb98ef76d9 100644 --- a/examples/information_extraction/DuEE/README.md +++ b/examples/information_extraction/DuEE/README.md @@ -36,7 +36,7 @@ DuEE/ ## 篇章级事件抽取基线 篇章级事件抽取数据集(DuEE-Fin)是金融领域篇章级别事件抽取数据集, -共包含13个已定义好的事件类型约束和1.15万中文篇章(存在部分非目标篇章作为负样例),其中6900训练集,1150验证集和3450测试集,数据集下载[地址]() 。 +共包含13个已定义好的事件类型约束和1.15万中文篇章(存在部分非目标篇章作为负样例),其中6900训练集,1150验证集和3450测试集,数据集下载[地址](https://aistudio.baidu.com/aistudio/competition/detail/65) 。 在该数据集上基线采用基于[ERNIE](https://github.com/PaddlePaddle/ERNIE)的序列标注(sequence labeling)方案,分为基于序列标注的触发词抽取模型、基于序列标注的论元抽取模型和枚举属性分类模型,属于PipeLine模型;基于序列标注的触发词抽取模型采用BIO方式,识别触发词的位置以及对应的事件类型,基于序列标注的论元抽取模型采用BIO方式识别出事件中的论元以及对应的论元角色;枚举属性分类模型采用ernie进行分类。 ### 评测方法 diff --git a/examples/information_extraction/DuIE/README.md b/examples/information_extraction/DuIE/README.md index 7b44a0c79c02..315ea510687f 100644 --- a/examples/information_extraction/DuIE/README.md +++ b/examples/information_extraction/DuIE/README.md @@ -68,7 +68,7 @@ inputs = tokenizer(text="请输入测试样例", max_seq_len=20) -从比赛官网下载数据集,解压存放于data/目录下并重命名为train_data.json, dev_data.json, test_data.json. +从比赛官网[下载数据集](https://aistudio.baidu.com/aistudio/competition/detail/65),解压存放于data/目录下并重命名为train_data.json, dev_data.json, test_data.json. 我们可以加载自定义数据集。通过继承[`paddle.io.Dataset`](https://www.paddlepaddle.org.cn/documentation/docs/zh/api/paddle/io/Dataset_cn.html#dataset),自定义实现`__getitem__` 和 `__len__`两个方法。