forked from fighting41love/NLP_Corpus_Plan
-
Notifications
You must be signed in to change notification settings - Fork 0
Commit
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Loading branch information
1 parent
ec8a14e
commit 5ae14fd
Showing
1 changed file
with
15 additions
and
7 deletions.
There are no files selected for viewing
This file contains bidirectional Unicode text that may be interpreted or compiled differently than what appears below. To review, open the file in an editor that reveals hidden Unicode characters.
Learn more about bidirectional Unicode characters
Original file line number | Diff line number | Diff line change |
---|---|---|
@@ -1,11 +1,19 @@ | ||
# SPDB_NLP_CP stands for NLP Corpus Plan. It builds a Chinese NLP corpus bank. | ||
## SPDB_NLP_CP stands for NLP Corpus Plan. | ||
## It builds a Chinese NLP corpus bank. | ||
|
||
语料名称 | 网盘链接 | 提取码 | 备注 | | ||
:-: | :-: | :-: | :-: | | ||
百度对话语料 | [link](https://pan.baidu.com/s/1a2Rtp6MYlEGadek8rDhJ0g) | qnn3 | 百度利用百度知道和其他资源,构建了一个这样的一个数据集,4万多个问答对| | ||
人民日报语料 | [link](https://pan.baidu.com/s/1DijAYtd7mLtnPzkbtClBDw)| m2nx | 该语料库对600多万字节的中文文章进行了分词及词性标注| | ||
[中文聊语料](https://github.com/codemayq/chinese_chatbot_corpus) |[link](https://pan.baidu.com/s/1l_QBZGmKZmXqfdWYNNw6GQ)| f3vs | 豆瓣、电视剧对白、贴吧、微博、小黄鸡、青云等 | | ||
[中文谣言语料](https://github.com/thunlp/Chinese_Rumor_Dataset) |[link](https://pan.baidu.com/s/1TBzAddbeJqOTfcvQ2HMYaQ)| w9wj | 从2009年9月4日至2017年6月12日的31669条谣言,json格式 | | ||
百度对话语料 | [link](https://pan.baidu.com/s/1a2Rtp6MYlEGadek8rDhJ0g) | qnn3 | 数据集包含百度知道和其他资源,构建了一个这样的一个数据集,4万多个问答对| | ||
人民日报语料 | [link](https://pan.baidu.com/s/1DijAYtd7mLtnPzkbtClBDw)| m2nx | 数据集包含600多万字节的中文文章进行了分词及词性标注| | ||
[中文聊语料](https://github.com/codemayq/chinese_chatbot_corpus) |[link](https://pan.baidu.com/s/1l_QBZGmKZmXqfdWYNNw6GQ)| f3vs | 数据集包含豆瓣、电视剧对白、贴吧、微博、小黄鸡、青云等对话语料 | | ||
[中文谣言语料](https://github.com/thunlp/Chinese_Rumor_Dataset) |[link](https://pan.baidu.com/s/1TBzAddbeJqOTfcvQ2HMYaQ)| w9wj | 数据集包含从2009年9月4日至2017年6月12日的31669条谣言,json格式 | | ||
[百度信息抽取比赛](http://lic2019.ccf.org.cn/kg)|[link](https://pan.baidu.com/s/1Gy57a0fSBnPYL4OdHp2BYw)| z9hm | 数据集共包含 50个已定义好的schema和超过21万中文句子,其中包括17万训练集,2万验证集和2万测试集 | | ||
[百度机器阅读理解比赛](http://lic2019.ccf.org.cn/read)|[link](https://pan.baidu.com/s/1GhJi1KFwNTfVqYvz_hFDJg )| 4g1b | 包含约28万问题,其中包括27万训练集,约3000开发集和7000测试集 | | ||
[百度知识驱动对话比赛](http://lic2019.ccf.org.cn/talk)|[link](https://pan.baidu.com/s/1isoc8EpVKwkxBeDBcnvvqA)| 47i2 | 约十几万轮对话,每个session包括对话目标、相关知识信息和对话内容| | ||
[百度机器阅读理解比赛](http://lic2019.ccf.org.cn/read)|[link](https://pan.baidu.com/s/1GhJi1KFwNTfVqYvz_hFDJg )| 4g1b | 数据集包含约28万问题,其中包括27万训练集,约3000开发集和7000测试集 | | ||
[百度知识驱动对话比赛](http://lic2019.ccf.org.cn/talk)|[link](https://pan.baidu.com/s/1isoc8EpVKwkxBeDBcnvvqA)| 47i2 | 数据集约十几万轮对话,每个session包括对话目标、相关知识信息和对话内容| | ||
|
||
## 加入我们 | ||
- 愿景:用人工智能技术服务银行金融生态 | ||
- 团队:开放合作,海龟名校,乐于分享,做有温度的技术,让金融更美好 | ||
- 职位:**自然语言处理算法工程师**、**图像处理算法工程师**、[其他岗位信息](https://mp.weixin.qq.com/s/WBXfLq0su-wkEZ8cvuS8LQ) | ||
- 优秀的应届毕业生+社招 | ||
- 简历投递地址:[email protected] |