Skip to content

Commit

Permalink
update readme.md
Browse files Browse the repository at this point in the history
  • Loading branch information
fighting41love committed May 27, 2019
1 parent ec8a14e commit 5ae14fd
Showing 1 changed file with 15 additions and 7 deletions.
22 changes: 15 additions & 7 deletions readme.md
Original file line number Diff line number Diff line change
@@ -1,11 +1,19 @@
# SPDB_NLP_CP stands for NLP Corpus Plan. It builds a Chinese NLP corpus bank.
## SPDB_NLP_CP stands for NLP Corpus Plan.
## It builds a Chinese NLP corpus bank.

语料名称 | 网盘链接 | 提取码 | 备注 |
:-: | :-: | :-: | :-: |
百度对话语料 | [link](https://pan.baidu.com/s/1a2Rtp6MYlEGadek8rDhJ0g) | qnn3 | 百度利用百度知道和其他资源,构建了一个这样的一个数据集,4万多个问答对|
人民日报语料 | [link](https://pan.baidu.com/s/1DijAYtd7mLtnPzkbtClBDw)| m2nx | 该语料库对600多万字节的中文文章进行了分词及词性标注|
[中文聊语料](https://github.com/codemayq/chinese_chatbot_corpus) |[link](https://pan.baidu.com/s/1l_QBZGmKZmXqfdWYNNw6GQ)| f3vs | 豆瓣、电视剧对白、贴吧、微博、小黄鸡、青云等 |
[中文谣言语料](https://github.com/thunlp/Chinese_Rumor_Dataset) |[link](https://pan.baidu.com/s/1TBzAddbeJqOTfcvQ2HMYaQ)| w9wj | 从2009年9月4日至2017年6月12日的31669条谣言,json格式 |
百度对话语料 | [link](https://pan.baidu.com/s/1a2Rtp6MYlEGadek8rDhJ0g) | qnn3 | 数据集包含百度知道和其他资源,构建了一个这样的一个数据集,4万多个问答对|
人民日报语料 | [link](https://pan.baidu.com/s/1DijAYtd7mLtnPzkbtClBDw)| m2nx | 数据集包含600多万字节的中文文章进行了分词及词性标注|
[中文聊语料](https://github.com/codemayq/chinese_chatbot_corpus) |[link](https://pan.baidu.com/s/1l_QBZGmKZmXqfdWYNNw6GQ)| f3vs | 数据集包含豆瓣、电视剧对白、贴吧、微博、小黄鸡、青云等对话语料 |
[中文谣言语料](https://github.com/thunlp/Chinese_Rumor_Dataset) |[link](https://pan.baidu.com/s/1TBzAddbeJqOTfcvQ2HMYaQ)| w9wj | 数据集包含从2009年9月4日至2017年6月12日的31669条谣言,json格式 |
[百度信息抽取比赛](http://lic2019.ccf.org.cn/kg)|[link](https://pan.baidu.com/s/1Gy57a0fSBnPYL4OdHp2BYw)| z9hm | 数据集共包含 50个已定义好的schema和超过21万中文句子,其中包括17万训练集,2万验证集和2万测试集 |
[百度机器阅读理解比赛](http://lic2019.ccf.org.cn/read)|[link](https://pan.baidu.com/s/1GhJi1KFwNTfVqYvz_hFDJg )| 4g1b | 包含约28万问题,其中包括27万训练集,约3000开发集和7000测试集 |
[百度知识驱动对话比赛](http://lic2019.ccf.org.cn/talk)|[link](https://pan.baidu.com/s/1isoc8EpVKwkxBeDBcnvvqA)| 47i2 | 约十几万轮对话,每个session包括对话目标、相关知识信息和对话内容|
[百度机器阅读理解比赛](http://lic2019.ccf.org.cn/read)|[link](https://pan.baidu.com/s/1GhJi1KFwNTfVqYvz_hFDJg )| 4g1b | 数据集包含约28万问题,其中包括27万训练集,约3000开发集和7000测试集 |
[百度知识驱动对话比赛](http://lic2019.ccf.org.cn/talk)|[link](https://pan.baidu.com/s/1isoc8EpVKwkxBeDBcnvvqA)| 47i2 | 数据集约十几万轮对话,每个session包括对话目标、相关知识信息和对话内容|

## 加入我们
- 愿景:用人工智能技术服务银行金融生态
- 团队:开放合作,海龟名校,乐于分享,做有温度的技术,让金融更美好
- 职位:**自然语言处理算法工程师****图像处理算法工程师**[其他岗位信息](https://mp.weixin.qq.com/s/WBXfLq0su-wkEZ8cvuS8LQ)
- 优秀的应届毕业生+社招
- 简历投递地址:[email protected]

0 comments on commit 5ae14fd

Please sign in to comment.