Skip to content

shihuaxing/corpus

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

4 Commits
 
 
 
 

Repository files navigation

把自己找到的语料和语言资源整理一下,避免以后需要的时候又浪费时间去收集(长期坑位)。

目录:

1. 中文语料

1.1 生语料

1.1.1 人民日报新闻数据

包含1946年-2003年人民日报全部数据以及文革网(2005-2008)全部图文数据库。原始发布地址不详,只找到转载的页面,作者邮箱应该是 [email protected] ,联系过,没收到回复。原始数据是图文数据库,我将其转存百度网盘,然后单独整理了一个sql文件方便使用和查询。大多数情况下,只需要考虑文本内容,我写了一个脚本rmrb.py将所有新闻导出到txt文件中,方便使用。新闻一共有137万多条。


1.2 结构化数据

1.2.1 中国古代人物传记数据库(CBDB)

中国历代人物传记数据库(The China Biographical Database, CBDB)是一个线上关系型数据库,其远期目标在于系统性地收入中国历史上所有重要的传记资料,其内容无限制地、免费地提供学术研究。截止2018年9月为止,该数据库一共收录了422,600人的传记资料,这些人主要出自七世纪至十九世纪,该数据库目前致力于增录更多的唐代和明清的人物传记资料。

CBDB的数据是用access和sqlite两种数据库进行存储,我转了一个mysql的版本,表格和字段的具体说明请参考官网。由于数据是不断更新的,需要最新数据的请到官网下载。脚本cbdb.py是将sqlite中的数据导入mysql中,如果数据库表格发生改变,可能需要更新一下脚本。

1.3 文本分类数据集

1.3.1 2017知乎看山杯数据

该数据集用于评测多标签文本分类(multi-label classification),任务请参考比赛官网,数据集格式参考本项目zhihu_detail.txt文件。由于数据是经过脱敏处理,不包含真实文字,可能使用场景有限,比较适合多标签分类任务的练习和模型验证。

  • ieee_zhihu_cup.des3:为Linux/Mac下的压缩文件,数据集解压命令,dd if=ieee_zhihu_cup.des3 |openssl des3 -d -k Pg5EnkJP7iYyRBt5|tar zxf -
  • ieee_zhihu_cup.rar:为windows下的rar格式压缩文件(官网取消了文件分享,我只保留了Linux压缩包,有知道的朋友可以说一下,我加进来)。

1.3.2 SMP2017中文人机对话评测数据

包含了两个任务的数据集:用户意图领域分类,特定域任务型人机对话在线评测。第一个数据集用得比较多。用户意图领域分类包含闲聊类、任务垂直类共三十一个类别,属于短文本分类的一个范畴。


1.4 序列标注数据集(分词、命名实体识别、词性标注等)

1.4.1 1998年1月-6月人民日报标注语料

1300W字的新闻标注语料,该语料可用于分词、NER、POS等任务。标记和格式请参考此文章

2. 外语语料

2.1 生语料

2.2 结构化数据

2.3 文本分类数据集

2.4 序列标注数据集(分词、命名实体识别、词性标注等)

3. 语言资源

实验室10年爬过百科,全部数据太大就不放出来了,只抽取一些可能有用的词汇。根据当时百科页面的标签来筛选实体类型(人名、地名),存在一定噪音,酌情使用。

3.1 实体类(人名、地名等)

3.1.1 地名(抽于2010年的百度百科)

95433个地名

3.1.2 人名(抽于2010年的百度百科)

278577个人名

3.1.3 人名(抽于2017年的CBDB)

227266个人名

3.2 词典类

3.2.1 百科词条名(抽于2010年的百度百科)

一千万个词条名

3.2.2 360万中文词库(包含词性和词频)

资源作者为刘邵博,由其综合多本词典整合的一个大词典,词典共有词汇3669216个词汇。词典结构为:词语\t词性\t词频。词频是用ansj分词对270G新闻语料进行分词统计词频获得。

About

自然语言处理语料

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%