Skip to content

Commit

Permalink
update
Browse files Browse the repository at this point in the history
  • Loading branch information
brightmart committed Feb 17, 2019
1 parent 1fc507c commit 9e5b83e
Showing 1 changed file with 7 additions and 5 deletions.
12 changes: 7 additions & 5 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -11,6 +11,13 @@

Update: 增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型;添加520万翻译语料(translation2019zh)。


#### 1.维基百科(wiki2019zh),100万个词条
#### 2.新闻语料(news2016zh),250万篇新闻,带关键词、描述
#### 3.百科问答(baike2018qa),150万个带问题类型的问答
#### 4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型
#### 5.翻译语料(translation2019zh),520万个中英文句子对

#### 为什么需要这个项目

中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在2019年初这个时点上,
Expand All @@ -24,11 +31,6 @@ Update: 增加高质量社区问答json版(webtext2019zh),可用于训练超
我们这个项目,就是为了解决这一问题贡献微薄之力。


#### 1.维基百科(wiki2019zh),100万个词条
#### 2.新闻语料(news2016zh),250万篇新闻,带关键词、描述
#### 3.百科问答(baike2018qa),150万个带问题类型的问答
#### 4.翻译语料(translation2019zh),410万个高质量社区问答,适合训练超大模型
#### 5.社区问答json版(webtext2019zh),520万个中英文句子对
<br>

1.维基百科json版(wiki2019zh)
Expand Down

0 comments on commit 9e5b83e

Please sign in to comment.