diff --git a/README.md b/README.md index 6187a81..a073161 100644 --- a/README.md +++ b/README.md @@ -11,6 +11,13 @@ Update: 增加高质量社区问答json版(webtext2019zh),可用于训练超大规模NLP模型;添加520万翻译语料(translation2019zh)。 + +#### 1.维基百科(wiki2019zh),100万个词条 +#### 2.新闻语料(news2016zh),250万篇新闻,带关键词、描述 +#### 3.百科问答(baike2018qa),150万个带问题类型的问答 +#### 4.社区问答json版(webtext2019zh),410万个高质量社区问答,适合训练超大模型 +#### 5.翻译语料(translation2019zh),520万个中英文句子对 + #### 为什么需要这个项目 中文的信息无处不在,但如果想要获得大量的中文语料,却是不太容易,有时甚至非常困难。在2019年初这个时点上, @@ -24,11 +31,6 @@ Update: 增加高质量社区问答json版(webtext2019zh),可用于训练超 我们这个项目,就是为了解决这一问题贡献微薄之力。 -#### 1.维基百科(wiki2019zh),100万个词条 -#### 2.新闻语料(news2016zh),250万篇新闻,带关键词、描述 -#### 3.百科问答(baike2018qa),150万个带问题类型的问答 -#### 4.翻译语料(translation2019zh),410万个高质量社区问答,适合训练超大模型 -#### 5.社区问答json版(webtext2019zh),520万个中英文句子对
1.维基百科json版(wiki2019zh)