update data: duplicate idioms removal

wgong · Dec 16, 2018 · 8de1001 · 8de1001
1 parent dd68328
commit 8de1001
Show file tree

Hide file tree

Showing 6 changed files with 253,314 additions and 253,202 deletions.
diff --git a/.gitignore b/.gitignore
@@ -1,4 +1,3 @@
-# vscode
 /.vscode
 __pycache__
 error.csv
diff --git a/README.md b/README.md
@@ -16,20 +16,6 @@ chinese-xinhua/
 |  +- xiehouyu.json <-- 歇后语
 |  |
 |  +- ci.json <-- 词语
-|  |
-|  +- ci.csv <-- 词语 (csv 版本)
-|
-+- scripts/ <-- 脚本文件夹
-|  |
-|  +- addAbbreviation.py <-- 给成语添加首字母缩写的脚本
-|  |
-|  +- chengyu.py <-- 下载成语脚本
-|  |
-|  +- word.py <-- 下载汉字脚本
-|  |
-|  +- xiehouyu.py <-- 下载歇后语脚本
-|  |
-|  +- ci.py <-- 下载词语脚本
 ```
 
 ## Database Introduction
@@ -95,6 +81,7 @@ chinese-xinhua/
 
 <details><summary>查看更新日志  </summary> 
 
+- 20181216: 成语数据集去重
 - 20181216: API 功能下线。
 - 20180803: 添加词语数据集
 - 20180206: 添加成语，歇后语，汉字数据集
@@ -104,6 +91,6 @@ chinese-xinhua/
 
 ## Copyright
 
-本仓库的所有的数据都是我从网上收集整理的。仓库本来的目的是因为我以前想做一个成语接龙的东西，但是苦于没有现成可用的数据库，自己就从各个网站抓取整理了一份。放在 Github 是为了方便自己的使用，同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的脚本都在仓库里。
+本仓库的所有的数据都是我从网上收集整理的。仓库本来的目的是因为我以前想做一个成语接龙的东西，但是苦于没有现成可用的数据库，自己就从各个网站抓取整理了一份。放在 Github 是为了方便自己的使用，同时也能方便有类似需求的人不用去做这些 trival 的工作。所有抓取数据的[脚本](./scripts/README.md)都在仓库里。
 
 **本仓库无任何商业目的！如果有侵权行为将及时删除！**