主要目的是配合英语学习的透析阅读法使用,什么叫透析阅读法请自行搜索。
程序很短,简单地说,就是:
- 读取一本小说的文本,干掉复数、时态这些东西,得到一本小说的词汇表;
- 和常用高频词库对比,去掉特别高频的词和不常用的词,生成你可能不认识的词表。
生词表生成后可导入欧陆词典一类的app,快速预习一下,可以大幅提升阅读原版书籍时的体验。
用Jupyter Notebook写的,解释和可调参数也都在里面,请点开generator.ipynb阅读使用。 运行前请先安装nltk和textract库。
- txt
- pdf(文字版)
- epub
- doc/docx
- csv
- xls
- xlsx
非txt文件花的时间会久一点,对其他格式的支持不一定好,我没有测试特别多文件。
觉得COCA词库或者Collins词库不符合自己需求的,或者里面认识词太多的,完全可以自行维护自己的生词库。
下载后自行删掉coca或collins词表里自己认识的词;或者自己另外找一个大词库表慢慢删,会让自己用起来越来越顺手!
补充了一个常用30000单词表,从高频到低频,可以删掉前面几千单词,后面一边用一边删。