fix readme.md

wma1138 · Feb 17, 2022 · 4ec4877 · 4ec4877
1 parent 1fddb9b
commit 4ec4877
Show file tree

Hide file tree

Showing 6 changed files with 54 additions and 30 deletions.
diff --git a/README.md b/README.md
@@ -1,33 +1,33 @@
 # envText
 
-**首款**中文环境领域文本分析工具。
+**首款**中文环境领域文本分析工具。仍然在内测中，敬请期待。
 
 特性：  
-1. 支持中文环境领域大规模预训练模型**envBert**！
+1. :one:支持中文环境领域大规模预训练模型**envBert**！
 
-2. 支持中文环境领域大规模预训练**词向量**!
+2. :two:支持中文环境领域大规模预训练**词向量**!
 
-3. 支持中文环境领域专家过滤的**词表**!
+3. :three:支持中文环境领域专家过滤的**词表**!
 
-4. **一且设计均为领域专家研究服务**：
+4. :four: **一且设计均为领域专家研究服务**：
     - 为神经网络模型精简了接口，只保留了必要的batch_size, learning_rate等参数
     - 进一步优化huggingface transformers输入输出接口，支持20余种数据集格式
     - 一键使用模型，让领域专家精力集中在分析问题上
 
 
 下一步计划：  
-    - [ ] 数据集支持：支持常用**标注工具**数据集  
-        - [ ] 精灵标注助手  
-        - [ ] Doccano  
-        - [ ] universal data annotator
-    - [ ] **专题支持**  
-        - [ ] 无监督实体/短语/固定搭配挖掘  
-        - [ ] 气候变化文本分析工具箱  
-        - [ ] 环境领域实体  
-   - [ ] 更新文档和案例  
+- [ ] 数据集支持：支持常用**标注工具**数据集  
+    - [ ] 精灵标注助手  
+    - [ ] Doccano  
+    - [ ] universal data annotator
+- [ ] **专题支持**  
+    - [ ] 无监督实体/短语/固定搭配挖掘  
+    - [ ] 气候变化文本分析工具箱  
+    - [ ] 环境领域实体  
+- [ ] 更新文档和案例  
 
 
-如果您觉得本项目有用或是有帮助到您，麻烦您点击一下右上角的star :star:。您的支持是我们维护项目的最大动力！
+如果您觉得本项目有用或是有帮助到您，麻烦您点击一下右上角的star :star:。您的支持是我们维护项目的最大动力:metal:！
 
 
 # 使用方法
@@ -50,7 +50,7 @@ pip install envtext -i https://pypi.tuna.tsinghua.edu.cn/simple
 目前支持的模型有：
 
 | 任务名称 | Bert模型 | RNNs模型 | 其他模型 |
-|: ------ :|: ------ :|: ------ :|: ------ :|
+| ------ | ------ | ------ | ------ |
 | 完型填空 | BertMLM  |  ------  |  ------  |
 |  分类   | BertCLS  |  RNNCLS  |  ------  |
 | 情感分析（回归） | BertSA  |  RNNSA  |  ------  |
@@ -70,13 +70,17 @@ RNNs模型包括`LSTM`,`GRU`,`RNN`三种，可以选择使用环境领域预训
 由于bert模型较大，建议从huggingface transformer上预先下载模型权重，
 或者从我们提供的百度网盘链接上下载权重，保存到本地，方便使用。
 
+百度网盘链接：  
+链接：[百度网盘 envBert 模型](https://pan.baidu.com/s/1KNE5JnUoulLgVK9yW5WtAw)
+提取码：lfwm 
+
 ```python
 #导入完形填空模型(masked language model)
 from envtext.models import BertMLM
 model = BertMLM('celtics1863/env-bert-chinese')
 
 #进行预测
-model('[Mask][Mask][Mask][Mask]是各国政府都关心的话题')
+model('[MASK][MASK][MASK][MASK]是各国政府都关心的话题')
 
 
 #导出结果
@@ -85,7 +89,7 @@ model.save_result('result.csv')
 #### 2.2 使用RNN
 
 目前RNN的初始化接口没有完全与Bert同步，后续有同步计划，尽请期待。
-```
+```python
 from envtext.models import RNNCLS
 
 model = RNNCLS()
@@ -101,7 +105,7 @@ model.save_result('result.csv')
 #### 2.3 使用word2vec
 
 envtext自带长度为64的预训练词向量。
-```
+```python
 from envtext.models import load_word2vec
 
 model = load_word2vec()

diff --git a/envtext/__init__.py b/envtext/__init__.py
@@ -12,4 +12,24 @@
     - 为神经网络模型精简了接口，只保留了必要的batch_size, learning_rate等参数
     - 进一步优化huggingface transformers输入输出接口，支持20余种数据集格式
     - 一键使用模型，让领域专家精力集中在分析问题上  
+    
+    
+快速使用：
+
+使用Bert模型
+
+```python
+from envtext.models import BertMLM
+model = BertMLM('celtics1863/env-bert-chinese')
+model('[MASK][MASK][MASK][MASK]是各国政府都关心的话题')
+model.save_result('result.csv')
+```
+
+使用word2vec模型：
+```python
+from envtext.models import load_word2vec
+model = load_word2vec()
+model.most_similar('环境保护')
+```
+
 '''
diff --git a/envtext/examples/train_phrase_mask_bert.py b/envtext/examples/train_phrase_mask_bert.py
@@ -1,5 +1,5 @@
 from transformers import BertForMaskedLM,BertConfig
-from envText.data import DataCollatorForZHWholeWordMask
+from ..data import DataCollatorForZHWholeWordMask
 from transformers import Trainer, TrainingArguments
 import math
 from datasets import Dataset

diff --git a/envtext/files/__init__.py b/envtext/files/__init__.py
@@ -1,8 +1,8 @@
-env_vocab = 'envText/files/env_vocab.jieba.txt'
-onehot_vocab = 'envText/files/onehot_vocab.txt'
-bert_vocab = 'envText/files/bert_vocab.txt'
-word2vec64 = 'envText/files/word2vec64'
-word2vec256 = 'envText/files/word2vec256'
+env_vocab = 'envtext/files/env_vocab.jieba.txt'
+onehot_vocab = 'envtext/files/onehot_vocab.txt'
+bert_vocab = 'envtext/files/bert_vocab.txt'
+word2vec64 = 'envtext/files/word2vec64'
+word2vec256 = 'envtext/files/word2vec256'
 
 
 import os

diff --git a/envtext/utils/__init__.py b/envtext/utils/__init__.py
diff --git a/setup.py b/setup.py
@@ -4,16 +4,16 @@
     long_description = fh.read()
 
 setuptools.setup(
-    name="envText",
+    name="envtext",
     version="0.0.1",
     author="Bi Huaibin",
     author_email="[email protected]",
     description="envText for Chinese texts analysis in Environment domain",
     long_description=long_description,
     long_description_content_type="text/markdown",
-    url="https://github.com/celtics1863/envText",
+    url="https://github.com/celtics1863/envtext",
     project_urls={
-        "Bug Tracker": "https://github.com/celtics1863/envText/issues",
+        "Bug Tracker": "https://github.com/celtics1863/envtext/issues",
     },
     install_requires=[
         'datasets',
@@ -40,7 +40,7 @@
         'Topic :: Scientific/Engineering :: Artificial Intelligence',
     ],
     keywords='NLP,bert,Chinese,LSTM,RNN,domain text analysis',
-    package_dir={"": "envText"},
-    packages=setuptools.find_packages(where="envText"),
+    package_dir={"": "envtext"},
+    packages=setuptools.find_packages(where="envtext"),
     python_requires=">=3.6",
 )