Skip to content

Commit

Permalink
fix readme.md
Browse files Browse the repository at this point in the history
  • Loading branch information
celtics1863 committed Feb 17, 2022
1 parent 1fddb9b commit 4ec4877
Show file tree
Hide file tree
Showing 6 changed files with 54 additions and 30 deletions.
42 changes: 23 additions & 19 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,33 +1,33 @@
# envText

**首款**中文环境领域文本分析工具。
**首款**中文环境领域文本分析工具。仍然在内测中,敬请期待。

特性:
1. 支持中文环境领域大规模预训练模型**envBert**
1. :one:支持中文环境领域大规模预训练模型**envBert**

2. 支持中文环境领域大规模预训练**词向量**!
2. :two:支持中文环境领域大规模预训练**词向量**!

3. 支持中文环境领域专家过滤的**词表**!
3. :three:支持中文环境领域专家过滤的**词表**!

4. **一且设计均为领域专家研究服务**
4. :four: **一且设计均为领域专家研究服务**
- 为神经网络模型精简了接口,只保留了必要的batch_size, learning_rate等参数
- 进一步优化huggingface transformers输入输出接口,支持20余种数据集格式
- 一键使用模型,让领域专家精力集中在分析问题上


下一步计划:
- [ ] 数据集支持:支持常用**标注工具**数据集
- [ ] 精灵标注助手
- [ ] Doccano
- [ ] universal data annotator
- [ ] **专题支持**
- [ ] 无监督实体/短语/固定搭配挖掘
- [ ] 气候变化文本分析工具箱
- [ ] 环境领域实体
- [ ] 更新文档和案例
- [ ] 数据集支持:支持常用**标注工具**数据集
- [ ] 精灵标注助手
- [ ] Doccano
- [ ] universal data annotator
- [ ] **专题支持**
- [ ] 无监督实体/短语/固定搭配挖掘
- [ ] 气候变化文本分析工具箱
- [ ] 环境领域实体
- [ ] 更新文档和案例


如果您觉得本项目有用或是有帮助到您,麻烦您点击一下右上角的star :star:。您的支持是我们维护项目的最大动力!
如果您觉得本项目有用或是有帮助到您,麻烦您点击一下右上角的star :star:。您的支持是我们维护项目的最大动力:metal:


# 使用方法
Expand All @@ -50,7 +50,7 @@ pip install envtext -i https://pypi.tuna.tsinghua.edu.cn/simple
目前支持的模型有:

| 任务名称 | Bert模型 | RNNs模型 | 其他模型 |
|: ------ :|: ------ :|: ------ :|: ------ :|
| ------ | ------ | ------ | ------ |
| 完型填空 | BertMLM | ------ | ------ |
| 分类 | BertCLS | RNNCLS | ------ |
| 情感分析(回归) | BertSA | RNNSA | ------ |
Expand All @@ -70,13 +70,17 @@ RNNs模型包括`LSTM`,`GRU`,`RNN`三种,可以选择使用环境领域预训
由于bert模型较大,建议从huggingface transformer上预先下载模型权重,
或者从我们提供的百度网盘链接上下载权重,保存到本地,方便使用。

百度网盘链接:
链接:[百度网盘 envBert 模型](https://pan.baidu.com/s/1KNE5JnUoulLgVK9yW5WtAw)
提取码:lfwm

```python
#导入完形填空模型(masked language model)
from envtext.models import BertMLM
model = BertMLM('celtics1863/env-bert-chinese')

#进行预测
model('[Mask][Mask][Mask][Mask]是各国政府都关心的话题')
model('[MASK][MASK][MASK][MASK]是各国政府都关心的话题')


#导出结果
Expand All @@ -85,7 +89,7 @@ model.save_result('result.csv')
#### 2.2 使用RNN

目前RNN的初始化接口没有完全与Bert同步,后续有同步计划,尽请期待。
```
```python
from envtext.models import RNNCLS

model = RNNCLS()
Expand All @@ -101,7 +105,7 @@ model.save_result('result.csv')
#### 2.3 使用word2vec

envtext自带长度为64的预训练词向量。
```
```python
from envtext.models import load_word2vec

model = load_word2vec()
Expand Down
20 changes: 20 additions & 0 deletions envtext/__init__.py
Original file line number Diff line number Diff line change
Expand Up @@ -12,4 +12,24 @@
- 为神经网络模型精简了接口,只保留了必要的batch_size, learning_rate等参数
- 进一步优化huggingface transformers输入输出接口,支持20余种数据集格式
- 一键使用模型,让领域专家精力集中在分析问题上
快速使用:
使用Bert模型
```python
from envtext.models import BertMLM
model = BertMLM('celtics1863/env-bert-chinese')
model('[MASK][MASK][MASK][MASK]是各国政府都关心的话题')
model.save_result('result.csv')
```
使用word2vec模型:
```python
from envtext.models import load_word2vec
model = load_word2vec()
model.most_similar('环境保护')
```
'''
2 changes: 1 addition & 1 deletion envtext/examples/train_phrase_mask_bert.py
Original file line number Diff line number Diff line change
@@ -1,5 +1,5 @@
from transformers import BertForMaskedLM,BertConfig
from envText.data import DataCollatorForZHWholeWordMask
from ..data import DataCollatorForZHWholeWordMask
from transformers import Trainer, TrainingArguments
import math
from datasets import Dataset
Expand Down
10 changes: 5 additions & 5 deletions envtext/files/__init__.py
Original file line number Diff line number Diff line change
@@ -1,8 +1,8 @@
env_vocab = 'envText/files/env_vocab.jieba.txt'
onehot_vocab = 'envText/files/onehot_vocab.txt'
bert_vocab = 'envText/files/bert_vocab.txt'
word2vec64 = 'envText/files/word2vec64'
word2vec256 = 'envText/files/word2vec256'
env_vocab = 'envtext/files/env_vocab.jieba.txt'
onehot_vocab = 'envtext/files/onehot_vocab.txt'
bert_vocab = 'envtext/files/bert_vocab.txt'
word2vec64 = 'envtext/files/word2vec64'
word2vec256 = 'envtext/files/word2vec256'


import os
Expand Down
Empty file added envtext/utils/__init__.py
Empty file.
10 changes: 5 additions & 5 deletions setup.py
Original file line number Diff line number Diff line change
Expand Up @@ -4,16 +4,16 @@
long_description = fh.read()

setuptools.setup(
name="envText",
name="envtext",
version="0.0.1",
author="Bi Huaibin",
author_email="[email protected]",
description="envText for Chinese texts analysis in Environment domain",
long_description=long_description,
long_description_content_type="text/markdown",
url="https://github.com/celtics1863/envText",
url="https://github.com/celtics1863/envtext",
project_urls={
"Bug Tracker": "https://github.com/celtics1863/envText/issues",
"Bug Tracker": "https://github.com/celtics1863/envtext/issues",
},
install_requires=[
'datasets',
Expand All @@ -40,7 +40,7 @@
'Topic :: Scientific/Engineering :: Artificial Intelligence',
],
keywords='NLP,bert,Chinese,LSTM,RNN,domain text analysis',
package_dir={"": "envText"},
packages=setuptools.find_packages(where="envText"),
package_dir={"": "envtext"},
packages=setuptools.find_packages(where="envtext"),
python_requires=">=3.6",
)

0 comments on commit 4ec4877

Please sign in to comment.