Skip to content

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断等。

License

Notifications You must be signed in to change notification settings

startgis/nlp-notebook

This branch is 48 commits behind jasoncao11/nlp-notebook:master.

Folders and files

NameName
Last commit message
Last commit date

Latest commit

Apr 3, 2022
b4fa7b4 · Apr 3, 2022
Apr 25, 2021
Nov 12, 2021
Nov 12, 2021
Apr 30, 2021
Apr 30, 2021
Apr 30, 2021
Apr 30, 2021
Apr 30, 2021
Apr 20, 2021
Mar 14, 2022
Mar 14, 2022
Mar 26, 2022
Mar 24, 2022
Mar 12, 2022
Jul 10, 2021
Jun 6, 2021
May 10, 2021
Oct 27, 2021
Oct 4, 2021
Jul 4, 2021
Feb 4, 2022
Mar 21, 2022
Mar 12, 2022
Mar 24, 2022
May 24, 2021
Sep 5, 2021
Apr 3, 2022
Apr 18, 2021
Apr 3, 2022
Apr 18, 2021
Mar 24, 2022

Repository files navigation

项目描述

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、文本生成、句子相似度判断、三元组抽取等。

依赖

python 3.7
pytorch 1.8.0
torchtext 0.9.1
optuna 2.6.0
transformers 3.0.2

目录

0. 新词发现算法

1. 词向量

2. 文本分类 (每个模型内部使用optuna进行调参)

数据集(data文件夹): 二分类舆情数据集,划分如下:

数据集 数据量
训练集 56700
验证集 7000
测试集 6300

3. 实体识别NER

4. 文本摘要生成

1). 生成式

2). 抽取式

5. 句子相似度判别

6. 多标签分类

7. 三元组抽取

该文件夹记录一些paper及其所对应的模型代码:

9. QA

该文件夹内记录机器学习/深度学习一些知识点的简单总结。

10. algo

该文件夹内记录leetcode最热门的100道算法题,部分解题思路搬运自leetcode题解。

About

NLP 领域常见任务的实现,包括新词发现、以及基于pytorch的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断等。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 100.0%