Skip to content

Commit

Permalink
修改readme部分内容
Browse files Browse the repository at this point in the history
  • Loading branch information
gzp9595 committed Sep 29, 2016
1 parent aa1566c commit b0e8af3
Showing 1 changed file with 13 additions and 7 deletions.
20 changes: 13 additions & 7 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -74,7 +74,7 @@ THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与
将训练出来的模型覆盖原来models中的对应模型,之后执行分词程序即可使用训练出来的模型。

###3.获取模型
获取已经训练好的THULAC模型,请登录[thulac.thunlp.org](thulac.thunlp.org)网站填写个人信息进行下载。
获取已经训练好的THULAC模型,请登录[thulac.thunlp.org](http://thulac.thunlp.org)网站填写个人信息进行下载。

##代表分词软件的性能对比
我们选择LTP、ICTCLAS、结巴分词等国内代表分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。
Expand Down Expand Up @@ -113,12 +113,13 @@ CNKI_journal.txt(51 MB)
|THULAC | 42.625s | 1221.05KB/s|

##词性解释
a/形容词 c/连词 d/副词 e/语气词 f/方位词 g/助词
h/前接成分 id/习语 j/简称 k/后接成分 l/处所词
m/数词 mq/数量词 n/名词 ni/机构名 np/人名
ns/地名 nz/其它专名 o/拟声词 p/介词 q/量词
r/代词 t/时间词 u/助词 v/动词 w/标点 x/其它

n/名词 np/人名 ns/地名 ni/机构名 nz/其它专名
m/数词 q/量词 mq/数量词 t/时间词 f/方位词 s/处所词
v/动词 vm/能愿动词 vd/趋向动词 a/形容词 d/副词
h/前接成分 k/后接成分 i/习语 j/简称
r/代词 c/连词 p/介词 u/助词 y/语气助词
e/叹词 o/拟声词 g/语素 w/标点 x/其它

##THULAC模型介绍
1. 我们随THULAC源代码附带了简单的分词模型Model_1,仅支持分词功能。该模型由人民日报分词语料库训练得到。

Expand All @@ -139,10 +140,15 @@ CNKI_journal.txt(51 MB)
###THULAC(Python版)
[https://github.com/thunlp/THULAC-Python](https://github.com/thunlp/THULAC-Python)

###THULAC(so版)
[https://github.com/thunlp/THULAC.so](https://github.com/thunlp/THULAC.so)


##历史

|更新时间 | 更新内容|
|:------------|:-------------:|
|2016-09-29| 增加THULAC分词so版本。|
|2016-03-31| 增加THULAC分词python版本。|
|2016-01-20| 增加THULAC分词Java版本。|
|2016-01-10| 开源THULAC分词工具C++版本。|
Expand Down

0 comments on commit b0e8af3

Please sign in to comment.