Skip to content

Commit

Permalink
modify readme
Browse files Browse the repository at this point in the history
  • Loading branch information
letiantian committed Dec 1, 2014
1 parent 61a7429 commit 6393b06
Showing 1 changed file with 25 additions and 2 deletions.
27 changes: 25 additions & 2 deletions README.md
Original file line number Diff line number Diff line change
@@ -1,4 +1,4 @@
TextRank4ZH
#TextRank4ZH

-----

Expand All @@ -17,7 +17,7 @@ $ sudo pip install jieba
$ sudo pip install networkx
```

关于模块版本,以下作为参考:
关于库版本,以下作为参考:

```
$ pip show jieba
Expand Down Expand Up @@ -75,6 +75,29 @@ Text的详细原理请参考:

> Mihalcea R, Tarau P. TextRank: Bringing order into texts[C]. Association for Computational Linguistics, 2004.
###关键词提取
将原文本拆分为句子,在每个句子中过滤掉停用词(可选),并只保留指定词性的单词(可选)。由此可以得到句子的集合和单词的集合。

每个单词作为pagerank中的一个节点。设定窗口大小为k,假设一个句子依次由下面的单词组成:
```
w1, w2, w3, w4, w5, ..., wn
```
`w1, w2, ..., wk``w2, w3, ...,wk+1``w3, w4, ...,wk+2`等都是一个窗口。在一个窗口中的任两个单词对应的节点之间存在一个无向无权的边。

基于上面构成图,可以计算出每个单词节点的重要性。最重要的若干单词可以作为关键词。


###关键词组提取
参照[关键词提取](#关键词提取)提取出若干关键词。若原文本中存在若干个关键词相邻的情况,那么这些关键词可以构成一个关键词组。

例如,在一篇介绍`支持向量机`的文章中,可以找到关键词`支持``向量```,通过关键词组提取,可以得到`支持向量机`

###摘要生成
将每个句子看成图中的一个节点,若两个句子之间有相似性,认为对应的两个节点之间有一个无向有权边,权值是相似性。

通过pagerank算法计算得到的重要性最高的若干句子可以当作摘要。





Expand Down

0 comments on commit 6393b06

Please sign in to comment.