GitHub - Melody12ab/word at 148c457952391628484769fc53db9f771849f1f1

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 140 Commits
src		src
.gitignore		.gitignore
LICENSE.txt		LICENSE.txt
README.md		README.md
demo-word-vector-corpus.bat		demo-word-vector-corpus.bat
demo-word-vector-file.bat		demo-word-vector-file.bat
pom.xml		pom.xml

Repository files navigation

Chinese Word Segmentation Component

分词使用方法：

List<Word> words = WordSeg.seg("杨尚川是APDPlat应用级产品开发平台的作者");
System.out.println(words);

输出：
[杨尚川, 是, APDPlat, 应用, 级, 产品开发, 平台, 的, 作者]

Lucene插件：

Analyzer analyzer = new ChineseWordAnalyzer();

TokenStream tokenStream = analyzer.tokenStream("text", "杨尚川是APDPlat应用级产品开发平台的作者");
while(tokenStream.incrementToken()){
	CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class);
	OffsetAttribute offsetAttribute = tokenStream.getAttribute(OffsetAttribute.class);
	System.out.println(charTermAttribute.toString()+" "+offsetAttribute.startOffset());
}

Directory directory = new RAMDirectory();
IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_47, analyzer);
IndexWriter indexWriter = new IndexWriter(directory, config);

QueryParser queryParser = new QueryParser(Version.LUCENE_47, "text", analyzer);
Query query = queryParser.parse("text:杨尚川");
TopDocs docs = indexSearcher.search(query, Integer.MAX_VALUE);

分词算法文章：

1、中文分词算法之基于词典的正向最大匹配算法

2、中文分词算法之基于词典的逆向最大匹配算法

3、中文分词算法之词典机制性能优化与测试

4、中文分词算法之基于词典的正向最小匹配算法

5、中文分词算法之基于词典的逆向最小匹配算法