基于csdn的文章检索系统设计与实现

从CSDN博客官网获取10万篇左右的文章作为源数据,并存储. 解决方法:

使用开源爬虫架构Scrapy设计专门获取文章内容的爬虫. 爬取信息时需要保存文章URL,标题,内容,作者等字段,分别作为文章的入口和待处理内容. 使用MYSQL存储数据.

分析文章内容,提取关键信息. 解决方法:

使用开源分词库ICTCLAS对文章进行分词和关键词提取. 将分词结果与相关文章以一定的结构存储在MYSQL中.

将提取内容作为索引,开发索引服务,监听请求. 解决方法:

最初拟定使用哈希表索引,索引键使用提取值的MD5压缩值.

当前方案是建立字典树,节省内存而且方便提供推荐功能. 分析数据静态存储于MYSQL中,启动服务时导出数据至内存中. 使用开源库libevent监听http-post请求,以此为基础开发服务. 使用nginx转发http请求.

本系统使用的开源库

Scrapy ICTCLAS2015 boost jsoncpp libevent zlog

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
csdn_analyze		csdn_analyze
csdn_crawl		csdn_crawl
csdn_database		csdn_database
csdn_search		csdn_search
.gitignore		.gitignore
readme.md		readme.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

基于csdn的文章检索系统设计与实现

本系统使用的开源库

About

Releases

Packages

Languages

zhipc/nethin_graduation_project

Folders and files

Latest commit

History

Repository files navigation

基于csdn的文章检索系统设计与实现

本系统使用的开源库

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages