- 爬取百度百科中文页面
- 抽取三元组
- 构建中文知识图谱
- python 3.6
- requests:网络请求
- re:url正则匹配
- bs4:网页解析
- pickle:进度保存
- threading:多线程
- neo4j:知识图谱图数据库
- pip install neo4j-driver:neo4j python驱动
spider/html_paser.py第38行为网页存储路径:
path='/data/ruben/data/webpages/'#custom diectory for webpages
ie/extract-para.py第11行为网页存储路径:
pages=glob.glob('/data/ruben/data/webpages/*')
ie/extract-table.py第37行为网页存储路径:
pages=glob.glob('/data/ruben/data/webpages/*')
- spider/ 抓取原始网页
- ie/ 从网页中解析正文,从正文中抽取结构化信息
- kg/ 抽取三元組,存入neo4j数据库
python spider/spider_main.py
python ie/extract-para.py
python ie/extract-table.py
python kg/test_neo4j.py