Stars
This repository provides usage examples for the Python module Newspaper3k.
newspaper3k is a news, full-text, and article metadata extraction in Python 3. Advanced docs:
Scrape job websites into a single spreadsheet with no duplicates.
scrape data data from Google Maps. Extracts data such as the name, address, phone number, website URL, rating, reviews number, latitude and longitude, reviews,email and more for each place
The objective of this project is to scarp the data from IMDb website and form an analysis that will help data analyst or production company to decide how they are going to proceed with making a new…
Capstone Project for Galvanize - Using web scraping and NLP to analyze why some companies are better employers than others.
有趣的Python爬虫和Python数据分析小项目(Some interesting Python crawlers and data analysis projects)
Repository of teaching materials, code, and data for my data analysis and machine learning projects.
Complete-Life-Cycle-of-a-Data-Science-Project
该仓库用于记录作者本人参加的各大数据科学竞赛的获奖方案源码以及一些新比赛的原创baseline. 主要涵盖:kaggle, 阿里天池,华为云大赛校园赛,百度aistudio,和鲸社区,datafountain等
Knowledge-based, Content-based and Collaborative Recommender systems are built on MovieLens dataset with 100,000 movie ratings. These Recommender systems were built using Pandas operations and by f…
MovieLens based recommender system.使用MovieLens数据集训练的电影推荐系统。
本系统是我的毕业设计项目,题目为“基于用户画像的电影推荐系统的设计与实现”。主要是以Django作为基础框架,采用MTV模式,数据库使用MongoDB、MySQL和Redis,以从豆瓣平台爬取的电影数据作为基础数据源,主要基于用户的基本信息和使用操作记录等行为信息来开发用户标签,并使用Hadoop、Spark大数据组件进行分析和处理的推荐系统。管理系统使用的是Django自带的管理系统,并使…
1000篇通俗易懂且高质量的 LeetCode 解析,动画题解,套路分析,模板分享
使用pyltp的工具,基于中文依存句法的四大名著人物情节分析系统。分为整体分析和章节分析两大模块,实现了人物篇幅分析,故事发生地分析,主要人物情绪变化分析,人物互动情况分析.
Interview = 简历指南 + 算法题 + 八股文 + 源码分析
工作寻(JobHunter)是一款招聘信息整合的网站,目前固定的模板有拉勾网,中华英才网,前程无忧。工作寻可以在线通过关键字,工作经验,工作地点实时爬取,也可以创建任务爬取定数量的招聘信息用以统计,分析最高薪资,最低薪资,平均薪资等。该项目为本科毕业设计项目。
携程/榛果民宿实时评论挖掘软件,包含数据的实时采集/数据清洗/结构化保存/ UGC 数据主题提取/情感分析/后结构化可视化等技术的综合性演示 Demo。基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和 NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线 …
豆瓣探索者这个作品是依托豆瓣这个平台制作的一个数据分析系统。本作品使用Python的BeautifulSoup库爬取了电影、图书、音乐这三个方向的数据存入MongoDB的NoSQL数据库,使用Pyecharts库得到了诸如单部电影评分分布的一维数据图、评分与评论数关系的二维数据图甚至于多维数据图,并结合Django框架、前后端分离技术进行展示。 本系统还有搜索功能,可以具体查询某一部电影、音…
基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。目的是克服用户打分和评论不一致,实时对在线民宿的满意度评测,包含在线评论采集和情感可视化分析。搭建了百度地图POI查询入口,可以进行自动化的批量查询 POI 信息的功能;构建了基于在线民宿语料的 LDA 自动主题聚类模型,利用主题中心词能找出对应的主题属性字典;以用户打分作为标…
基于计算机视觉的智慧养老系统通过(模拟)多组摄像头实时拍摄到的画面,用计算机视觉技术实时分析老人的情感、是否有人摔倒、是否有人闯入禁止区域、老人是否有和义工互动、分析是否有陌生人出现并追踪陌生人。一旦上述事件发生,该事件会立即插入到数据库中。这些事件数据被实时地更新在报表中,管理人员因此可以迅速做出反应,从而可以提高管理人员的服务水平和管理能力。本系统分为2部分,分别是 Web 用户界面和基…
大众点评评论文本挖掘,包括点评数据爬取、数据清洗入库、数据分析、评论情感分析等的完整挖掘项目