Skip to content
View neufert's full-sized avatar

Block or report neufert

Block user

Prevent this user from interacting with your repositories and sending you notifications. Learn more about blocking users.

You must be logged in to block users.

Please don't include any personal information such as legal names or email addresses. Maximum 100 characters, markdown supported. This note will be visible to only you.
Report abuse

Contact GitHub support about this user’s behavior. Learn more about reporting abuse.

Report abuse
Showing results

This repository provides usage examples for the Python module Newspaper3k.

Python 144 17 Updated Jan 2, 2024

newspaper3k is a news, full-text, and article metadata extraction in Python 3. Advanced docs:

Python 14,254 2,116 Updated Jul 23, 2024

Scrape job websites into a single spreadsheet with no duplicates.

Python 1,922 222 Updated Oct 15, 2024

scrape data data from Google Maps. Extracts data such as the name, address, phone number, website URL, rating, reviews number, latitude and longitude, reviews,email and more for each place

Go 1,052 144 Updated Jan 1, 2025

The objective of this project is to scarp the data from IMDb website and form an analysis that will help data analyst or production company to decide how they are going to proceed with making a new…

Python 19 8 Updated May 8, 2019

Capstone Project for Galvanize - Using web scraping and NLP to analyze why some companies are better employers than others.

Python 20 7 Updated May 24, 2017

有趣的Python爬虫和Python数据分析小项目(Some interesting Python crawlers and data analysis projects)

Jupyter Notebook 4,767 1,618 Updated Jul 6, 2021

Repository of teaching materials, code, and data for my data analysis and machine learning projects.

Jupyter Notebook 6,163 2,061 Updated Jun 21, 2023

Complete-Life-Cycle-of-a-Data-Science-Project

591 247 Updated Jun 7, 2024

该仓库用于记录作者本人参加的各大数据科学竞赛的获奖方案源码以及一些新比赛的原创baseline. 主要涵盖:kaggle, 阿里天池,华为云大赛校园赛,百度aistudio,和鲸社区,datafountain等

Python 1,331 474 Updated Apr 21, 2023

Knowledge-based, Content-based and Collaborative Recommender systems are built on MovieLens dataset with 100,000 movie ratings. These Recommender systems were built using Pandas operations and by f…

Jupyter Notebook 123 22 Updated Sep 2, 2023

MovieLens based recommender system.使用MovieLens数据集训练的电影推荐系统。

Jupyter Notebook 1,257 477 Updated Mar 31, 2019

本系统是我的毕业设计项目,题目为“基于用户画像的电影推荐系统的设计与实现”。主要是以Django作为基础框架,采用MTV模式,数据库使用MongoDB、MySQL和Redis,以从豆瓣平台爬取的电影数据作为基础数据源,主要基于用户的基本信息和使用操作记录等行为信息来开发用户标签,并使用Hadoop、Spark大数据组件进行分析和处理的推荐系统。管理系统使用的是Django自带的管理系统,并使…

Python 598 55 Updated Dec 17, 2024

使用Spark Graphx 分析金庸”射雕三部曲“

Scala 46 11 Updated Nov 5, 2020

kkndme聊房,数据整理自天涯。提供HTML、PDF和Markdown三种形式。

HTML 1,129 287 Updated Jan 16, 2024

移动版二次元 AI 老婆聊天器

C++ 1,252 135 Updated Jun 19, 2023

口红分析器

Vue 42 6 Updated Mar 2, 2023

1000篇通俗易懂且高质量的 LeetCode 解析,动画题解,套路分析,模板分享

Python 145 25 Updated May 11, 2022

全国房价数据爬取+分析

HTML 108 33 Updated Nov 6, 2018

使用pyltp的工具,基于中文依存句法的四大名著人物情节分析系统。分为整体分析和章节分析两大模块,实现了人物篇幅分析,故事发生地分析,主要人物情绪变化分析,人物互动情况分析.

Python 86 34 Updated Sep 3, 2017

📊 成都房协网数据分析,喜欢请点 star!

TypeScript 1,217 220 Updated Mar 25, 2023

Interview = 简历指南 + 算法题 + 八股文 + 源码分析

Jupyter Notebook 8,751 2,180 Updated Oct 20, 2023

工作寻(JobHunter)是一款招聘信息整合的网站,目前固定的模板有拉勾网,中华英才网,前程无忧。工作寻可以在线通过关键字,工作经验,工作地点实时爬取,也可以创建任务爬取定数量的招聘信息用以统计,分析最高薪资,最低薪资,平均薪资等。该项目为本科毕业设计项目。

Java 48 17 Updated Oct 23, 2018

携程/榛果民宿实时评论挖掘软件,包含数据的实时采集/数据清洗/结构化保存/ UGC 数据主题提取/情感分析/后结构化可视化等技术的综合性演示 Demo。基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和 NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。主要克服用户打分和评论不一致,实时对携程和美团在线民宿的满意度进行评测以及对额外数据进行可视化的综合性工具,多维度的对在线 …

Python 70 26 Updated Feb 1, 2021

豆瓣读书的爬虫

Python 2,694 1,305 Updated Apr 8, 2020

豆瓣探索者这个作品是依托豆瓣这个平台制作的一个数据分析系统。本作品使用Python的BeautifulSoup库爬取了电影、图书、音乐这三个方向的数据存入MongoDB的NoSQL数据库,使用Pyecharts库得到了诸如单部电影评分分布的一维数据图、评分与评论数关系的二维数据图甚至于多维数据图,并结合Django框架、前后端分离技术进行展示。 本系统还有搜索功能,可以具体查询某一部电影、音…

JavaScript 79 9 Updated Apr 4, 2021

基于在线民宿 UGC 数据的意见挖掘项目,包含数据挖掘和NLP 相关的处理,负责数据采集、主题抽取、情感分析等任务。目的是克服用户打分和评论不一致,实时对在线民宿的满意度评测,包含在线评论采集和情感可视化分析。搭建了百度地图POI查询入口,可以进行自动化的批量查询 POI 信息的功能;构建了基于在线民宿语料的 LDA 自动主题聚类模型,利用主题中心词能找出对应的主题属性字典;以用户打分作为标…

Python 416 126 Updated Oct 30, 2024

基于计算机视觉的智慧养老系统通过(模拟)多组摄像头实时拍摄到的画面,用计算机视觉技术实时分析老人的情感、是否有人摔倒、是否有人闯入禁止区域、老人是否有和义工互动、分析是否有陌生人出现并追踪陌生人。一旦上述事件发生,该事件会立即插入到数据库中。这些事件数据被实时地更新在报表中,管理人员因此可以迅速做出反应,从而可以提高管理人员的服务水平和管理能力。本系统分为2部分,分别是 Web 用户界面和基…

Python 164 53 Updated Mar 3, 2023

开发 bilibili 网站爬虫,大数据分析研究

Jupyter Notebook 456 76 Updated Jun 30, 2018

大众点评评论文本挖掘,包括点评数据爬取、数据清洗入库、数据分析、评论情感分析等的完整挖掘项目

Jupyter Notebook 771 171 Updated Oct 9, 2018
Next