【关于我们】
scrapy、pyspider、appium、beautiful soup、selenium、uiautomator2等爬虫技术。漏洞信息、威胁情报、舆情分析、自媒体平台信息、电商平台商品信息等爬虫。
-
spider_framework(爬虫框架和技术)
- pyspider_framework pyspider使用的爬虫脚本
- scrapy_framework scrapy框架使用的爬虫项目
- appium_framework
- beautiful_soup_framework
- selenium__framework
- uiautomator2_framework
-
- 各大自媒体平台模拟登录、破解登录验证码。
- 一键自动发布图文消息、自动化回复。
- 抓取短视频的评论信息、图文的评论。
- 抖音、小红书、B站、视频号。
- 数据趋势统计。
-
libs 开发过程依赖库
-
static 开发过程静态文件
-
是Python的一个开源网络爬虫框架,用于抓取互联网上的数据,提取结构性数据而编写的应用框架。
-
PySpider
是Python的一个开源功能强大的网络爬虫框架,可轻松编写爬取逻辑,支持分布式爬取,同时提供了web界面管理工具。能在浏览器界面上进行脚本的编写。 -
- 是Python的一个开源高效爬虫框架,提供了编写爬虫逻辑的API,支持多线程与分布式爬取。
- 支持关系和非关系数据库,数据可以导出为JSON、XML等。
-
Portia
是Scrapy的一个可视化爬虫工具,通过简单地拖拽和点击,即可完成HTML页面模板和数据解析规则的创建,不需要任何编程知识。 -
Beautiful Soup
是Python的一个开源库,用于解析HTML/XML等结构化的文本数据,广泛应用于Web爬虫和数据抓取应用中。 -
Requests
是Python的一个HTTP库,用于向Web服务器发送HTTP请求并获取响应。 -
Selenium
是Python的一个开源自动化测试工具,可用于模拟用户在浏览器上的操作并生成脚本,如点击、输入等,同时支持多种浏览器。 -
PyQuery
是Python的一个解析HTML/XML的库,提供了类似jQuery的语法,可快速定位、解析和操作HTML/XML文档,并从中提取数据。 -
Pyspide
是Python的一个分布式网络爬虫框架,使用WebSocket进行通信,支持JavaScript渲染页面,同时提供web界面管理工具。 -
urllib
是Python的一个标准库,包含了发送HTTP请求、处理HTTP响应等功能。 用于在Web浏览器和服务器之间共享数据。 -
MechanicalSoup
是Python的一个库,用于模拟网页的交互操作,自动提交表单、点击按钮等。 自动化Web浏览器和交互式Web程序。它构建在Beautiful Soup之上,提供了自动填充表单和点击按钮等功能。 -
lxml
是Python的一个开源库,可用于解析HTML/XML等结构化的文本数据,性能较Beautiful Soup更快,支持XPath表达式。 它可以解析大量数据,并支持XPath和CSS选择器来查找和提取数据。 -
Grab
是Python的一个开源网络爬虫框架,提供了类似jQuery的语法,支持多线程和分布式爬取,同时支持cookie、代理等功能。 ,可以支持HTTP和FTP协议,提供了强大的过滤和解析功能。