Skip to content

scrapy、pyspider、appium、beautiful soup、selenium、uiautomator2等爬虫技术。漏洞信息、威胁情报、舆情分析、自媒体平台信息、电商平台商品信息等爬虫。

Notifications You must be signed in to change notification settings

zrf-rocket/PracticeSpider

Repository files navigation

ABOUT

【关于我们】

CTO Plus 🥰

Contact

微信公众号
< 微信公众号 >

QQ技术交流群
< QQ技术交流群 >

联系作者
< 联系作者 >

【代码工程系列】

【产品系列】

Spider(爬虫)

scrapy、pyspider、appium、beautiful soup、selenium、uiautomator2等爬虫技术。漏洞信息、威胁情报、舆情分析、自媒体平台信息、电商平台商品信息等爬虫。

目录结构

爬虫技术

IP代理池技术

反爬技术

浏览器采集技术

API或者爬虫获取数据

XML/HTML数据解析和分析

Spider框架和技术

  1. Scrapy

    是Python的一个开源网络爬虫框架,用于抓取互联网上的数据,提取结构性数据而编写的应用框架。

  2. PySpider
    是Python的一个开源功能强大的网络爬虫框架,可轻松编写爬取逻辑,支持分布式爬取,同时提供了web界面管理工具。能在浏览器界面上进行脚本的编写。

  3. Crawley

    • 是Python的一个开源高效爬虫框架,提供了编写爬虫逻辑的API,支持多线程与分布式爬取。
    • 支持关系和非关系数据库,数据可以导出为JSON、XML等。
  4. Portia
    是Scrapy的一个可视化爬虫工具,通过简单地拖拽和点击,即可完成HTML页面模板和数据解析规则的创建,不需要任何编程知识。

  5. Beautiful Soup
    是Python的一个开源库,用于解析HTML/XML等结构化的文本数据,广泛应用于Web爬虫和数据抓取应用中。

  6. Requests
    是Python的一个HTTP库,用于向Web服务器发送HTTP请求并获取响应。

  7. Selenium
    是Python的一个开源自动化测试工具,可用于模拟用户在浏览器上的操作并生成脚本,如点击、输入等,同时支持多种浏览器。

  8. PyQuery
    是Python的一个解析HTML/XML的库,提供了类似jQuery的语法,可快速定位、解析和操作HTML/XML文档,并从中提取数据。

  9. Pyspide
    是Python的一个分布式网络爬虫框架,使用WebSocket进行通信,支持JavaScript渲染页面,同时提供web界面管理工具。

  10. urllib
    是Python的一个标准库,包含了发送HTTP请求、处理HTTP响应等功能。 用于在Web浏览器和服务器之间共享数据。

  11. MechanicalSoup
    是Python的一个库,用于模拟网页的交互操作,自动提交表单、点击按钮等。 自动化Web浏览器和交互式Web程序。它构建在Beautiful Soup之上,提供了自动填充表单和点击按钮等功能。

  12. lxml
    是Python的一个开源库,可用于解析HTML/XML等结构化的文本数据,性能较Beautiful Soup更快,支持XPath表达式。 它可以解析大量数据,并支持XPath和CSS选择器来查找和提取数据。

  13. Grab
    是Python的一个开源网络爬虫框架,提供了类似jQuery的语法,支持多线程和分布式爬取,同时支持cookie、代理等功能。 ,可以支持HTTP和FTP协议,提供了强大的过滤和解析功能。

About

scrapy、pyspider、appium、beautiful soup、selenium、uiautomator2等爬虫技术。漏洞信息、威胁情报、舆情分析、自媒体平台信息、电商平台商品信息等爬虫。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages