diff --git a/README.md b/README.md index 9ba3930..6cfe15a 100644 --- a/README.md +++ b/README.md @@ -44,7 +44,7 @@ XXL-CRAWLER 是一个灵活高效、面向对象的分布式爬虫框架。一 - 10、主动停顿:爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截; - 11、单个页面支持抽取一个或多个PageVO; - 12、代理IP:对抗反采集策略规则WAF; -- 13、动态代理:支持运行时动态调整代理池,甚至自定义代理池路由策略; +- 13、动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略; ## Communication diff --git "a/doc/XXL-CRAWLER\345\256\230\346\226\271\346\226\207\346\241\243.md" "b/doc/XXL-CRAWLER\345\256\230\346\226\271\346\226\207\346\241\243.md" index ff44c01..4d3a8a8 100644 --- "a/doc/XXL-CRAWLER\345\256\230\346\226\271\346\226\207\346\241\243.md" +++ "b/doc/XXL-CRAWLER\345\256\230\346\226\271\346\226\207\346\241\243.md" @@ -22,7 +22,7 @@ XXL-CRAWLER 是一个灵活高效、面向对象的分布式爬虫框架。一 - 10、主动停顿:爬虫线程处理完页面之后进行主动停顿,避免过于频繁被拦截; - 11、单个页面支持抽取一个或多个PageVO; - 12、代理IP:对抗反采集策略规则WAF; -- 13、动态代理:支持运行时动态调整代理池,甚至自定义代理池路由策略; +- 13、动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略; ### 1.4 下载 @@ -198,11 +198,11 @@ ProxyMaker(代理生成器):实现代理支持的组件。支持设置代 - 3、修复PageVO注解失效的问题; - 4、属性注解参数attributeKey调整为selectVal; - 5、代理IP:对抗反采集策略规则WAF; -- 6、动态代理:支持运行时动态调整代理池,甚至自定义代理池路由策略; +- 6、动态代理:支持运行时动态调整代理池,以及自定义代理池路由策略; ### TODO LIST -- 1、爬虫超时重试; -- 2、扩展SelectType,比如HasClass等; +- 1、扩展SelectType; +- 2、失败重试; - 3、动态UserAgent; - 4、js渲染; diff --git a/pom.xml b/pom.xml index f0ce360..1fd81fd 100644 --- a/pom.xml +++ b/pom.xml @@ -5,7 +5,7 @@ 4.0.0 com.xuxueli xxl-crawler - 1.0.1-SNAPSHOT + 1.1.0 jar ${project.artifactId} diff --git a/src/test/java/com/xuxueli/crawler/test/XxlCrawlerTest05.java b/src/test/java/com/xuxueli/crawler/test/XxlCrawlerTest05.java index 6231d4a..3007c53 100644 --- a/src/test/java/com/xuxueli/crawler/test/XxlCrawlerTest05.java +++ b/src/test/java/com/xuxueli/crawler/test/XxlCrawlerTest05.java @@ -98,7 +98,6 @@ public void parse(Document html, PageVo pageVo) { if (proxyPool!=null && proxyPool.size()>0) { for (PageVo pageVo: proxyPool) { try { - // Document html = JsoupUtil.load("http://2017.ip138.com/ic.asp", null, null,