1.通过 Python,selenium,BeautifulSoup 采集 http://www.shangxueba.com/store_2040588_1.html 可供下载的资料地址
2.模拟客户端请求,通过proxy http://www.youdaili.cn/ 突破IP以及下载次数限制
3.在输入验证码页面,手动输入验证码
personalData()函数里面的ids可以随意修改,最终取的时候,会随机取10条数据.
安装需要的扩展库. 使用方法 : python fetch.py proxyIP proxyPort
说明: 按现有计费方式:需要输入1000个验证码才会有1元收入.
ubuntu Phantomjs 1.9 install method http://stackoverflow.com/questions/8778513/how-can-i-setup-run-phantomjs-on-ubuntu
使用 pyvirtualdisplay 隐藏窗口 http://stackoverflow.com/questions/1418082/is-it-possible-to-hide-the-browser-in-selenium-rc sudo apt-get install xvfb python-pip sudo pip install pyvirtualdisplay