macOS 10.15.
Python 3.7.4, PostgreSQL 11.5, selenium, BeautifulSoup4, psycopg2.
python crawler.py
$crontab -e
添加 * 12 * * * /absolute-path/run_crawler.sh
注意更改sh中的文件路径
crawl.xls, 一个excel表格,存储全部信息。 bl_video: 从postgresql中export的csv文件
有时request库会返回NoneType,怀疑是访问过多ip被限制访问。selenium访问性能受限,过快也会导致连接超时。视频外层分区信息没有加入,只获取了内层分区信息。