GitHub - yangsheng/node-bosszhiping: Node爬虫实战

Node爬虫实战

** 本项目纯属技术探讨，仅供学习和参考，禁止用于非法用途** 如果你是Node初学者，那么看完该篇文章你将能学会以下东西：

node环境的搭建和mysql本地环境的搭建
express项目搭建并使用babel支持ES6语法
�将项目部署到服务器

依赖篇

前言

如遇到不懂或有问题，欢迎大家添加qq群 787275772 进行讨论
本文章后期将持续更新，可以收藏本文章

环境搭建

Node.js 下载，并安装。详情步骤
安装mysql 参考文章
Git 下载，并安装。详细步骤当以上两个环境安装完毕后，打开git。在命令处填写，并按回车;

$ node -v
v10.8.0
$ npm -v
6.2.0

能顺利打印出版本号则表示node安装成功了;

当mysql安装成功后，我们打开shell 输入

mysql -h localhost -u 用户名 -p
Enter password:  输入你数据库设置的密码
进来后 先创建数据库
mysql ->  CREATE Database IF NOT EXISTS boss_zhiping Character Set UTF8;

4. 安装Express

npm install express -g

推荐使用cnpm或yarn安装依赖。安装速度比较快。

使用cnpm: cnpm install express -g

使用yarn: yarn add -global express

待安装完毕后，使用git跳转到存放项目的位置执行

express projectName && cd projectName

注： projectName是你的项目名字，cd是跳转到你的项目名字的根目录下；进入根目录后执行安装依赖命令此处使用yarn安装依赖，可根据自己喜好使用

    yarn install

此时，一个基于express的项目就搭建好了，我们来给他完善一下目录分层结构，git输入命令

mkdir common  // 公共文件夹
mkdir controllers // 控制器
mkdir database // 数据库
mkdir model // 数据库模型

安装babel

为了支持es6 7的最新语法，我们使用了babel做支持，让express也支持使用import export 语法;

首先安装babel的各种插件;

cnpm install --save-dev babel babel-cli babel-core babel-helpers babel-preset-es2015 babel-preset-stage-3 babel-register babel-plugin-transform-async-to-generator babel-plugin-transform-es2015-classes babel-plugin-transform-es2015-modules-commonjs babel-plugin-transform-export-extensions

我们在根目录文件创建.babelrc文件，输入以下配置;

{
  "presets": ["stage-3"],
  "plugins": [
    "transform-async-to-generator",
      "transform-es2015-modules-commonjs",
      "transform-export-extensions"
  ]
}

然后就可以愉快的在express中使用import export 语法了;

分析爬虫所需要用到的依赖插件

superagent superagent是一个请求插件
superagent-proxy superagent的代理插件，配合superagent使用
mysql mysql数据库插件用于数据的增删改查
supervisor 一个非常好用的热更新插件代码更改后自动帮你重启node服务
node-schedule 用于执行定时任务例如定时爬虫更新数据等等
cheerio cheerio用于解析响应头的html结构，爬虫必备插件

我们分别安装他们:

yarn add superagent superagent-proxy mysql cheerio node-schedule supervisor

具体文件结构我已经写好了，大家可以在github上克隆下来点击此处

git clone git@github.com:phonycode/wuss-weapp.git

克隆下来大体的目录结构如下

|----bin
    |---- www  项目的创建服务器端口
|----common    公共文件
    |---- city_data.js    boss直聘的城市数据
    |---- menu_data.js    boss直聘职位数据
|----controllers    控制器
    |---- city.js   城市模块
    |---- index.js    公共模块/继承
    |---- menu.js   职位菜单模块
    |---- offer.js   职位模块
    |---- proxy.js   代理模块
    |---- reptile.js   爬虫
    |---- statistics.js   数据统计模块
    |---- task.js   自动任务
|----database
    |---- mysql.js    mysql数据库配置
|----models
    |---- initialize.js      初始化数据库表模块
|----public
|----routes    路由
|----views    视图
|----.babelrc    babel配置
|----app.js    express入口文件
|----package.json

爬虫原理详解篇

页面分析

首先我们进入boss直聘官网，选择web前端岗位进入，你会发现链接上多了一个参数:

https://www.zhipin.com/c101280100-p100901/

看到没c101280100-p100901 就是他的岗位代码.然后继续点击下一页，我们现在进入第二页，发现url又多了个参数

https://www.zhipin.com/c101280100-p100901/?page=2&ka=page-2

没错，多了个分页信息 ?page=2&ka=page-2 ，然后我们看职位信息。看到没，当前页的所有职位信息他都用一个ul元素吧每个li渲染出来了。

爬虫准备

根据上面的分析，我们知道要去请求一个url访问才能获取到他的职位信息。这时候我们就要用到superagent这个插件了，他可以发起一个请求并获取静态网页数据。

import request from 'superagent';
const baseUrl = 'https://www.zhipin.com/c101280100-p100901/?page=1&ka=page-1';
request.get(baseUrl).end((error, response) => {
    // response.text ... 请求完成获取到的响应数据
});

请求完我们可以看到大概数据是这样的，一个堆字符串数据。

如何去解析这些字符串数据呢？接下来我们就会用到cheerio这个神器，他可以帮助我们解析html，并且可以进行Jquery的一系列操作，例如元素的查询$(element).text()等等,现在我们加上cheerio插件。

import request from 'superagent';
const baseUrl = 'https://www.zhipin.com/c101280100-p100901/?page=1&ka=page-1';
request.get(baseUrl).end((error, response) => {
    // response.text ... 请求完成获取到的响应数据
    if (error) {
        throw Error(error);
    }
    const $ = cheerio.load(response.text, {
        decodeEntities: false
    });
});

有了cheerio我们就可以抓取网页上的数据了,现在我们尝试发起请求，我们遍历li下面的数据

$('.job-box .job-list ul').find('li').each((index,element) => {
    const el = $(jobList[job_index]);
    const salary = el.find('.info-primary .name .job-title').siblings('span').text().split('-'); // 薪资待遇
    const job_info = el.find('.job-primary .info-primary p').html().replace(/<em class="vline"><\/em>/g, '$%').split('$%');
    const job_company = el.find('.job-primary .info-company .company-text p').html().replace(/<em class="vline"><\/em>/g, '$%').split('$%');
    const detail_url = el.find('.job-primary .info-primary .name').find('a').attr('data-jid');
    const offer = {
        jobId: detail_url,
        name: el.find('.info-primary .name .job-title').text(), // 职位名称
        companyName: el.find('.info-company .company-text .name').find('a').text(), // 公司名称
        minSalary: salary[0], // 薪资待遇
        maxSalary: salary[1], // 薪资待遇
        education: job_info[2], // 学历要求
        experience: job_info[1], // 工作经验
        industry: job_company[0], // 行业类型
        financing: job_company[1], // 融资情况
        companySize: job_company[2], // 公司人数
   };
})

上面代码中，我们已经可以拿到当前页的所有职位数据信息了，那如何抓取全部分页的职位数据呢？可以使用递归来进行下一页的抓取，直到抓到最后一页为止。

import request from 'superagent';
let pageIndex = 1;
const recursive = async () => {
  const baseUrl = `https://www.zhipin.com/c101280100-p100901/?page=${pageIndex}&ka=page-${pageIndex}`;
  request.get(baseUrl).end((error, response) => {
    // response.text ... 请求完成获取到的响应数据
    if (error) {
      throw Error(error);
    }
    const $ = cheerio.load(response.text, {
      decodeEntities: false
    });
    $('.job-box .job-list ul').find('li').each((index, element) => {
      const el = $(jobList[job_index]);
      const salary = el.find('.info-primary .name .job-title').siblings('span').text().split('-'); // 薪资待遇
      const job_info = el.find('.job-primary .info-primary p').html().replace(/<em class="vline"><\/em>/g, '$%').split('$%');
      const job_company = el.find('.job-primary .info-company .company-text p').html().replace(/<em class="vline"><\/em>/g, '$%').split('$%');
      const detail_url = el.find('.job-primary .info-primary .name').find('a').attr('data-jid');
      const offer = {
        jobId: detail_url,
        name: el.find('.info-primary .name .job-title').text(), // 职位名称
        companyName: el.find('.info-company .company-text .name').find('a').text(), // 公司名称
        minSalary: salary[0], // 薪资待遇
        maxSalary: salary[1], // 薪资待遇
        education: job_info[2], // 学历要求
        experience: job_info[1], // 工作经验
        industry: job_company[0], // 行业类型
        financing: job_company[1], // 融资情况
        companySize: job_company[2], // 公司人数
      };
    })
  })
}
recursive();

当每次请求完成后让pageindex +1 最后每次请求后判断分页

!$('.home-inner .page').find('.next').hasClass('disabled')

是否为disabled状态 disabled状态说明已经没有下一页了。则停止抓取。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Node爬虫实战

依赖篇

前言

环境搭建

4. 安装Express

安装babel

分析爬虫所需要用到的依赖插件

爬虫原理详解篇

页面分析

爬虫准备

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
bin		bin
common		common
controllers		controllers
models		models
public/stylesheets		public/stylesheets
routes		routes
views		views
.babelrc		.babelrc
.gitignore		.gitignore
README.md		README.md
app.js		app.js
package.json		package.json

yangsheng/node-bosszhiping

Folders and files

Latest commit

History

Repository files navigation

Node爬虫实战

依赖篇

前言

环境搭建

4. 安装Express

安装babel

分析爬虫所需要用到的依赖插件

爬虫原理详解篇

页面分析

爬虫准备

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages