R语言爬虫实例分析—–以广西人才网为例qq48124465的博客-

05 六月

星期五, 05 六月 2020 03:26 Last Updated on 星期五, 05 六月 2020 03:26 0 Comments

R语言爬虫实例分析—–以广西人才网为例

在生活中，我们常常需要浏览一些网站，并将自己喜欢的数据（ctrl+c）保存下来，可当我们想保存很多数据的时候呢？？我们还需要一个一个的（ctrl+c）保存下来吗？what should I do? 答案当然不是！！so，笔者将在以下的R语言爬取网页的数据中，向你一一诉说！（若有不对，还望python大佬们指正，轻喷，谢谢！）

R语言爬虫实例分析-----以广西人才网为例qq48124465的博客-
知道这些东西之后，我们开始了解网页，复制两三页网址，观察其中的不同（找不同哦）
https://s.gxrc.com/sJob？keyword=%E8%AE%A1%E7%AE%97%E6%9C%BA&schType=1&page=1
https://s.gxrc.com/sJob?keyword=%E8%AE%A1%E7%AE%97%E6%9C%BA&schType=1&page=2
通过观察
R语言爬虫实例分析-----以广西人才网为例qq48124465的博客-
我们发现在page=？就可以找到了不同网页的大致规律啦！
知道了这些东西也还不够哦！
我们再了解一些东西！！！网页节点！（这是重点，记笔记！）
我们打开上面的网址，按下F12键，打开网页控制台
如图
R语言爬虫实例分析-----以广西人才网为例qq48124465的博客-
![在这里插入图片描述](https://img-blog.csdnimg.cn/2020060222410666.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3FxXzQ4MTI0NDY1,size_16,color_FFFFFF,t_70对于小白而言，我们不应该太过于深入，只需知道笔者所说的这几点就可以了！我们以计算机方面的职业为例！
R语言爬虫实例分析-----以广西人才网为例qq48124465的博客-

一般来说 class=“ ” ， “ ”里的东西就是我们想要的节点，加上 . 就是代表所有同样的节点！
因此我们可以通过Rstudio编写以下代码，截取出数据
###加载以下四个包
library(xml2) ### 读取网页的包
library(rvest) ### 爬取网页的包
library(dplyr) ### 数据分析
library(stringr) ### 字符串处理包
web =
read_html(paste0(“https://s.gxrc.com/sJob?keyword=%E8%AE%A1%E7%AE%97%E6%9C%BA&schType=1&page=1”),encoding = “UTF-8”,stringsAsFactors = FALSE)

抓取招聘的岗位名称（posName）

employ_job_name_inf = web %>%
html_nodes(“.posName”) %>%
html_text() ############### %>% 可理解为管道
# 先连接web，再将（）里的节点的内容传送到 html_text中
我们查看employ_job_name_inf 得出：
R语言爬虫实例分析-----以广西人才网为例qq48124465的博客-

基于此，我们可以获取岗位的名称，招聘发布的时间，职位的介绍等等！由于笔者比较懒用手一页一页的导入保存数据，所以笔者编出了以下的for循环，读取数据，并将数据通过write.csv（）保存下来。
##（别忘了加载相关包包哦）
employ_basic_inf = data.frame() ### 建立大量数据框便于后继的数据导入
####读取100页数据
for (i in 1:100) {

导入招聘信息的网址（广西人才网）

web =
read_html(paste0(“https://s.gxrc.com/sJob?keyword=%E8%AE%A1%E7%AE%97%E6%9C%BA&schType=1&page=”,i),encoding = “UTF-8”,stringsAsFactors = FALSE)

(1) 抓取招聘的岗位名称（posName）

employ_job_name_inf = web %>%
html_nodes(“.posName”) %>%
html_text() ############### %>% 可理解为管道

先连接web，再将（）里的节点的内容传送到 html_text中

后继的相关符号也是一样

(2) 抓取招聘岗位的薪水（w3）

employ_salary_inf = web %>%
html_nodes(“.w3”) %>%
html_text()
employ_salary_inf =
str_replace_all(employ_salary_inf,” “,””)
employ_salary_inf<-gsub(“rn”,” “,employ_salary_inf)
employ_salary_inf <- data.frame(employ_salary_inf)
employ_salary_inf=employ_salary_inf[-c(1,2),]
employ_salary_inf = as.character(employ_salary_inf)

(3) 抓取招聘公司的地址（w4）

employ_address_inf = web %>%
html_nodes(“.w4”) %>%
html_text()
employ_address_inf=data.frame(employ_address_inf)
employ_address_inf=employ_address_inf[-c(1,2),]
employ_address_inf = as.character(employ_address_inf)

(4) 抓取招聘岗位要求的学历的相关信息(经验等)（qitaUL）

employ_edu_inf = web %>%
html_nodes(“.qitaUL”) %>%
html_text()
employ_edu_inf =
str_replace_all(employ_edu_inf,” “,””)
employ_edu_inf = gsub(“rn”,” “,employ_edu_inf)

（5）抓取招聘发布的时间（w5）

employ_time_inf = web %>%
html_nodes(“.w5”) %>%
html_text()
employ_time_inf = data.frame(employ_time_inf)
employ_time_inf = employ_time_inf[-c(1:10),]
employ_time_inf = as.character(employ_time_inf)

（5）抓取招聘的岗位描述（posInfo） “.”表示全部的

employ_describe_inf = web %>%
html_nodes(“.posInfo”) %>%
html_text()

删掉大量的空格

employ_describe_inf =
str_replace_all(employ_describe_inf,” “,””)

通过gsub删掉软回车(n)、软空格(r)、制表符(t)

employ_describe_inf <- gsub(“rn”,””,employ_describe_inf)
employ_describe_inf <- gsub(“t”,””,employ_describe_inf)
employ =data.frame(employ_job_name_inf,employ_salary_inf
,employ_address_inf,employ_edu_inf
,employ_time_inf,employ_describe_inf)
employ_basic_inf = rbind(employ_basic_inf,employ)
##print(employ) 打印输出 (可以打印输出，但是比较散)
}
我们查看数据：
R语言爬虫实例分析-----以广西人才网为例qq48124465的博客-
数据保存到csv中：
write.csv(employ_basic_inf,file = “D://Homework//rpython//employ_basic_inf1.csv”)

：由于笔者能力有限，所以对于程序的编写还存在小问题，还望大佬们指正！（觉得笔者写得不错的可以评论区里留言哟！！）

展开阅读全文

10
评论 2
x
海报

扫一扫，海报
4
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

利政赫

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

R语言爬虫实例分析—–以广西人才网为例qq48124465的博客-