Java爬虫框架WebMagiclx-

12 六月

星期五, 12 六月 2020 04:51 Last Updated on 星期五, 12 六月 2020 04:51 0 Comments

WebMagic的架构设计参照了Scrapy，而实现则应用了HttpClient、Jsoup等Java成熟的工具。
Java爬虫框架WebMagiclx-
WebMagic由四个组件(Downloader、PageProcessor、Scheduler、Pipeline)构成:

Downloader : 下载器
PageProcessor: 页面解析器
Scheduler：任务分配、url去重
Pipeline：数据存储、处理

WebMagic数据流转的对象:

Request : 一个Request对应一个URL地址。它是是PageProcessor控制Downloader唯一方式。
Page : 代表了从Downloader下载到的内容
ResultItems : 相当于一个Map，它保存PageProcessor处理的结果，供Pipeline使用。

爬虫引擎–Spider：

Spider是WebMagic内部流程的核心，上面的四个组件都相当于Spider的一个属性，通过设置这个属性可以实现不同的功能。
Spider也是WebMagic操作的入口，它封装了爬虫的创建、启动、停止、多线程等功能

使用 Maven来安装WebMagic

<dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.3</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> </dependency>

Java爬虫框架WebMagiclx-
WebMagic使用slf4j-log4j12作为slf4j的实现.如果你自己定制了slf4j的实现，需要项目中去掉此依赖。

<dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.3</version> <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </exclusion> </exclusions> </dependency>

如果不使用Maven的话，可以去https://webmagic.io中下载最新的jar包，下载之后进行解压，然后在项目中import即可。

开始开发第一个爬虫

项目中添加了WebMagic的依赖之后，即可开始第一个爬虫的开发了！
下面是一个测试，点击main方法，选择“运行”，查看是否正常运行。

package com.example.demo; import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider; import us.codecraft.webmagic.processor.PageProcessor; public class DemoPageGet implements PageProcessor { private Site site = Site.me(); @Override public void process(Page page) {         System.out.println(page.getHtml()); } @Override public Site getSite() { return site; } public static void main(String[] args) {         Spider.create(new DemoPageGet()).addUrl("https://httpbin.org/get").run(); } }

编写基本的爬虫

在WebMagic里，实现一个基本的爬虫只需要编写一个类，实现PageProcessor接口即可。

这部分我们直接通过GithubRepoPageProcessor这个例子来介绍PageProcessor的编写方式。

PageProcessor的定制分为三个部分，分别是爬虫的配置、页面元素的抽取和链接的发现。

public class GithubRepoPageProcessor implements PageProcessor { // 部分一：抓取网站的相关配置，包括编码、抓取间隔、重试次数等 private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override // process是定制爬虫逻辑的核心接口，在这里编写抽取逻辑 public void process(Page page) { // 部分二：定义如何抽取页面信息，并保存下来         page.putField("author", page.getUrl().regex("https://github\.com/(\w+)/.*").toString());         page.putField("name", page.getHtml().xpath("//h1[@class='entry-title public']/strong/a/text()").toString()); if (page.getResultItems().get("name") == null) { //skip this page             page.setSkip(true); }         page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()")); // 部分三：从页面发现后续的url地址来抓取         page.addTargetRequests(page.getHtml().links().regex("(https://github\.com/[\w\-]+/[\w\-]+)").all()); } @Override public Site getSite() { return site; } public static void main(String[] args) {          Spider.create(new GithubRepoPageProcessor()) //从"https://github.com/code4craft"开始抓 .addUrl("https://github.com/code4craft") //开启5个线程抓取 .thread(5) //启动爬虫 .run(); } }

追加请求的链接

先把链接通过正则匹配出来或者拼接出来，比如: page.getHtml().links().regex("").all()
再通过addTargetRequests方法 page.addTargetRequests(url) 则将这些链接加入到待抓取的队列中去。

爬虫的配置

Spider: 爬虫程序的入口，Spider的其他组件（Downloader、Scheduler、Pipeline）都可以通过set方法来进行设置。
Java爬虫框架WebMagiclx-
Site: 对站点本身的一些配置信息，例如编码、HTTP头、超时时间、重试策略等、代理等，都可以通过设置Site对象来进行配置。

配置http代理，在0.7.1版本开始，WebMagic开始使用了新的代理APIProxyProvider，因为相对于Site的“配置”，ProxyProvider定位更多是一个“组件”，所以代理不再从Site设置，而是由HttpClientDownloader设置。

更多内容见官方文档。

页面元素的抽取

WebMagic里主要使用了三种数据抽取技术：

XPath
正则表达式
CSS选择器
另外，对于JSON格式的内容，可使用JsonPath进行解析

使用Pipeline保存结果

WebMagic用于保存结果的组件叫做Pipeline。

例如我们通过“控制台输出结果”这件事也是通过一个内置的Pipeline完成的，它叫做ConsolePipeline。

那么，我现在想要把结果用Json的格式保存下来，怎么做呢？

我只需要将Pipeline的实现换成”JsonFilePipeline”就可以了。

public static void main(String[] args) {     Spider.create(new GithubRepoPageProcessor()) //从"https://github.com/code4craft"开始抓 .addUrl("https://github.com/code4craft") .addPipeline(new JsonFilePipeline("./webmagic")) //开启5个线程抓取 .thread(5) //启动爬虫 .run(); }

模拟POST请求方法

0.7.1版本之后，废弃了老的nameValuePair的写法，采用在Request对象上添加Method和requestBody来实现。

Request request = new Request("https://xxx/path"); request.setMethod(HttpConstant.Method.POST); request.setRequestBody(HttpRequestBody.json("{'id':1}","utf-8"));

HttpRequestBody内置了几种初始化方式，支持最常见的表单提交、json提交等方式。

Java爬虫框架WebMagiclx-

展开阅读全文

2
评论
x
海报

扫一扫，海报
13
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

考古学家lx

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

张伟杰

02-23 Java爬虫框架WebMagiclx- 192

java爬虫框架—WebMagic

什么是网络爬虫从功能上来讲，爬虫一般分为数据采集，处理，储存三个部分。爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。网络爬虫常用的技术底层实现 HttpClient + Jsoup HttpClient 是 Apache Jakarta Common 下的子项目，用来提供高效的、最新的、……

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

Java爬虫框架WebMagiclx-

使用 Maven来安装WebMagic

开始开发第一个爬虫

编写基本的爬虫

追加请求的链接

爬虫的配置

页面元素的抽取

使用Pipeline保存结果

模拟POST请求方法

java爬虫框架—WebMagic

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

Java爬虫框架WebMagiclx-

使用 Maven来安装WebMagic

开始开发第一个爬虫

编写基本的爬虫

追加请求的链接

爬虫的配置

页面元素的抽取

使用Pipeline保存结果

模拟POST请求方法

java爬虫框架—WebMagic

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录