用selenium爬取文章，并用4种方法提取数据崔永华的博客-

17 六月

星期三, 17 六月 2020 05:56 Last Updated on 星期三, 17 六月 2020 05:56 0 Comments

为了方便susu学习selenium，下面代码用selenium爬取博客文章的标题和时间，并用selenium自带的解析，etree，bs4，scrapy框架自带的selector等4种方式来解析网页数据；

当然，请求库还可以使用urllib，requests；也可以用aiohttp来实现异步爬取，用Splash实现动态渲染页面的抓取。

# -*- encoding: utf-8 -*- from selenium import webdriver from selenium.webdriver.chrome.options import Options  from lxml import etree from bs4 import BeautifulSoup from scrapy import Selector   def selenium_test(url): # 设置无头浏览器，字符编码，请求头等信息，防止反爬虫检测     chrome_options = Options()     chrome_options.add_argument('--headless')     chrome_options.add_argument('lang=zh_CN.UTF-8')     UserAgent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'     chrome_options.add_argument('User-Agent=' + UserAgent)     browser = webdriver.Chrome(chrome_options=chrome_options)     browser.get(url) print('用4种方式提取标题和时间：') # 解析数据 方式一：用selenium自带的解析     title = browser.find_element_by_xpath('//h1[@class="title-article"]').text     publish_time = browser.find_element_by_xpath('//div[@class="bar-content"]/span[@class="time"]').text     print(' 方式一 用selenium自带的解析: ', title, publish_time) # 解析数据 方式二：用etree     selector = etree.HTML(browser.page_source)     title = selector.xpath('//h1[@class="title-article"]/text()')[0]     publish_time = selector.xpath('//div[@class="bar-content"]/span[@class="time"]/text()')[0] print(' 方式二 用etree解析：', title, publish_time) # 解析数据 方式三：用beautifulsoup     soup = BeautifulSoup(browser.page_source, 'lxml')     title = soup.find('h1', {'class': 'title-article'}).text     publish_title = soup.find('div', {'class': 'bar-content'}).find('span', {'class': 'time'}).text     print(' 方式三：用beautifulsoup解析：', title, publish_title) # 解析数据 方式四：用scrapy框架中的选择器Selector     selector = Selector(text=browser.page_source)     title = selector.xpath('//h1[@class="title-article"]/text()').extract_first()     publish_time = selector.xpath('//div[@class="bar-content"]/span[@class="time"]/text()').extract_first()     article_list = selector.xpath('//div[@class="markdown_views prism-atom-one-dark"]').extract()     article = ''.join(article_list) if len(article_list) > 0 else None print(' 方式四：用scrapy框架中的选择器Selector解析：', title, publish_time) # 可以把博客文章保存到本地，然后用浏览器打开，会发现博客文章和网页上的结构是一样的 # with open('article.html', 'w') as f: #     f.write(article)   selenium_test(url='https://blog.csdn.net/cui_yonghua/article/details/90512943')

执行结果如下图：
用selenium爬取文章，并用4种方法提取数据崔永华的博客-

展开阅读全文

评论
x
海报

扫一扫，海报
1
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

cui_yonghua

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

实践求真知

02-05 用selenium爬取文章，并用4种方法提取数据崔永华的博客- 1900

使用Selenium爬取天猫商品

一点睛并不是所有页面都可以通过分析Ajax来完成抓取。比如，淘宝，它的整个页面数据确实也是通过Ajax获取的，但是这些Ajax接口参数比较复杂，可能会包含加密密钥等，所以如果想自己构造Ajax参数，还是比较困难的。对于这种页面，最方便快捷的抓取方法就是通过Selenium。二需求利用Selenium抓取淘宝商品并用pyquery解析得到商品的图片、名称、价格、购买人数、店铺名称和店……

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

用selenium爬取文章，并用4种方法提取数据崔永华的博客-

使用Selenium爬取天猫商品

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

用selenium爬取文章，并用4种方法提取数据崔永华的博客-

使用Selenium爬取天猫商品

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录