爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫

29 六月

星期一, 29 六月 2020 20:10 Last Updated on 星期一, 29 六月 2020 20:10 0 Comments

简单爬虫

今天深圳的晚上很冷，半夜就睡醒了，出去买点吃的难受的一批

爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫
说好的24小时呢？
开搞开搞

安装第三方库

安装第三方请求库(requests)
pip install requests

请求页面

爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫
请求成功了
存在特殊情况：请求失败
原因八成是网页知道我们是Python过来的不给我们请求。

这里教各路神仙去解决这个User-Agent的尴尬问题：

爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫
嗯…怎么看网页的啊？
啊Sir。来了不要催
（只好打马赛克了）

## 请求网页 import requests headers={ 'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent } response = requests.get('https://www.vmgirls.com/12945.html') print(response.request.headers) print(response.text)

解析网页

需要使用 re库来进行正则匹配
找到我们的图片的位置
爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫
上面注意看匹配内容
然后进行解析（我们不是什么都需要匹配的，只是需要匹配href里面的内容）

## 请求网页 import requests import re  headers = { 'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent } response = requests.get('https://www.vmgirls.com/12945.html')#然后这里就吧上面的headers放进去 #response = requests.get('https://www.vmgirls.com/12945.html',headers=headers) # print(response.request.headers) # print(response.text) html = response.text #解析网页 urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据 print(urls)

保存图片

第一版本：（文件存在在当前的文件夹，没有创建出来分类）

User-Agent：请求对象   AppleWebKit：请求内核  Chrome浏览器 ## 请求网页 import requests import re import time  headers = {     'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent } response = requests.get('https://www.vmgirls.com/12945.html') # print(response.request.headers) # print(response.text) html = response.text #解析网页 urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) print(urls) # 保存图片 for url in urls:     time.sleep(1) #睡眠一秒，别把别人网站查崩了     file_name = url.split('/')[-1]     response = requests.get(url) # 重新请求网站 图片地址就可以直接看了     with open(file_name,'wb') as f: #'wb':二进制 file_name：图片名称         f.write(response.content)

图片就有了…
爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫
有问题?有点…不可能数据啥子的都放这里吧…

现在处理

## 请求网页 import requests import re import time import os  headers = {     'User-Agent':'only老K'# 这里可以随意输入,也可以输入网页上面的User-Agent } response = requests.get('https://www.vmgirls.com/12945.html') # print(response.request.headers) # print(response.text) html = response.text #解析网页 dir_name = re.findall('<h1 class="post-title h3">(.*?)</h1>',html)[-1] #根据网页标题去做我们的文件夹名字 if not os.path.exists(dir_name):     os.mkdir(dir_name) urls = re.findall('<a href="(.*?)" alt=".*?" title=".*?">',html) # (.*?) 意思就是匹配这个数据 # print(urls) # 保存图片 for url in urls:     time.sleep(1)     file_name = url.split('/')[-1]     response = requests.get(url)     with open(dir_name +'/' + file_name,'wb') as f: #'wb':二进制 file_name：图片名称         f.write(response.content)

网络觉得你的爬取速度…

2020.6.22更新一波：Python连接数据库，为后期相关操作做准备
Python连接数据库以及组合拳
更新的再次提交，ImapBox没有通过，小编只好把图片去掉了

展开阅读全文

78
评论 79
x
海报

扫一扫，海报
470
手机看

到微信朋友圈

x

扫一扫，手机阅读
- 打赏
打赏

only老K

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定
关注

从零开始教你学爬虫！python爬虫的基本流程！

06-29

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫

简单爬虫

安装第三方库

请求页面

解析网页

保存图片

从零开始教你学爬虫！python爬虫的基本流程！

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

爬取妹子图片（简单入门）only老K的博客 qq:1025271924-妹纸图爬虫

简单爬虫

安装第三方库

请求页面

解析网页

保存图片

从零开始教你学爬虫！python爬虫的基本流程！

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录