python项目-爬取妹子图pythonweixin40960364的博客-

21 五月

星期四, 21 五月 2020 14:31 Last Updated on 星期四, 21 五月 2020 14:31 0 Comments

最近在学爬虫，写了一个爬取妹子图片

功能：自动下载妹子图，并自动命名

网址：https://www.netbian.com/meinv/

#!/usr/bin/env python  # -*- coding:utf-8 -*- # 爬取妹子图 # url：https://www.netbian.com/meinv/ # https://www.netbian.com/meinv/index_2.htm import urllib.request import urllib.parse from bs4 import BeautifulSoup import re   def main(): # 输入网址得到服务器返回的数据     allurl() # 解析数据得到图片链接和图片名称 # 保存图片到本地，图名做相应修改 # 图片链接格式 findImg = re.compile(r'src="(.*?)"', re.S) # 图片名称格式 findName = re.compile(r"<b>(.*?)</b>", re.S) def findurl(url): """一个网页的爬取（后面用for爬取所有网页）""" # head伪装     headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) " "Chrome/78.0.3904.108 Safari/537.36"}      req = urllib.request.Request(url=url, headers=headers) # 发送信息的预处理     response = urllib.request.urlopen(req) # 得到整个网页 # 读取网页并解码     html = response.read().decode(encoding='gb18030') # 使用'utf-8'无法解码，换为'gb18030' return html   def allurl(): """循环爬取所有网页""" for i in range(3):         url = "https://www.netbian.com/meinv/index_"+str(i+2)+".htm"         html = findurl(url) # 获取一个网页 # print(html)   # 测试:是否获取到网页 # 解析数据得到图片链接和图片名称         bs = BeautifulSoup(html, "html.parser") # 将网页解析为树形         t_list = bs.select("li>a") # 找到标签li中的所有子标签a，做成列表         t_list = t_list[-17:-1] # print(t_list)     # 测试:当前网页所有妹子图放入列表（每页17个） # 对每个妹子进行正则表达式提取（链接及名称） for item in t_list:             item = str(item) # 正则表达式是对字符串操作，所以先转化为字符串 # 提取图片名             name = re.findall(findName, item) # 提取链接，并下载             img = re.findall(findImg, item)             savejpg(name, img) def imgurl(url): """获取图片链接下载图片""" # head伪装     headers = { 'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) " "Chrome/78.0.3904.108 Safari/537.36"}     req = urllib.request.Request(url=url, headers=headers) # 发送信息的预处理     response = urllib.request.urlopen(req) # 得到图片链接 # 二进制形式读取链接     html = response.read() return html   def savejpg(name, img): """得到名字和链接存储图片""" # print(name, img)  # 测试：输出图名及对应链接     meizi = imgurl(img[0]) # 获取图片链接 with open('D:FishC项目爬取妹子图爬取妹子的结果{0}.jpg'.format(name[0]), 'wb') as f:         f.write(meizi) if __name__ == '__main__': # 主函数     main()

爬取结果：
python项目-爬取妹子图pythonweixin40960364的博客-

展开阅读全文

2
评论
x
海报

扫一扫，海报
2
手机看

到微信朋友圈

x

扫一扫，手机阅读
打赏

打赏

抢钱娃娃

“你的鼓励将是我创作的最大动力”

5C币 10C币 20C币 50C币 100C币 200C币

确定

本页所有内容来自官方网站 https://www.imapbox.com 新闻来源：互联网搜索引擎和新闻站

本网页所有图片由 ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片，下载并得到。

ImageBox 图片批量下载器工具地址: 网页图片批量下载工具-最新版本下载

非凡下载站地址：https://www.crsky.com/soft/35838.html

本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器下载并得到。

ImovieBox网页视频下载器下载地址: ImovieBox网页视频下载器-最新版本下载

本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.

阅读和此文章类似的: 全球云计算

python项目-爬取妹子图pythonweixin40960364的博客-

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

python项目-爬取妹子图pythonweixin40960364的博客-

文章目录

近期文章

官方链接

关于我们

软件产品

事业方向

联系我们

ImapBox Technology Research Group

登录