目录 先赞后看,此生必赚! 本篇文章主要讲解如何使用webmagic技术来实现网页的爬取, 以及使用selenium操作页面元素,实现点击、输入事件 添加需要爬取的url 在process里面抓取符合条件的内容 以今日头条为例对页面元素(“关注”按钮)进行点击 设置驱动 初始化driver 进入页面 获取所需元素 点击 更多精彩内容请扫码关注公众号:程序员高手之路 在公众号里回复“爬虫”,免费获取爬虫视频教程!
前言
所用技术
1.webmagic
Spider.create(new MyProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();
public void process(Page page) { //判断链接是否符合https://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式 if(!page.getUrl().regex("https://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){ //加入满足条件的链接 page.addTargetRequests( page.getHtml().xpath("//*[@id="post_list"]/div/div[@class='post_item_body']/h3/a/@href").all()); }else{ ////*[@id="post_list"]/div[5]/div[2]/h3/a //获取页面需要的内容 System.out.println("抓取的内容:"+ page.getHtml().xpath("//*[@id="Header1_HeaderTitle"]/text()").get() ); count ++; } }
2.selenium
System.setProperty("webdriver.chrome.driver", "CHROMEPATH/chromedriver.exe");
WebDriver driver = new ChromeDriver();
driver.get("https://www.toutiao.com/c/user/relation/4492956276/?tab=followed#mid=4492956276");
WebElement submit = li.findElement(By.cssSelector(".submit"));
submit.click();
本网页所有视频内容由 imoviebox边看边下-网页视频下载, iurlBox网页地址收藏管理器 下载并得到。
ImovieBox网页视频下载器 下载地址: ImovieBox网页视频下载器-最新版本下载
本文章由: imapbox邮箱云存储,邮箱网盘,ImageBox 图片批量下载器,网页图片批量下载专家,网页图片批量下载器,获取到文章图片,imoviebox网页视频批量下载器,下载视频内容,为您提供.
阅读和此文章类似的: 全球云计算