上一篇文章分享了Selenium的爬虫方面的入门内容,本次将要分享的内容是Selenium的实际使用案例。
首先在准备开始爬取内容之前我们要想好爬取什么内容。这次的案例将爬取JD的商品信息(我这算不算间接打广告)
然后我们要确定需要爬取的目标:商品的信息、价格、图片
确定了目标之后我们就可以准备动工了。
在于对应的网站建立连接后。
首先:我们需要获取到包含商品所有信息的页面元素div
其次:我们通过div获取 我们需要爬取的具体信息
最后:对于图片进行针对性的处理
代码展示:
- package com.zhw;
-
- import org.openqa.selenium.By;
- import org.openqa.selenium.WebDriver;
- import org.openqa.selenium.WebElement;
- import org.openqa.selenium.chrome.ChromeDriver;
-
- import java.io.File;
- import java.io.FileOutputStream;
- import java.io.InputStream;
- import java.io.OutputStream;
- import java.net.URL;
- import java.util.List;
- import java.util.UUID;
-
- /**
- * @author louis
- * @create 2022-10-27 14:14
- */
- public class Demo1 {
- publi