文章目录- 一、准备
- 二、引入依赖
- 三、源代码
一、准备
jsoup是一个用于处理真实世界 HTML 的 Java 库。它使用最好的 HTML5 DOM 方法和 CSS 选择器提供了一个非常方便的 API,用于获取 URL 以及提取和操作数据。
jsoup实现了WHATWG HTML5规范,并将 HTML 解析为与现代浏览器相同的 DOM。
- 从 URL、文件或字符串中抓取和解析HTML;
- 使用 DOM 遍历或 CSS 选择器查找和提取数据;
- 操作HTML 元素、属性和文本;
- 根据安全列表清理用户提交的内容,以防止 XSS 攻击;
- 输出整洁的 HTML。
二、引入依赖
<dependency>
<groupId>org.jsoup</groupId>
<artifactId>jsoup</artifactId>
<version>${latest.version}</version>
</dependency>
三、源代码
public class JsoupTest {
public static void main(String[] args) throws IOException {
// 网址
String url = "https://www.***.com/";
Document doc = Jsoup.connect(url)
.maxBodySize(Integer.MAX_VALUE)
.userAgent("Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36")
.timeout(6000)
.get();
// 获取img标签的内容,读取属性输出
Elements imgs = doc.getElementsByTag("img");
imgs.stream().forEach(s-> {
System.out.println(s.attr("src"));
System.out.println(s.attr("alt"));
});
}
}