jsoup - 概述


jsoup 是一个基于 Java 的库,用于处理基于 HTML 的内容。它提供了一个非常方便的 API 来提取和操作数据,使用最好的 DOM、CSS 和类似 jquery 的方法。它实现了 WHATWG HTML5 规范,并将 HTML 解析为与现代浏览器相同的 DOM。

jsoup libary 实现 WHATWG HTML5 规范,并将 HTML 内容解析为与现代浏览器相同的 DOM。

jsonp 库提供以下功能。

  • 多重读取支持- 它使用 URL、文件或字符串读取和解析 HTML。

  • CSS 选择器- 它可以使用 DOM 遍历或 CSS 选择器查找和提取数据。

  • DOM 操作- 它可以操作 HTML 元素、属性和文本。

  • 防止 XSS 攻击- 它可以根据给定的安全白名单清理用户提交的内容,以防止 XSS 攻击。

  • Tidy - 它输出整洁的 HTML。

  • 处理无效数据- jsoup 可以处理未封闭的标签、隐式标签,并且可以可靠地创建文档结构。