Java 中的 HTMLParser

HTMLParser in Java

我正在为 java here 使用 HTML 解析器库。

我有几个问题,由于文档较少,尽管我建议 HTML 解析器比 JSOUP 更快,更容易出错的代码(Jsoup 实际上易于使用,但很容易被你激怒代码:( )

  1. 您如何从 HTML 页面中提取元数据和相关描述 2.How 您可以从 Parsed HTML 文档中专门获取单个标签元素

谢谢!

获取标签"MyTag",也可以搜索标签

Parser parser = new Parser();
parser.setInputHTML(MyHTML);
parser.setEncoding("UTF-8");
NodeList nl = parser.parse(null); 
NodeList node_list= nl.extractAllNodesThatMatch(new TagNameFilter("MyTag"),true);