table 非结构化 html 页面的 jsoup
jsoup for unstructured html page with table
我正在尝试从这个 url 中获取主图像,
这是我到目前为止所做的尝试:
Document doc = null;
try {
doc = Jsoup.connect(url).get();
} catch (IOException e) {
e.printStackTrace();
}
Element table = doc.select("center").get(1);
Elements rows = table.select("table[width=970]");
for (int i = 0; i < rows.size(); i++) {
Element row = rows.get(1);
Elements cols = row.select("table[width=634]");
for (int j = 0; j < cols.size(); j++) {
Element row1 = rows.get(1);
Elements cols1 = row1.select("table[width=600]");
for (int k = 0; k < cols1.size(); k++){
Element row0 = rows.first();
Elements cols0 = row0.select("td");
for (Element image : cols0) {
String image2 = image.absUrl("src").toString();
Log.i("tanja7 ", "pic " + image2);
}
}
}
}
这是非结构化 html 页面(我不知道如何复制 html 代码)
我做错了什么?
您似乎期望内部元素是 JSoup select 方法调用的结果。这是不对的——你得到了匹配 select 或 "search scope" 内的元素,这是由你调用 [=12] 的元素/文档 class 实例给出的=].因此,如果您想获取文档的所有 table 个元素,您可以 doc.select("table")
。这给你的不是行,而是 tables。也许您以前确实理解这一点,但您的变量命名却表明并非如此。
无论如何,这里有一个 selector 有效。它将获取所有 img 元素,这些元素是 table 的(不一定是直接的)子元素,具有属性 width=600
并且在文档的另一个 table 中。
Elements imgEls = doc.select("table table[width=600] img");
System.out.println(imgEls.first().absUrl("src"));
你说 html 没有结构化,所以你可能想检查相关图像是否真的总是按照指定的方式在两个 table 内。
更新:
如果您使用的是移动设备,请确保添加:
doc = Jsoup.connect(url).userAgent("Mozilla").get();
我正在尝试从这个 url 中获取主图像, 这是我到目前为止所做的尝试:
Document doc = null;
try {
doc = Jsoup.connect(url).get();
} catch (IOException e) {
e.printStackTrace();
}
Element table = doc.select("center").get(1);
Elements rows = table.select("table[width=970]");
for (int i = 0; i < rows.size(); i++) {
Element row = rows.get(1);
Elements cols = row.select("table[width=634]");
for (int j = 0; j < cols.size(); j++) {
Element row1 = rows.get(1);
Elements cols1 = row1.select("table[width=600]");
for (int k = 0; k < cols1.size(); k++){
Element row0 = rows.first();
Elements cols0 = row0.select("td");
for (Element image : cols0) {
String image2 = image.absUrl("src").toString();
Log.i("tanja7 ", "pic " + image2);
}
}
}
}
这是非结构化 html 页面(我不知道如何复制 html 代码)
您似乎期望内部元素是 JSoup select 方法调用的结果。这是不对的——你得到了匹配 select 或 "search scope" 内的元素,这是由你调用 [=12] 的元素/文档 class 实例给出的=].因此,如果您想获取文档的所有 table 个元素,您可以 doc.select("table")
。这给你的不是行,而是 tables。也许您以前确实理解这一点,但您的变量命名却表明并非如此。
无论如何,这里有一个 selector 有效。它将获取所有 img 元素,这些元素是 table 的(不一定是直接的)子元素,具有属性 width=600
并且在文档的另一个 table 中。
Elements imgEls = doc.select("table table[width=600] img");
System.out.println(imgEls.first().absUrl("src"));
你说 html 没有结构化,所以你可能想检查相关图像是否真的总是按照指定的方式在两个 table 内。
更新: 如果您使用的是移动设备,请确保添加:
doc = Jsoup.connect(url).userAgent("Mozilla").get();