按 div class 名称从新闻文章中提取段落
Extracting Paragraph from a news article by div class name
我正在尝试从 link 中提取新闻文章。
我使用以下代码提取其 class 名称。我很确定特定的 class 存在,但它无法获取内容。相同的代码适用于其他类似网站。
Document document = Jsoup.connect(newsLink).get();
Elements element = document.getElementsByClass("ins_storybody");
story = element.text();
我不确定为什么您的解决方案不起作用,但如果您使用 css 选择器功能,它应该会起作用:
String story = document.select("div.ins_storybody").text();
以下两个都对我有用
Document doc= Jsoup.connect("http://www.ndtv.com/world-news/apple-paid-ceo-tim-cook-10-3-million-in-2015-1263130").get();
Elements element = doc.getElementsByClass("ins_storybody");
String text= element.text();
System.out.println(text);
Document doc = Jsoup.connect("http://www.ndtv.com/world-news/apple-paid-ceo-tim-cook-10-3-million-in-2015-1263130").get();
String text = doc.select("div.ins_storybody").text();
System.out.println(text);
您是否检查过以确保提供了正确的 url?尝试将 'doc' 变量打印到您的控制台,这应该包含网页的内容。
您也可以试试这个 CSS 选择器:
#ins_storybody
示例代码
Document document = Jsoup.connect(newsLink).get();
Element element = document.getElementById("#ins_storybody").first();
if (element==null) {
throw new RuntimeException("Unable to locate story in: " + newsLink);
}
story = element.text();
element
也可以像下面这样检索:
Element element = document.getElementById("ins_storybody");
我正在尝试从 link 中提取新闻文章。 我使用以下代码提取其 class 名称。我很确定特定的 class 存在,但它无法获取内容。相同的代码适用于其他类似网站。
Document document = Jsoup.connect(newsLink).get();
Elements element = document.getElementsByClass("ins_storybody");
story = element.text();
我不确定为什么您的解决方案不起作用,但如果您使用 css 选择器功能,它应该会起作用:
String story = document.select("div.ins_storybody").text();
以下两个都对我有用
Document doc= Jsoup.connect("http://www.ndtv.com/world-news/apple-paid-ceo-tim-cook-10-3-million-in-2015-1263130").get();
Elements element = doc.getElementsByClass("ins_storybody");
String text= element.text();
System.out.println(text);
Document doc = Jsoup.connect("http://www.ndtv.com/world-news/apple-paid-ceo-tim-cook-10-3-million-in-2015-1263130").get();
String text = doc.select("div.ins_storybody").text();
System.out.println(text);
您是否检查过以确保提供了正确的 url?尝试将 'doc' 变量打印到您的控制台,这应该包含网页的内容。
您也可以试试这个 CSS 选择器:
#ins_storybody
示例代码
Document document = Jsoup.connect(newsLink).get();
Element element = document.getElementById("#ins_storybody").first();
if (element==null) {
throw new RuntimeException("Unable to locate story in: " + newsLink);
}
story = element.text();
element
也可以像下面这样检索:
Element element = document.getElementById("ins_storybody");