使用 Java 从网页中抓取信息?
Scrape information from Web Pages with Java?
我正在尝试从网页中提取数据,例如,假设我想从 chess.org 中获取信息。
我知道玩家ID是25022,也就是说我可以请求
http://www.chess.org.il/Players/Player.aspx?Id=25022
在该页面中我可以看到该玩家的 fide ID = 2821109。
由此,我可以请求此页面:
http://ratings.fide.com/card.phtml?event=2821109
从中我可以看出 stdRating=1602。
如何从 Java 中给定的 "localID" 输入获得 "stdRating" 输出?
(localID, fideID, stdRating 是我用来澄清问题的辅助参数)
正如 @Alex R 所指出的,为此您需要一个 Web Scraping 库。
他推荐的 JSoup 非常强大,并且在 Java 中非常常用于此任务,至少根据我的经验。
您首先需要构建一个文档来获取您的页面,例如:
int localID = 25022; //your player's ID.
Document doc = Jsoup.connect("http://www.chess.org.il/Players/Player.aspx?Id=" + localID).get();
从这个 Document 对象中,您可以获取很多信息,例如您请求的 FIDE ID,不幸的是,您 link 创建的网页非常容易抓取,而且您'您基本上需要遍历页面上的每个 link 以找到相关的 link,例如:
Elements fidelinks = doc.select("a[href*=fide.com]");
此 Elements 对象应该为您提供所有 link 的列表 link 到包含文本 fide.com 的任何内容,但您 可能只想要第一个,eg:
Element fideurl = doc.selectFirst("a[href=*=fide.com]");
从那时起,我不想为您编写所有代码,但希望这个答案能作为一个好的起点!
您可以通过调用text()
method on your Element object, but You can also get the link itself by just calling Element.attr('href')
单独获取ID
可用于获取其他值的 css 选择器是
div#main-col table.contentpaneopen tbody tr td table tbody tr td table tbody tr:nth-of-type(4) td table tbody tr td:first-of-type
,这将使您获得标准分数,至少在标准 css 中,因此这也适用于 jsoup。
您可以试试 univocity-html-parser,它非常易于使用并且避免了很多意大利面条代码。
例如,要获得标准评级,您可以使用此代码:
public static void main(String... args) {
UrlReaderProvider url = new UrlReaderProvider("http://ratings.fide.com/card.phtml?event={EVENT}");
url.getRequest().setUrlParameter("EVENT", 2821109);
HtmlElement doc = HtmlParser.parseTree(url);
String rating = doc.query()
.match("small").withText("std.")
.match("br").getFollowingText()
.getValue();
System.out.println(rating);
}
产生值 1602
。
但是通过查询单个节点并尝试将所有部分拼接在一起来获取数据并不容易。
我扩展了代码以说明如何使用解析器将更多信息放入记录中。在这里我为玩家和她的等级详细信息创建了记录,这些记录在第二页的 table 中可用。我用了不到 1 小时就完成了:
public static void main(String... args) {
UrlReaderProvider url = new UrlReaderProvider("http://www.chess.org.il/Players/Player.aspx?Id={PLAYER_ID}");
url.getRequest().setUrlParameter("PLAYER_ID", 25022);
HtmlEntityList entities = new HtmlEntityList();
HtmlEntitySettings player = entities.configureEntity("player");
player.addField("id").match("b").withExactText("מספר שחקן").getFollowingText().transform(s -> s.replaceAll(": ", ""));
player.addField("name").match("h1").followedImmediatelyBy("b").withExactText("מספר שחקן").getText();
player.addField("date_of_birth").match("b").withExactText("תאריך לידה:").getFollowingText();
player.addField("fide_id").matchFirst("a").attribute("href", "http://ratings.fide.com/card.phtml?event=*").getText();
HtmlLinkFollower playerCard = player.addField("fide_card_url").matchFirst("a").attribute("href", "http://ratings.fide.com/card.phtml?event=*").getAttribute("href").followLink();
playerCard.addField("rating_std").match("small").withText("std.").match("br").getFollowingText();
playerCard.addField("rating_rapid").match("small").withExactText("rapid").match("br").getFollowingText();
playerCard.addField("rating_blitz").match("small").withExactText("blitz").match("br").getFollowingText();
playerCard.setNesting(Nesting.REPLACE_JOIN);
HtmlEntitySettings ratings = playerCard.addEntity("ratings");
configureRatingsBetween(ratings, "World Rank", "National Rank ISR", "world");
configureRatingsBetween(ratings, "National Rank ISR", "Continent Rank Europe", "country");
configureRatingsBetween(ratings, "Continent Rank Europe", "Rating Chart", "continent");
Results<HtmlParserResult> results = new HtmlParser(entities).parse(url);
HtmlParserResult playerData = results.get("player");
String[] playerFields = playerData.getHeaders();
for(HtmlRecord playerRecord : playerData.iterateRecords()){
for(int i = 0; i < playerFields.length; i++){
System.out.print(playerFields[i] + ": " + playerRecord.getString(playerFields[i]) +"; ");
}
System.out.println();
HtmlParserResult ratingData = playerRecord.getLinkedEntityData().get("ratings");
for(HtmlRecord ratingRecord : ratingData.iterateRecords()){
System.out.print(" * " + ratingRecord.getString("rank_type") + ": ");
System.out.println(ratingRecord.fillFieldMap(new LinkedHashMap<>(), "all_players", "active_players", "female", "u16", "female_u16"));
}
}
}
private static void configureRatingsBetween(HtmlEntitySettings ratings, String startingHeader, String endingHeader, String rankType) {
Group group = ratings.newGroup()
.startAt("table").match("b").withExactText(startingHeader)
.endAt("b").withExactText(endingHeader);
group.addField("rank_type", rankType);
group.addField("all_players").match("tr").withText("World (all", "National (all", "Rank (all").match("td", 2).getText();
group.addField("active_players").match("tr").followedImmediatelyBy("tr").withText("Female (active players):").match("td", 2).getText();
group.addField("female").match("tr").withText("Female (active players):").match("td", 2).getText();
group.addField("u16").match("tr").withText("U-16 Rank (active players):").match("td", 2).getText();
group.addField("female_u16").match("tr").withText("Female U-16 Rank (active players):").match("td", 2).getText();
}
输出将是:
id: 25022; name: יעל כהן; date_of_birth: 02/02/2003; fide_id: 2821109; rating_std: 1602; rating_rapid: 1422; rating_blitz: 1526;
* world: {all_players=195907, active_players=94013, female=5490, u16=3824, female_u16=586}
* country: {all_players=1595, active_players=1024, female=44, u16=51, female_u16=3}
* continent: {all_players=139963, active_players=71160, female=3757, u16=2582, female_u16=372}
希望对您有所帮助
披露:我是这个图书馆的作者。它是商业闭源,但可以为您节省大量开发时间。
我正在尝试从网页中提取数据,例如,假设我想从 chess.org 中获取信息。
我知道玩家ID是25022,也就是说我可以请求 http://www.chess.org.il/Players/Player.aspx?Id=25022
在该页面中我可以看到该玩家的 fide ID = 2821109。
由此,我可以请求此页面:
http://ratings.fide.com/card.phtml?event=2821109
从中我可以看出 stdRating=1602。
如何从 Java 中给定的 "localID" 输入获得 "stdRating" 输出?
(localID, fideID, stdRating 是我用来澄清问题的辅助参数)
正如 @Alex R 所指出的,为此您需要一个 Web Scraping 库。
他推荐的 JSoup 非常强大,并且在 Java 中非常常用于此任务,至少根据我的经验。
您首先需要构建一个文档来获取您的页面,例如:
int localID = 25022; //your player's ID.
Document doc = Jsoup.connect("http://www.chess.org.il/Players/Player.aspx?Id=" + localID).get();
从这个 Document 对象中,您可以获取很多信息,例如您请求的 FIDE ID,不幸的是,您 link 创建的网页非常容易抓取,而且您'您基本上需要遍历页面上的每个 link 以找到相关的 link,例如:
Elements fidelinks = doc.select("a[href*=fide.com]");
此 Elements 对象应该为您提供所有 link 的列表 link 到包含文本 fide.com 的任何内容,但您 可能只想要第一个,eg:
Element fideurl = doc.selectFirst("a[href=*=fide.com]");
从那时起,我不想为您编写所有代码,但希望这个答案能作为一个好的起点!
您可以通过调用text()
method on your Element object, but You can also get the link itself by just calling Element.attr('href')
可用于获取其他值的 css 选择器是
div#main-col table.contentpaneopen tbody tr td table tbody tr td table tbody tr:nth-of-type(4) td table tbody tr td:first-of-type
,这将使您获得标准分数,至少在标准 css 中,因此这也适用于 jsoup。
您可以试试 univocity-html-parser,它非常易于使用并且避免了很多意大利面条代码。
例如,要获得标准评级,您可以使用此代码:
public static void main(String... args) {
UrlReaderProvider url = new UrlReaderProvider("http://ratings.fide.com/card.phtml?event={EVENT}");
url.getRequest().setUrlParameter("EVENT", 2821109);
HtmlElement doc = HtmlParser.parseTree(url);
String rating = doc.query()
.match("small").withText("std.")
.match("br").getFollowingText()
.getValue();
System.out.println(rating);
}
产生值 1602
。
但是通过查询单个节点并尝试将所有部分拼接在一起来获取数据并不容易。
我扩展了代码以说明如何使用解析器将更多信息放入记录中。在这里我为玩家和她的等级详细信息创建了记录,这些记录在第二页的 table 中可用。我用了不到 1 小时就完成了:
public static void main(String... args) {
UrlReaderProvider url = new UrlReaderProvider("http://www.chess.org.il/Players/Player.aspx?Id={PLAYER_ID}");
url.getRequest().setUrlParameter("PLAYER_ID", 25022);
HtmlEntityList entities = new HtmlEntityList();
HtmlEntitySettings player = entities.configureEntity("player");
player.addField("id").match("b").withExactText("מספר שחקן").getFollowingText().transform(s -> s.replaceAll(": ", ""));
player.addField("name").match("h1").followedImmediatelyBy("b").withExactText("מספר שחקן").getText();
player.addField("date_of_birth").match("b").withExactText("תאריך לידה:").getFollowingText();
player.addField("fide_id").matchFirst("a").attribute("href", "http://ratings.fide.com/card.phtml?event=*").getText();
HtmlLinkFollower playerCard = player.addField("fide_card_url").matchFirst("a").attribute("href", "http://ratings.fide.com/card.phtml?event=*").getAttribute("href").followLink();
playerCard.addField("rating_std").match("small").withText("std.").match("br").getFollowingText();
playerCard.addField("rating_rapid").match("small").withExactText("rapid").match("br").getFollowingText();
playerCard.addField("rating_blitz").match("small").withExactText("blitz").match("br").getFollowingText();
playerCard.setNesting(Nesting.REPLACE_JOIN);
HtmlEntitySettings ratings = playerCard.addEntity("ratings");
configureRatingsBetween(ratings, "World Rank", "National Rank ISR", "world");
configureRatingsBetween(ratings, "National Rank ISR", "Continent Rank Europe", "country");
configureRatingsBetween(ratings, "Continent Rank Europe", "Rating Chart", "continent");
Results<HtmlParserResult> results = new HtmlParser(entities).parse(url);
HtmlParserResult playerData = results.get("player");
String[] playerFields = playerData.getHeaders();
for(HtmlRecord playerRecord : playerData.iterateRecords()){
for(int i = 0; i < playerFields.length; i++){
System.out.print(playerFields[i] + ": " + playerRecord.getString(playerFields[i]) +"; ");
}
System.out.println();
HtmlParserResult ratingData = playerRecord.getLinkedEntityData().get("ratings");
for(HtmlRecord ratingRecord : ratingData.iterateRecords()){
System.out.print(" * " + ratingRecord.getString("rank_type") + ": ");
System.out.println(ratingRecord.fillFieldMap(new LinkedHashMap<>(), "all_players", "active_players", "female", "u16", "female_u16"));
}
}
}
private static void configureRatingsBetween(HtmlEntitySettings ratings, String startingHeader, String endingHeader, String rankType) {
Group group = ratings.newGroup()
.startAt("table").match("b").withExactText(startingHeader)
.endAt("b").withExactText(endingHeader);
group.addField("rank_type", rankType);
group.addField("all_players").match("tr").withText("World (all", "National (all", "Rank (all").match("td", 2).getText();
group.addField("active_players").match("tr").followedImmediatelyBy("tr").withText("Female (active players):").match("td", 2).getText();
group.addField("female").match("tr").withText("Female (active players):").match("td", 2).getText();
group.addField("u16").match("tr").withText("U-16 Rank (active players):").match("td", 2).getText();
group.addField("female_u16").match("tr").withText("Female U-16 Rank (active players):").match("td", 2).getText();
}
输出将是:
id: 25022; name: יעל כהן; date_of_birth: 02/02/2003; fide_id: 2821109; rating_std: 1602; rating_rapid: 1422; rating_blitz: 1526;
* world: {all_players=195907, active_players=94013, female=5490, u16=3824, female_u16=586}
* country: {all_players=1595, active_players=1024, female=44, u16=51, female_u16=3}
* continent: {all_players=139963, active_players=71160, female=3757, u16=2582, female_u16=372}
希望对您有所帮助
披露:我是这个图书馆的作者。它是商业闭源,但可以为您节省大量开发时间。