抓取 Instagram 网络标签帖子
Scrape Instagram Web Hashtag Posts
我正在尝试抓取给定主题标签 (#castles) 的帖子数量并使用 ImportXML 填充 Google Sheet 单元格。
我尝试从 Chrome 复制 Xpath 并将其粘贴到单元格中的 ImportXML 参数,如下所示:
=ImportXML("https://www.instagram.com/explore/tags/castels/", "//*[@id="react-root"]/section/main/header/div[2]/div/div[2]/span/span")
我看到引号有问题所以我也试了:
=ImportXML("https://www.instagram.com/explore/tags/castels/", "//*[@id='react-root']/section/main/header/div[2]/div/div[2]/span/span")
然而,两者都return一个错误。
我做错了什么?
P.S。我知道元标记描述的 Xpath "//meta[@name='description']/@content"
但是我想抓取帖子的确切数量而不是缩写数字。
试试这个 -
function hashCount() {
var url = 'instagram.com/explore/tags/cats/';
var response = UrlFetchApp.fetch(url, {muteHttpExceptions: true}).getContentText();
var regex = /(edge_hashtag_to_media":{"count":)(\d+)(,"page_info":)/gm;
var count = regex.exec(response)[2];
Logger.log(count);
}
演示 -
我添加了 muteHttpExceptions: true
,我在上面的评论中没有添加。希望这有帮助。
我正在尝试抓取给定主题标签 (#castles) 的帖子数量并使用 ImportXML 填充 Google Sheet 单元格。
我尝试从 Chrome 复制 Xpath 并将其粘贴到单元格中的 ImportXML 参数,如下所示:
=ImportXML("https://www.instagram.com/explore/tags/castels/", "//*[@id="react-root"]/section/main/header/div[2]/div/div[2]/span/span")
我看到引号有问题所以我也试了:
=ImportXML("https://www.instagram.com/explore/tags/castels/", "//*[@id='react-root']/section/main/header/div[2]/div/div[2]/span/span")
然而,两者都return一个错误。
我做错了什么?
P.S。我知道元标记描述的 Xpath "//meta[@name='description']/@content"
但是我想抓取帖子的确切数量而不是缩写数字。
试试这个 -
function hashCount() {
var url = 'instagram.com/explore/tags/cats/';
var response = UrlFetchApp.fetch(url, {muteHttpExceptions: true}).getContentText();
var regex = /(edge_hashtag_to_media":{"count":)(\d+)(,"page_info":)/gm;
var count = regex.exec(response)[2];
Logger.log(count);
}
演示 -
我添加了 muteHttpExceptions: true
,我在上面的评论中没有添加。希望这有帮助。