有什么方法可以使用 XPath 解析此 HTML 代码的值吗？

Question

所以，我试图从这个 HTML 代码中获取一些数据：

<span class="info-icon" data-toggle="popover" data-trigger="hover" title="" data-content="
    Рейтинг: <b>4.55/5</b><br/>

      Относительно остальных произведений: <b>3.58/5</b><br/>

    Всего голосов: <b>62</b>
" data-original-title="Информация о рейтинге">
      <i class="fa fa-info-circle"></i>
    </span>

我试图使用类似这样的方法获取整个文本：

//span[@class='info-icon']/@data-content
//span[@data-content='Рейтинг']
//span/@data-content
//span[@class='info-icon']/@data-content

我想要这样的输出：

4.55/5
3.58/5
62

或者至少像这样：

 Рейтинг: <b>4.55/5</b><br/>

 Относительно остальных произведений: <b>3.58/5</b><br/>

 Всего голосов: <b>62</b>

但我什么也没得到。

P.s。网站 URL 可以是任何漫画：http://readmanga.me/ 例如http://readmanga.me/tower_of_god

Answer 1

以下 xpath 表达式应该可以工作：

tokenize(//span/@data-content,' ')[2]

选择

4.55/5

这个：

substring-before(tokenize(//span/@data-content,'<b>')[3],' ')

选择

3.58/5

还有这个：

tokenize(//span/@data-content,'<b>')[4]

选择：

62

Answer 2

您需要像这样直接抓取源代码：

=ARRAYFORMULA(REGEXREPLACE(REGEXREPLACE(QUERY(ARRAY_CONSTRAIN(IMPORTDATA(
 "http://readmanga.me/tower_of_god"), 2000, 1), 
 "where Col1 matches 'Рейтинг:.*|.*остальных произведений:.*|Всего голосов:.*'", 0), 
 "[А-Яа-я<>br: ]", ), 
 "//$|/$", ))

有什么方法可以使用 XPath 解析此 HTML 代码的值吗？

Is there any way to parse value from this HTML code using XPath?

regex

xpath

google-sheets

array-formulas

google-sheets-formula