有什么方法可以使用 XPath 解析此 HTML 代码的值吗?
Is there any way to parse value from this HTML code using XPath?
所以,我试图从这个 HTML 代码中获取一些数据:
<span class="info-icon" data-toggle="popover" data-trigger="hover" title="" data-content="
Рейтинг: <b>4.55/5</b><br/>
Относительно остальных произведений: <b>3.58/5</b><br/>
Всего голосов: <b>62</b>
" data-original-title="Информация о рейтинге">
<i class="fa fa-info-circle"></i>
</span>
我试图使用类似这样的方法获取整个文本:
//span[@class='info-icon']/@data-content
//span[@data-content='Рейтинг']
//span/@data-content
//span[@class='info-icon']/@data-content
我想要这样的输出:
4.55/5
3.58/5
62
或者至少像这样:
Рейтинг: <b>4.55/5</b><br/>
Относительно остальных произведений: <b>3.58/5</b><br/>
Всего голосов: <b>62</b>
但我什么也没得到。
P.s。网站 URL 可以是任何漫画:http://readmanga.me/
例如http://readmanga.me/tower_of_god
以下 xpath 表达式应该可以工作:
tokenize(//span/@data-content,' ')[2]
选择
4.55/5
这个:
substring-before(tokenize(//span/@data-content,'<b>')[3],' ')
选择
3.58/5
还有这个:
tokenize(//span/@data-content,'<b>')[4]
选择:
62
您需要像这样直接抓取源代码:
=ARRAYFORMULA(REGEXREPLACE(REGEXREPLACE(QUERY(ARRAY_CONSTRAIN(IMPORTDATA(
"http://readmanga.me/tower_of_god"), 2000, 1),
"where Col1 matches 'Рейтинг:.*|.*остальных произведений:.*|Всего голосов:.*'", 0),
"[А-Яа-я<>br: ]", ),
"//$|/$", ))
所以,我试图从这个 HTML 代码中获取一些数据:
<span class="info-icon" data-toggle="popover" data-trigger="hover" title="" data-content="
Рейтинг: <b>4.55/5</b><br/>
Относительно остальных произведений: <b>3.58/5</b><br/>
Всего голосов: <b>62</b>
" data-original-title="Информация о рейтинге">
<i class="fa fa-info-circle"></i>
</span>
我试图使用类似这样的方法获取整个文本:
//span[@class='info-icon']/@data-content
//span[@data-content='Рейтинг']
//span/@data-content
//span[@class='info-icon']/@data-content
我想要这样的输出:
4.55/5
3.58/5
62
或者至少像这样:
Рейтинг: <b>4.55/5</b><br/>
Относительно остальных произведений: <b>3.58/5</b><br/>
Всего голосов: <b>62</b>
但我什么也没得到。
P.s。网站 URL 可以是任何漫画:http://readmanga.me/ 例如http://readmanga.me/tower_of_god
以下 xpath 表达式应该可以工作:
tokenize(//span/@data-content,' ')[2]
选择
4.55/5
这个:
substring-before(tokenize(//span/@data-content,'<b>')[3],' ')
选择
3.58/5
还有这个:
tokenize(//span/@data-content,'<b>')[4]
选择:
62
您需要像这样直接抓取源代码:
=ARRAYFORMULA(REGEXREPLACE(REGEXREPLACE(QUERY(ARRAY_CONSTRAIN(IMPORTDATA(
"http://readmanga.me/tower_of_god"), 2000, 1),
"where Col1 matches 'Рейтинг:.*|.*остальных произведений:.*|Всего голосов:.*'", 0),
"[А-Яа-я<>br: ]", ),
"//$|/$", ))