如何使用 ruby 中的任何 gem 获取在 html 代码中可见的所有文本

How to get all the text that can be visible in html code using any gem in ruby

如果给定的 html 页面使用任何 ruby gem 在浏览器中显示,我需要获取用户可见的所有文本。现在我正在使用 Mechanize 和 Nokogiri 从网站上抓取数据,但我需要用户可见的单词或文本。请说明我可以用来完成此任务的任何 gem 或方法。

你可以用 Nokogiri 来做。

require 'rubygems'
require 'nokogiri'

source = "<div>Manu <span> hi</span></div>"

Nokogiri::HTML(source).text
# => Manu  hi

在换行和空格方面仍然存在一些问题。您只需要自己处理这些问题。