将正文中的文本作为一个单元格中的字符串获取
Getting text in body as string in one cell
我正在尝试通过 IMPORTXML
获取页面上的所有文本作为一个单元格中的字符串。
例如打开下面的website我想获取body标签中的所有内容
我尝试了以下方法:=transpose(IMPORTXML(A3,"/html/body/text()"))
您可以在下方找到我的包含 5 个网址的示例电子表格:
https://docs.google.com/spreadsheets/d/1LblNn8mGjSr5Tn5R5yZibXXq2w7DaHxDqKwmaD66cAQ/edit?usp=sharing
我的问题是我没有得到任何结果。
对我做错了什么有什么建议吗?
这似乎有效:
=ArrayFormula( CONCATENATE(IMPORThtml(A3,"table",2) & CHAR(10) ) )
有 3 种非常简单的方法可以做到这一点(技术上更多,但我们不会忘乎所以),变化的唯一区别在于它们最终的格式化方式:
1 - 如果你想保留完整的格式,或者有类似的换行符,你可以将你的函数包装在 JOIN
中并使用 CHAR(10)
作为你的分隔符,这相当于一个硬return 或换行:
=join(char(10),IMPORTXML(A3,"//body"))
2 - 您可以执行相同的功能,但只能使用 space 而不是完整的新行:
=join(" ",IMPORTXML(A3,"//body"))
3- 或者,如果目标实际上只是用尽可能少的额外白色 space 和新行来保存数据,您可以同时使用连接和正则表达式替换现有的新行:
=REGEXREPLACE(CONCATENATE(IMPORTXML(A3,"//body")),"\n","")
我正在尝试通过 IMPORTXML
获取页面上的所有文本作为一个单元格中的字符串。
例如打开下面的website我想获取body标签中的所有内容
我尝试了以下方法:=transpose(IMPORTXML(A3,"/html/body/text()"))
您可以在下方找到我的包含 5 个网址的示例电子表格:
https://docs.google.com/spreadsheets/d/1LblNn8mGjSr5Tn5R5yZibXXq2w7DaHxDqKwmaD66cAQ/edit?usp=sharing
我的问题是我没有得到任何结果。
对我做错了什么有什么建议吗?
这似乎有效:
=ArrayFormula( CONCATENATE(IMPORThtml(A3,"table",2) & CHAR(10) ) )
有 3 种非常简单的方法可以做到这一点(技术上更多,但我们不会忘乎所以),变化的唯一区别在于它们最终的格式化方式:
1 - 如果你想保留完整的格式,或者有类似的换行符,你可以将你的函数包装在 JOIN
中并使用 CHAR(10)
作为你的分隔符,这相当于一个硬return 或换行:
=join(char(10),IMPORTXML(A3,"//body"))
2 - 您可以执行相同的功能,但只能使用 space 而不是完整的新行:
=join(" ",IMPORTXML(A3,"//body"))
3- 或者,如果目标实际上只是用尽可能少的额外白色 space 和新行来保存数据,您可以同时使用连接和正则表达式替换现有的新行:
=REGEXREPLACE(CONCATENATE(IMPORTXML(A3,"//body")),"\n","")