我试图通过IMPORTXML
一个单元格中的字符串来获取页面上的所有文本。
例如,当打开下面的网站时,我想获取所有在body标签中的东西。
我尝试了以下方法: =transpose(IMPORTXML(A3,"/html/body/text()"))
您可以在下面找到我的示例电子表格,其中包含5个网址:
https://docs.google.com/spreadsheets/d/1LblNn8mGjSr5Tn5R5yZibXXq2w7DaHxDqKwmaD66cAQ/edit?usp=sharing
我的问题是我没有得到任何结果。
有什么建议我做错了吗?
共有3种非常简单的方法(技术上更多,但我们不会迷失方向),变化的唯一不同之处在于最终的格式设置:
1-如果要保留完整格式或有类似的换行符,可以包装函数JOIN
并CHAR(10)
用作定界符,这等效于硬返回或换行符:
=join(char(10),IMPORTXML(A3,"//body"))
2-您可以执行相同的功能,但只能使用空格而不是换行符来连接:
=join(" ",IMPORTXML(A3,"//body"))
3-或者,如果目标实际上是使用最少的空白和换行来保存数据,则可以同时使用级联和regexreplace来替换现有的新行:
=REGEXREPLACE(CONCATENATE(IMPORTXML(A3,"//body")),"\n","")
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句