如何在文件中的RPi上获取完整的HTML AFTER JavaScript

阿里斯·梅拉奇罗伊诺斯

我有一个RPi 4,我希望通过终端生成一个website.html,它具有网页的完整呈现的html。我想以此来搜索整个页面的字符串或模式等要做到这一点,例如...我可以做到这一点使用类似wgetcurl例如wget -O website.html https://www.example.com上面就是我想要的,但它不支持javascript。

一些网站(例如Google)几乎所有内容都包含在javascript中,因此我无法通过这种方式获得最终的html。

  • 我整天都在寻找可行的解决方案,但发现我需要诸如无头浏览器之类的东西。我已经尝试过类似的方法,PhantomJs但是它们无法正常工作,并且无法再维护。
  • 我已经尝试过,Puppeteer但是只能抓取屏幕截图。不是HTML。我以为page.content()有我想要的东西,但无法获取/将其写入文件。当我console.log编辑它的时候,我也在那里看到了javascript ...如果有人知道如何使用Puppeteer(用最终的html编写文件),那么请告诉我。

难道没有像wgetjavascript这样的“简单”解决方案吗?是否没有简单的工作流程/说明来实现这样的目标?

如果您可以告诉我一些有效的命令来执行此操作,请告诉我。我发现有些工具非常复杂,并且我不熟悉所有的编程语言才能完成这项工作。

任何帮助将不胜感激。

vsemozhebuty

如果安装了Node.js和Puppeteer,则可以使用此简单脚本来获取执行JavaScript的HTML。用作:

node script.js url pagename

出于测试目的,默认url值为'http://example.com/',默认pagename值为'page-timestamp.html'当前目录中。

const fs = require('fs');
const puppeteer = require('puppeteer');

const url = process.argv[2] || 'http://example.com/';
const path = process.argv[3] || `page-${Date.now()}.html`;

(async function main() {
  const browser = await puppeteer.launch();
  const [page] = await browser.pages();

  await page.goto(url, { waitUntil: 'networkidle0' });
  fs.writeFileSync(path, await page.content());

  await browser.close();
})().catch(console.error);

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在javascript中获取页面的完整路径

来自分类Dev

如何在JavaScript中呈现HTML文件?

来自分类Dev

如何在html中包含javascript文件?

来自分类Dev

在javascript中修改伪选择:after

来自分类Dev

如何在javascript中获取HTML5 Canvas.todataurl文件大小?

来自分类Dev

如何在包括 HTTP 的 Javascript 中获取完整的主机名?

来自分类Dev

更改后如何在javascript中获取完整<tr>标签的值?

来自分类Dev

如何在 OOP JavaScript 中的 click 元素上获取“this”

来自分类Dev

如何在Office JavaScript API中获取当前的Excel文件?

来自分类Dev

如何在javascript中获取子文件夹名称

来自分类Dev

如何在javascript中获取文件对象的所有属性?

来自分类Dev

如何在html文件中声明的javascript中调用函数

来自分类Dev

我该如何从PC上存储的文件中获取XML数据并使用javascript填充HTML中的表格?

来自分类Dev

如何在JavaScript中获取HTML标记值(div)

来自分类Dev

如何在javascript中按类名获取html元素

来自分类Dev

如何在javascript中获取HTML元素的值?

来自分类Dev

如何在 JavaScript 和 HTML 中获取当前日期?

来自分类Dev

如何在GWT主机HTML中添加JavaScript文件?

来自分类Dev

如何在html / javascript中包含位于projectfolder之外的文件

来自分类Dev

如何在 html 页面中添加 javascript 文件?

来自分类Dev

如何使用javascript以编程方式修改css :: before和:: after

来自分类Dev

如何在javascript + html中的文件夹中获取所有文件名和子文件夹名?

来自分类Dev

如何在Javascript或CSS中实现完整的背景烟雾效果

来自分类Dev

如何在 JavaScript 中存储对象的完整属性

来自分类Dev

如何在javascript中获取日期选择器值的完整(包括小时,分钟和秒)日期格式

来自分类Dev

如何在 javascript 或 jquery 上插入 html

来自分类Dev

如何从javascript文件中的函数中获取变量,并在单独的文件中用html显示它

来自分类Dev

如何在UIAutomation iOS的javascript中获取文件内容(基本读取)为本地文件

来自分类Dev

如何在Magento 2的javascript文件中获取静态图片文件的url?

Related 相关文章

  1. 1

    如何在javascript中获取页面的完整路径

  2. 2

    如何在JavaScript中呈现HTML文件?

  3. 3

    如何在html中包含javascript文件?

  4. 4

    在javascript中修改伪选择:after

  5. 5

    如何在javascript中获取HTML5 Canvas.todataurl文件大小?

  6. 6

    如何在包括 HTTP 的 Javascript 中获取完整的主机名?

  7. 7

    更改后如何在javascript中获取完整<tr>标签的值?

  8. 8

    如何在 OOP JavaScript 中的 click 元素上获取“this”

  9. 9

    如何在Office JavaScript API中获取当前的Excel文件?

  10. 10

    如何在javascript中获取子文件夹名称

  11. 11

    如何在javascript中获取文件对象的所有属性?

  12. 12

    如何在html文件中声明的javascript中调用函数

  13. 13

    我该如何从PC上存储的文件中获取XML数据并使用javascript填充HTML中的表格?

  14. 14

    如何在JavaScript中获取HTML标记值(div)

  15. 15

    如何在javascript中按类名获取html元素

  16. 16

    如何在javascript中获取HTML元素的值?

  17. 17

    如何在 JavaScript 和 HTML 中获取当前日期?

  18. 18

    如何在GWT主机HTML中添加JavaScript文件?

  19. 19

    如何在html / javascript中包含位于projectfolder之外的文件

  20. 20

    如何在 html 页面中添加 javascript 文件?

  21. 21

    如何使用javascript以编程方式修改css :: before和:: after

  22. 22

    如何在javascript + html中的文件夹中获取所有文件名和子文件夹名?

  23. 23

    如何在Javascript或CSS中实现完整的背景烟雾效果

  24. 24

    如何在 JavaScript 中存储对象的完整属性

  25. 25

    如何在javascript中获取日期选择器值的完整(包括小时,分钟和秒)日期格式

  26. 26

    如何在 javascript 或 jquery 上插入 html

  27. 27

    如何从javascript文件中的函数中获取变量,并在单独的文件中用html显示它

  28. 28

    如何在UIAutomation iOS的javascript中获取文件内容(基本读取)为本地文件

  29. 29

    如何在Magento 2的javascript文件中获取静态图片文件的url?

热门标签

归档