如何使用Node.js抓取页面

斯图尔特·康洛伊(Stuart Conroy)

我正在尝试抓取网站,但无法将结果写入HTML文件。

我在node.js中使用了cheerio,下面是我的代码。

var http = require('http');
var path = require('path');
var request = require('request');
var cheerio = require('cheerio');

http.createServer(function (req, res) {
    res.write('<html><head></head><body>');
        request('http://www.espn.com', function(err, res, html){
            var $ = cheerio.load(html);

            $('a.realStory').each(function(i, element) {
                var node = $(this);
                var text = node.text();
            res.write('<p>'+ text +'</p>');     
            });
        });

  res.end('</body></html>');
}).listen(1337);

我如何运行此文件,然后转到我的本地主机以查看它?

冰人

基本实施:

var express = require('express'),
    path = require('path'),
    request = require('request'),
    cheerio = require('cheerio'),
    app = express();
app.get('/', function (req, res) {
    request('http://www.espn.com', function (e, r, html) {
        var $ = cheerio.load(html);
        $('a.realStory').each(function (i, element) {
            var node = $(this);
            var text = node.text();
            res.write('<p>' + text + '</p>');
        });
        res.end();
    });
});
app.listen(process.env.PORT || 1337, function () {
    console.log("Server running..");
});

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何抓取此squawka页面?

来自分类Dev

如何使用node.js发布页面

来自分类Dev

如何使用node.js抓取具有动态内容的页面?

来自分类Dev

如何使用BeautifulSoup和Python抓取页面?

来自分类Dev

Python Web抓取-当页面通过JS加载内容时如何获取漂亮的汤料?

来自分类Dev

使用Python请求抓取页面

来自分类Dev

Node js抓取失败

来自分类Dev

如何从aspx页面抓取图像?

来自分类Dev

如何使用Node.js抓取页面

来自分类Dev

使用请求模块抓取Node.js

来自分类Dev

如何使用Router在Node.js中呈现页面

来自分类Dev

如何抓取使用node.js异步加载数据的网站?

来自分类Dev

使用Node.js和Puppeteer从Wikipedia页面上抓取电影作品

来自分类Dev

使用Node.js进行Web抓取

来自分类Dev

如何使用Puppeteer抓取Reddit页面?

来自分类Dev

将在Scrapy中建立的会话Cookie传递给Splash以在抓取js页面中使用

来自分类Dev

如何抓取页面标题?

来自分类Dev

如何使用node.js抓取div标签?

来自分类Dev

使用Cookie抓取动态页面

来自分类Dev

如何抓取此squawka页面?

来自分类Dev

如何抓取页面的动态URL?

来自分类Dev

登录后如何抓取页面

来自分类Dev

如何与子页面并行抓取网页?

来自分类Dev

如何使用 Splash 抓取 JS 页面?

来自分类Dev

使用 Python 抓取特定页面

来自分类Dev

如何使用JS抓取页面并将变量推入GTM数据层

来自分类Dev

如何在 Capybara 中重新抓取页面?

来自分类Dev

使用cheerio 抓取页面

来自分类Dev

如何在抓取页面时形成循环?