使用Web :: Scraper从.onion网站进行抓取

乔尔·马修(Joel G Mathew)

问题:使用Web :: Scraper从tor .onion站点进行刮擦

我想修改我的代码以连接到.onion网站。我相信我需要连接到SOCKS5代理,但是不确定如何使用Web :: Scraper

现有代码:

use Web::Scraper;
my $piratelink=$PIRATEBAYSERVER.'/search/' . $srstring . '%20'. 's'.$sval[1].'e'.$epinum.'/0/7/0';
my $purlToScrape = $piratelink;
    my $ns = scraper {      
    process "td>a", 'mag[]' => '@href';
    process "td>div>a", 'tor[]' => '@href';
    process "td font.detDesc", 'sizerow[]' => 'TEXT';
};
my $mres = $ns->scrape(URI->new($purlToScrape));
drew010

Web::Scraper如果您通过URI刮刀,则使用LWP

您可以使用其他使用SOCKS的HTTP库来获取HTML ,也可以使用中的共享UserAgent变量来获取HTML Web::Scraper,您可以将LWP设置为使用SOCKS并将其作为代理传递。

use strict;
use LWP::UserAgent;
use Web::Scraper;

# set up a LWP object with Tor socks address
my $ua = LWP::UserAgent->new(
    agent => q{Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; YPC 3.2.0; .NET CLR 1.1.4322)},
);
$ua->proxy([qw/ http https /] => 'socks://localhost:9050'); # Tor proxy
$ua->cookie_jar({});

my $PIRATEBAYSERVER = 'http://uj3wazyk5u4hnvtk.onion';
my $srstring = 'photoshop';


my $piratelink=$PIRATEBAYSERVER.'/search/' . $srstring; # . '%20'. 's'.$sval[1].'e'.$epinum.'/0/7/0';

my $purlToScrape = $piratelink;
my $ns = scraper {      
    process "td>a", 'mag[]' => '@href';
    process "td>div>a", 'tor[]' => '@href';
    process "td font.detDesc", 'sizerow[]' => 'TEXT';
};

# override Scraper's UserAgent with our SOCKS LWP object
$Web::Scraper::UserAgent = $ua;

my $mres = $ns->scrape(URI->new($purlToScrape));

print $mres;

注意,您还需要安装CPAN模块 LWP::Protocol::socks

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用R在imdb中进行Web抓取

来自分类Dev

Web :: Scraper嵌套的仅包含特殊数据的结构和元素

来自分类Dev

使用Web :: Scraper刮除table#id列

来自分类Dev

Web Scraper用于python中的动态表单

来自分类Dev

如何使用Web :: Scraper解析此HTML?

来自分类Dev

在Wikipedia上使用BeautifulSoup进行Web抓取

来自分类Dev

使用R进行网页抓取-未加载完整的网站数据

来自分类Dev

使用Python,BeautifulSoup进行Web抓取

来自分类Dev

使用python从.aspx网站进行网页抓取

来自分类Dev

使用python Web Scraper提取n个图像

来自分类Dev

使用Python / BeautifulSoup进行Web抓取:具有指向个人资料的多个链接的网站>需要个人资料内容

来自分类Dev

Python Youtube Web Scraper无法正常工作

来自分类Dev

Python Web Scraper无法保存图像文件

来自分类Dev

使用BeautifulSoup到Dataframe进行Web抓取

来自分类Dev

Python-使用Scrapy进行Web抓取

来自分类Dev

如何抓取使用BankID进行Python登录的网站(BeautifulSoap,请求)?

来自分类Dev

在Spyder IDE中运行Web scraper时出现问题

来自分类Dev

Python Web scraper没有获得某些值

来自分类Dev

使用Selenium的javascript呈现网站的Web抓取

来自分类Dev

使用Python和Scrapy的IMDB Scraper

来自分类Dev

Python Scraper无法抓取img src

来自分类Dev

使Web Scraper处理从目标页面打开的弹出页面

来自分类Dev

如何使用Web :: Scraper解析此HTML?

来自分类Dev

Python Web Scraper打印问题

来自分类Dev

如何使用R从网站抓取Web表

来自分类Dev

使用Python进行网页抓取(容器跟踪网站)

来自分类Dev

使用python 2.7和beautifulsoup 4进行网站抓取

来自分类Dev

Excel Web Scraper - 受密码保护的网站

来自分类Dev

尝试制作 Java Web Scraper

Related 相关文章

热门标签

归档