搜索

搜索

Web搜寻器设计中的DFS与BFS

Nazgol 发表于 Dev

11

纳兹高尔

我想出一个面试问题，想了解您对此的看法。问题是，在设计网络搜寻器时：

1）用DFS和BFS会打什么样的页面？

2）如何避免陷入无限循环？

我很高兴有人可以回答他们。

传单

1）用DFS和BFS会打什么样的页面？

在大多数情况下，我将使用BFS算法来实现蜘蛛程序，因为我想从网页获取的最有价值的信息没有太多的链接深度，否则，我认为由于设计不良，该站点没有太多的价值。

如果我想从一些具体的数据一个从几跳，并在同一时间，我想看到的蜘蛛运行后不久，结果页面和其他相关数据的话，我可能会选择DFS算法。说，我想从stackoverflow获取所有标签。标签页在这里。同时，我想让谁回答标签中的哪些问题。我想检查蜘蛛网是否正常运行。然后，我使用DFS算法在蜘蛛运行后立即获取数据标签问题和答案。

总之，这取决于使用情况。

2）如何避免陷入无限循环？

这个问题可能很简单。解决方案如下：

使用最大链接深度。
记录您已爬网的URL，并在发出新请求之前，检查该URL是否已被爬网。

我记得scrapy似乎可以解决第二个问题。您可以阅读其源代码以寻找更好的解决方案。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-02-5

0

我来说两句

0条评论

登录后参与评论

上一篇：从Java应用程序在hadoop 2.2（Yarn）上启动mapreduce作业

相关文章

来自分类Dev

Web搜寻器设计中的DFS与BFS

来自分类Dev

Web搜寻器尝试

来自分类Dev

Scrapy Web搜寻器教程中的错误

来自分类Dev

Scrapy Web搜寻器教程中的错误

来自分类Dev

Web搜寻器中的Python重复项

来自分类Dev

Web搜寻器在列表之间提取

来自分类Dev

Web搜寻器网址错误

来自分类Dev

Web搜寻器-以下链接

来自分类Dev

Python Web搜寻器，深度问题

来自分类Dev

Python中的多线程搜寻器

来自分类Dev

C＃中的拼字搜寻器

来自分类Dev

python中的多线程搜寻器

来自分类Dev

识别搜寻器

来自分类Dev

识别搜寻器

来自分类Dev

Web搜寻器：Web内容未显示在html代码中

来自分类Dev

在Web搜寻器中附加<h2>标记和<p> <strong>

来自分类Dev

Abot Web搜寻器将网页或图像仅存储到文件夹中

来自分类Dev

Web搜寻器不会打开页面中的所有链接

来自分类Dev

Web搜寻器中原子的惯用用法

来自分类Dev

运行Scrapy Web搜寻器时出错

来自分类Dev

运行Scrapy Web搜寻器时出错

来自分类Dev

Web搜寻器从列表元素中提取

来自分类Dev

Web搜寻器类不起作用

来自分类Dev

PHP Web搜寻器，检查URL的路径

来自分类Dev

汇总搜寻器中的请求列表中的数据

来自分类Dev

网络搜寻器无法正常工作

来自分类Dev

Python搜寻器验证图片

来自分类Dev

搜寻器返回空结果

来自分类Dev

Scrapy递归链接搜寻器

Related 相关文章

文章

热门标签

归档