• 2024-10-31

Web Spidering和Web Crawlers的定义

袁欣:我在探讨绘画和装置之间的可能性

袁欣:我在探讨绘画和装置之间的可能性

目录:

Anonim

蜘蛛是通过Web“爬行”寻找数据的程序(或自动脚本)。蜘蛛通过网站URL传输,可以从电子邮件地址等网页中提取数据。蜘蛛还用于将网站上的信息提供给搜索引擎。

蜘蛛,也被称为“网络爬行者”搜索网络,而不是所有人都对他们的意图友好。

垃圾邮件发送者蜘蛛网站收集信息

谷歌,雅虎!和其他搜索引擎不是唯一对网站爬行感兴趣的人 - 诈骗者和垃圾邮件发送者也是如此。

垃圾邮件发送者使用蜘蛛和其他自动化工具在网站上查找电子邮件地址(在互联网上这种做法通常被称为“收获”),然后使用它们来创建垃圾邮件列表。

蜘蛛也是搜索引擎用来查找有关您网站的更多信息但未经检查的工具,没有关于如何抓取您的网站的说明(或“权限”)的网站可能会带来重大的信息安全风险。蜘蛛通过以下链接旅行,他们非常擅长查找数据库,程序文件以及您可能不希望他们访问的其他信息的链接。

网站管理员可以查看日志以查看蜘蛛和其他机器人访问过他们的网站的情况。此信息可帮助网站管理员了解谁在为其网站编制索引,以及查看频率。

此信息非常有用,因为它允许网站管理员微调其SEO并更新robot.txt文件,以禁止某些机器人将来抓取其网站。

保护您的网站免受不必要的机器人爬虫的提示

有一种相当简单的方法可以阻止不需要的抓取工具进入您的网站。即使您不关心恶意蜘蛛爬行您的网站(混淆电子邮件地址也无法保护您免受大多数爬虫),您仍然需要向搜索引擎提供重要说明。

所有网站都应该有一个位于根目录中的文件,称为robots.txt文件。如果它们是搜索引擎,则此文件允许您指示希望它们在哪里查找索引页面的Web爬网程序(除非在特定页面的元数据中另有说明为无索引)。

就像你可以告诉想要他们浏览的想要的抓取工具一样,你也可以告诉他们他们可能不去的地方,甚至阻止你整个网站的特定抓取工具。

重要的是要记住,整合robots.txt文件对搜索引擎具有巨大价值,甚至可能是提高网站性能的关键因素,但是一些机器人抓取工具仍会忽略您的指示。因此,始终保持所有软件,插件和应用程序的最新状态非常重要。

相关文章和信息

由于用于恶意(垃圾邮件)目的的信息收集普遍存在,2003年通过立法使某些做法成为非法行为。这些消费者保护法属于2003年的CAN-SPAM法案。

如果您的企业从事任何群发邮件或信息收集,请务必花时间阅读CAN-SPAM法案。

通过阅读以下文章,您可以了解有关反垃圾邮件法律以及如何处理垃圾邮件发送者的更多信息,以及您作为企业所有者可能不会做的事情:

  • 2003年反垃圾邮件法案
  • 非营利组织的CAN-SPAM法案规则
  • 5小型企业主需要理解的CAN-SPAM规则

有趣的文章

空军入伍工作AFSC 3D1X1 - 客户端系统

空军入伍工作AFSC 3D1X1 - 客户端系统

空军入伍AFSC(工作)的工作描述和资格标准。本文介绍了AFSC 3D1X1,客户端系统。

PIP是您解雇员工的第一步吗?

PIP是您解雇员工的第一步吗?

对绩效改进计划(PIP)感兴趣?许多雇主出于错误的原因使用它们并且做错了,所以PIP的名字不好。

你能解雇一个有毒的员工吗?

你能解雇一个有毒的员工吗?

解雇员工是一种有毒的态度吗?如果它影响工作场所的平衡,请先尝试解决问题。

在工作场所显示偏袒是非法的吗?

在工作场所显示偏袒是非法的吗?

当管理者在工作场所实行偏袒时,会损害员工的和谐与福祉。了解如何预防和打击偏袒。

律师考试失败了你的法律职业生涯结束了吗?

律师考试失败了你的法律职业生涯结束了吗?

没有通过律师考试是一个巨大的失望,但这不是你的法律职业生涯的结束!这里有4个从失败中恢复过来的技巧。

ISFJ-你的迈尔斯布里格斯人格类型和你的职业生涯

ISFJ-你的迈尔斯布里格斯人格类型和你的职业生涯

根据您的MBTI成绩,您是否发现自己是ISFJ的人格?了解这种类型并找出哪些职业适合。