• 2024-06-30

Web Spidering和Web Crawlers的定义

袁欣:我在探讨绘画和装置之间的可能性

袁欣:我在探讨绘画和装置之间的可能性

目录:

Anonim

蜘蛛是通过Web“爬行”寻找数据的程序(或自动脚本)。蜘蛛通过网站URL传输,可以从电子邮件地址等网页中提取数据。蜘蛛还用于将网站上的信息提供给搜索引擎。

蜘蛛,也被称为“网络爬行者”搜索网络,而不是所有人都对他们的意图友好。

垃圾邮件发送者蜘蛛网站收集信息

谷歌,雅虎!和其他搜索引擎不是唯一对网站爬行感兴趣的人 - 诈骗者和垃圾邮件发送者也是如此。

垃圾邮件发送者使用蜘蛛和其他自动化工具在网站上查找电子邮件地址(在互联网上这种做法通常被称为“收获”),然后使用它们来创建垃圾邮件列表。

蜘蛛也是搜索引擎用来查找有关您网站的更多信息但未经检查的工具,没有关于如何抓取您的网站的说明(或“权限”)的网站可能会带来重大的信息安全风险。蜘蛛通过以下链接旅行,他们非常擅长查找数据库,程序文件以及您可能不希望他们访问的其他信息的链接。

网站管理员可以查看日志以查看蜘蛛和其他机器人访问过他们的网站的情况。此信息可帮助网站管理员了解谁在为其网站编制索引,以及查看频率。

此信息非常有用,因为它允许网站管理员微调其SEO并更新robot.txt文件,以禁止某些机器人将来抓取其网站。

保护您的网站免受不必要的机器人爬虫的提示

有一种相当简单的方法可以阻止不需要的抓取工具进入您的网站。即使您不关心恶意蜘蛛爬行您的网站(混淆电子邮件地址也无法保护您免受大多数爬虫),您仍然需要向搜索引擎提供重要说明。

所有网站都应该有一个位于根目录中的文件,称为robots.txt文件。如果它们是搜索引擎,则此文件允许您指示希望它们在哪里查找索引页面的Web爬网程序(除非在特定页面的元数据中另有说明为无索引)。

就像你可以告诉想要他们浏览的想要的抓取工具一样,你也可以告诉他们他们可能不去的地方,甚至阻止你整个网站的特定抓取工具。

重要的是要记住,整合robots.txt文件对搜索引擎具有巨大价值,甚至可能是提高网站性能的关键因素,但是一些机器人抓取工具仍会忽略您的指示。因此,始终保持所有软件,插件和应用程序的最新状态非常重要。

相关文章和信息

由于用于恶意(垃圾邮件)目的的信息收集普遍存在,2003年通过立法使某些做法成为非法行为。这些消费者保护法属于2003年的CAN-SPAM法案。

如果您的企业从事任何群发邮件或信息收集,请务必花时间阅读CAN-SPAM法案。

通过阅读以下文章,您可以了解有关反垃圾邮件法律以及如何处理垃圾邮件发送者的更多信息,以及您作为企业所有者可能不会做的事情:

  • 2003年反垃圾邮件法案
  • 非营利组织的CAN-SPAM法案规则
  • 5小型企业主需要理解的CAN-SPAM规则

有趣的文章

退出时如何给出两周通知

退出时如何给出两周通知

当你辞职时,通常会提前两周通知你。但是你的雇主可能不会让你在那段时间工作。学到更多。

两周通知辞职电子邮件

两周通知辞职电子邮件

使用此辞职信电子邮件示例,并在您向雇主提供两周通知时定制它以适合您自己的情况。

两周通知辞职信样本

两周通知辞职信样本

辞职信用例,用于在辞职时给予两周通知,更多样本辞职信,以及如何辞职的提示。

国家号召是两年入伍吗?

国家号召是两年入伍吗?

国民号召服务允许新兵选择两年或三年的现役期,具体取决于他们有资格获得的工作。

将销售补偿与销售配额联系起来

将销售补偿与销售配额联系起来

让您的销售团队达到或超过他们的目标可以像设置奖励结构一样简单。了解如何将补偿与配额联系起来。

封面信件的类型与样品

封面信件的类型与样品

了解最常见的求职信类型,包括申请,推荐,感兴趣的信函,价值主张等。