Web Spidering和Web Crawlers的定义
è¢æ¬£ï¼æå¨æ¢è®¨ç»ç»åè£ ç½®ä¹é´çå¯è½æ§
目录:
蜘蛛是通过Web“爬行”寻找数据的程序(或自动脚本)。蜘蛛通过网站URL传输,可以从电子邮件地址等网页中提取数据。蜘蛛还用于将网站上的信息提供给搜索引擎。
蜘蛛,也被称为“网络爬行者”搜索网络,而不是所有人都对他们的意图友好。
垃圾邮件发送者蜘蛛网站收集信息
谷歌,雅虎!和其他搜索引擎不是唯一对网站爬行感兴趣的人 - 诈骗者和垃圾邮件发送者也是如此。
垃圾邮件发送者使用蜘蛛和其他自动化工具在网站上查找电子邮件地址(在互联网上这种做法通常被称为“收获”),然后使用它们来创建垃圾邮件列表。
蜘蛛也是搜索引擎用来查找有关您网站的更多信息但未经检查的工具,没有关于如何抓取您的网站的说明(或“权限”)的网站可能会带来重大的信息安全风险。蜘蛛通过以下链接旅行,他们非常擅长查找数据库,程序文件以及您可能不希望他们访问的其他信息的链接。
网站管理员可以查看日志以查看蜘蛛和其他机器人访问过他们的网站的情况。此信息可帮助网站管理员了解谁在为其网站编制索引,以及查看频率。
此信息非常有用,因为它允许网站管理员微调其SEO并更新robot.txt文件,以禁止某些机器人将来抓取其网站。
保护您的网站免受不必要的机器人爬虫的提示
有一种相当简单的方法可以阻止不需要的抓取工具进入您的网站。即使您不关心恶意蜘蛛爬行您的网站(混淆电子邮件地址也无法保护您免受大多数爬虫),您仍然需要向搜索引擎提供重要说明。
所有网站都应该有一个位于根目录中的文件,称为robots.txt文件。如果它们是搜索引擎,则此文件允许您指示希望它们在哪里查找索引页面的Web爬网程序(除非在特定页面的元数据中另有说明为无索引)。
就像你可以告诉想要他们浏览的想要的抓取工具一样,你也可以告诉他们他们可能不去的地方,甚至阻止你整个网站的特定抓取工具。
重要的是要记住,整合robots.txt文件对搜索引擎具有巨大价值,甚至可能是提高网站性能的关键因素,但是一些机器人抓取工具仍会忽略您的指示。因此,始终保持所有软件,插件和应用程序的最新状态非常重要。
相关文章和信息
由于用于恶意(垃圾邮件)目的的信息收集普遍存在,2003年通过立法使某些做法成为非法行为。这些消费者保护法属于2003年的CAN-SPAM法案。
如果您的企业从事任何群发邮件或信息收集,请务必花时间阅读CAN-SPAM法案。
通过阅读以下文章,您可以了解有关反垃圾邮件法律以及如何处理垃圾邮件发送者的更多信息,以及您作为企业所有者可能不会做的事情:
- 2003年反垃圾邮件法案
- 非营利组织的CAN-SPAM法案规则
- 5小型企业主需要理解的CAN-SPAM规则
Web Developer简历与摘要声明示例
使用此Web开发人员简历示例来构建您自己的简历。此示例包括摘要,工作历史和学术历史。