Web Spidering和Web Crawlers的定义

è¢æ¬£ï¼æå¨æ¢è®¨ç»ç»åè£ç½®ä¹é´çå¯è½æ§

谷歌，雅虎！和其他搜索引擎不是唯一对网站爬行感兴趣的人 - 诈骗者和垃圾邮件发送者也是如此。

垃圾邮件发送者使用蜘蛛和其他自动化工具在网站上查找电子邮件地址（在互联网上这种做法通常被称为“收获”），然后使用它们来创建垃圾邮件列表。

蜘蛛也是搜索引擎用来查找有关您网站的更多信息但未经检查的工具，没有关于如何抓取您的网站的说明（或“权限”）的网站可能会带来重大的信息安全风险。蜘蛛通过以下链接旅行，他们非常擅长查找数据库，程序文件以及您可能不希望他们访问的其他信息的链接。

网站管理员可以查看日志以查看蜘蛛和其他机器人访问过他们的网站的情况。此信息可帮助网站管理员了解谁在为其网站编制索引，以及查看频率。

此信息非常有用，因为它允许网站管理员微调其SEO并更新robot.txt文件，以禁止某些机器人将来抓取其网站。

有一种相当简单的方法可以阻止不需要的抓取工具进入您的网站。即使您不关心恶意蜘蛛爬行您的网站（混淆电子邮件地址也无法保护您免受大多数爬虫），您仍然需要向搜索引擎提供重要说明。

所有网站都应该有一个位于根目录中的文件，称为robots.txt文件。如果它们是搜索引擎，则此文件允许您指示希望它们在哪里查找索引页面的Web爬网程序（除非在特定页面的元数据中另有说明为无索引）。

就像你可以告诉想要他们浏览的想要的抓取工具一样，你也可以告诉他们他们可能不去的地方，甚至阻止你整个网站的特定抓取工具。

重要的是要记住，整合robots.txt文件对搜索引擎具有巨大价值，甚至可能是提高网站性能的关键因素，但是一些机器人抓取工具仍会忽略您的指示。因此，始终保持所有软件，插件和应用程序的最新状态非常重要。

使用此Web开发人员简历示例来构建您自己的简历。此示例包括摘要，工作历史和学术历史。