Google SEO搜索引擎优化初学者指南,处理页面抓取板块包含以下两方面内容。
一、更加有效地使用robots.txt文件
1、用robots.txt文件来限制抓取
robots.txt文件主要用来告知搜索引擎它们是否有权抓取您网站的特定部分。
该文件一定要严格的命名为robots.txt , 并被放置 在网站的根目录下。
您可能不希望您的网站中的某些页面被抓取 , 也许这些网页在搜索 结果中出现对于用户来说并没多大用处。如果您想防止搜索引擎 抓取这些页面 , 谷歌网站站长工具中有一个非常好用的robots.txt生 成器 , 它可以帮您生成这个文件。需要注意的是 , 如果您的网站使 用子域名而您不想被抓取的某些网页恰好在一个特定子域名下 , 您 需要为那个子域名创建一个单独的robots.txt文件。如果您想了解 更多的关于robots.txt的信息 , 建议您参阅网站管理员帮助中心的 关于使用robots.txt文件的指南。
还有很多别的方法可以保证您的网站的某些内容不出现在搜索结 果中 , 比如说给您的robots元标签加上“NOINDEX”标识 , 使用 .htaccess文件对需要保护的目录加密 , 还可以使用网站站长工具 将已经被抓取的网页从搜索结果中移除。
最佳使用方法:
1、对敏感的内容使用更加安全的方法
您可能不会特别放心仅仅使用robots.txt对敏感的或者保密的内容进行屏蔽。其中一个原因是如果 网络上还有一些链接链向这些URL时(比如引用页日志) , 搜索引擎仍然有可能跟踪抓取到您希望屏 蔽的URL , 当然 , 它们只会展示您的URL地址信息 , 而不会展示标题或者内容摘要。一些无赖的搜 索引擎可能并不会自觉遵守机器人排除标准从而违反您的robots.txt的说明。还有其他原因 , 比如一 个好奇的用户可能查看了您robots.txt文件中的目录和子目录 , 并对您不愿对外界展示的内容的URL 进行了猜测。使用.htacess文件对内容进行密码保护或者对内容加密是更加安全的措施。
请注意避免:
允许您网站中一些类似搜索结果的页面被抓取到(用户不喜欢刚离开一个搜索结果页面就进入了 另一个搜索结果页面 , 这对他们来说没有什么价值) ;允许大量自动生成的、有相同或极为相似内容的网页被抓取到 , 用户会想 : “难道这100000页近乎相同的网页真的应该在搜索引擎的索引中出现吗?”; 允许那些因提供代理服务而生成的URL被抓取 。
二、谨慎使用rel=“nofollow”
1、用nofollow打击垃圾留言
如果您把某一链接的“rel”属性设置成“nofollow” , 这意味着您是 在向Google传达这样的信息 : 您不希望Google继续跟踪抓取这些 特定链接所指向的页面 , 并且也不希望将自己网页的声誉传给这些 链接指向的网页。实现这样的效果其实很简单 , 您只需将 rel=“nofollow”放置在链接的锚标签里即可。
我应当在什么情况下使用nofollow呢?如果您网站的博客开通了留言 功能 , 这些留言中含有的链接会向一些您根本就不了解也无意推荐 的网站传递您的声誉。博客的留言本经常被垃圾留言所侵扰。
Nofollow这些用户生成的链接能够确保您不会将自己好不容易才积 累起的声誉传递给其他的垃圾网站。
2、自动给留言板“设置为nofollow”
许多博客软件包会自动nofollow用户的留言 , 即使没有提供这样的 自动功能 , 您也完全可以手动调整成这样。同样的情形还适用于您 网站的其他由用户生成的内容 , 比如留言簿、论坛、引用通告等。 如果某些第三方(比如您的网站信任此留言者)添加的链接得到您的 肯定的话 , 那么您就没有必要对这些链接使用nofollow。但是必须 明确的是 , 如果您链向了某些被Google认为是垃圾的网站的话 , 那 么您自己网站的声誉也会受到影响。网站管理员中心向您提供了更 多关于怎样防止垃圾留言的小建议 , 比如使用CAPTCHAs(输入验证码环节)和启用留言监控功能等。
3、关于为特定的内容或者页面上的所有链接使用nofollow
Nofollow的另一个用途就是 , 当您在写文章并引用某个网站 , 但是 并不想把您的声誉传递给它。例如 , 您正在撰写一篇关于垃圾留言 的博客文章并打算揭发一个最近经常在您的博客上恶意留言的网 站。为了籍此提醒其他的网站提高警惕 , 您把该网站的链接包含在 了您的文章中 ; 但是 , 您显然不想将自己网站的声誉传递给这个作 恶的网站。那么这时候使用nofollow再合适不过了。