友情链接平台须知投稿
友情链接查询:
登录注册

当前位置:首页 > 站长资讯 > 史上最浅显易懂的robots写法

史上最浅显易懂的robots写法

2016-08-26 10:09:52  来源:友情链接  浏览:

史上最浅显易懂的robots写法

  很多做SEO优化的容易忽略robots的重要性,我们首先要记住的就是蜘蛛来到网站之后第一个看的就是robots文件,它是搜索引擎的协定,告诉蜘蛛哪些能抓,哪些不能抓,哪些目录下的哪些文件可以抓,这些robots文件都可以实现。做网站SEO优化时候忽略了robots文件的重要性,可能会一不小心被网站编程人员给自己埋了一个坑。

  robots规则说明:

  *代表所有的意si

  User-agent爬虫抓取时会声明自己的身份

  如果这个规则适用于所有搜索引擎的话,写法:User-agent: *

  如果单独适用于百度的话User-agent: Baiduspider

  附一些搜索引擎的名字:百度Baiduspider|谷歌Googlebot|360蜘蛛360Spider|SOSO蜘蛛Sosospider|雅虎蜘蛛Yahoo!|有道蜘蛛YoudaoBot|搜狗蜘蛛Sogou News Spider|MSN蜘蛛msnbot/msnbot-media|必应蜘蛛bingbot/compatible|一搜蜘蛛YisouSpider|Alexa蜘蛛ia_archiver|宜sou蜘蛛EasouSpider|即刻蜘蛛JikeSpider|一淘网蜘蛛EtaoSpider

  Disallow列出的是要禁止抓取的的网页和规则,后面用/代表层次关系

  Disallow: / (代表着禁止抓取网站所有内容)

  Disallow: /abc (禁止抓取abc及其层次下的内容)

  Disallow: /abc/ (禁止抓取abc层次下的内容,但是允许抓abc)

  Disallow: /*.png (禁止抓取png的图片,其他格式的也这样写比如禁止抓网站中的PPT后缀文件是Disallow: /*.PPT)

  Disallow: /abc/*.png (禁止访问abc层次下的PNG图片,其他格式也是)

  Disallow: /*?* (屏蔽站内所有动态URL,因为动态地址都带?所有可以用这种形式,其他的字符也可以)

  Disallow: /abc/*?* (只屏蔽abc层次下的动态地址)

  Disallow: /*?/ (屏蔽动态层次下的内容,比如有些文章或栏目是网址/?14125这样URL,这样可以让抓取文章,也可以屏蔽后面内容)

  Disallow: /abc/*?/ (屏蔽abc栏目下的动态层次下的内容)

  其他的按照这个si路灵活使用就行了

  Allow代表允许访问抓取的意si

  Allow一定放在Disallow的前面才能不受Disallow的影响,如禁止所有动态后,想要排除一个栏目,写法如下:

  Allow: /abc

  Disallow: /*?*

  其他的写法参考Disallow的逻辑

  sitemap这个只用于告诉蜘蛛网站地图在哪

  sitemap: 网址/sitemap.xml

  Crawl-delay控制抓取频次,一般有些搜索蜘蛛频繁抓取网站,会对服务器造成很大的负担,这个就是用来控制抓取频次的

  User-agent: 360Spider

  Crawl-delay: 10

  这句是说,360你抓的太频繁,你抓过之后10秒之后才能下一次抓取

  还有就是不让显示快照:

  在你不想展示快照页面的head标签中加入 meta name=“robots” content=“noarchive”(禁止所有搜索引擎产生快照)

  在你不想展示某个搜索引擎出现快照页面的head标签中加入 meta name=“360Spider” content=“noarchive”(禁止360产生快照,name后面的换成蜘蛛名字即可)

本文由速链吧友情链接平台为您整理发布,若涉及版权问题,请原作者联系我们处理!