您现在的位置是:首页 > 网站制作

robots.txt协议是什么?robots文件的写法
网站制作2015-10-27 12:52:31 人围观
简介robots协议是指引搜索引擎蜘蛛按照该文件中的内容来确定访问的范围,保障网络安全与网站隐私

     robots协议是网站和搜索引擎的抓取协议,也是蜘蛛访问网站的第一个文件,其 作用是指引搜索引擎蜘蛛按照该文件中的内容来确定访问的范围,保障网络安全与网站隐私,防止网站数据和敏感信息泄露,确保用户个人信息和隐私不被侵犯。没 有robots协议,就是默认搜索引擎抓取网站所有的页面。

    robots.txt
    查看网站的robots文件方法:http://域名/robots.txt

    网站为什么要写robots?

    1、避免资源浪费:针对不需要搜索引擎检索的页面和文件进行屏蔽,节约了搜索引擎蜘蛛资源。

    2、防止敏感信息及网站隐私的泄露:主要针对网站后台程序文件、前台模板文件不被抓取。

    3、提升搜索引擎友好度:抓取多了无用的信息,搜索引擎会认为网站质量较低,屏蔽死链接和无用页面提升搜索引擎友好度

    robots写法

    第一行通常是:User-agent: *(User-agent是搜索引擎,*在程序语言中是通配符。“User-agent: *”就是所有的搜索引擎,包括百度、谷歌、360、搜狗。。。)

    Disallow是不允许、禁止的意思,这里定义是禁止蜘蛛爬取(某个文件,某个目录。。)

    例如:Disallow: /index.php 禁止网站index.php文件

    allow是允许的意思,这里定义是允许蜘蛛爬取

    例如:Allow: /index.php 允许网站的index.php

    语法规则:

    1、每行开头字母大写

    2、冒号“:”是英文格式的冒号

    3、冒号后面有一个空格

    4、空格后面必须是斜杠

    例:  Disallow: /admin

    常用语法和作用:

    1、User-agent: *  
       Disallow: /   禁止所有搜索引擎访问网站的所有部分。

    2、Disallow: /admin/  不允许抓取admin文件夹中的信息
       Disallow: /admin   所有路径中带有admin的都不允许抓取

    3、Disallow: /*?* 禁止访问网站中所有的动态页面

    4、Disallow: /.css$ 所有路径中带有".css"的都不允许抓取($指结束、停止)

    5、Sitemap: http://www.baidu.com/sitemap.xml
       Sitemap: http://www.baidu.com/sitemap.html(一点点seo优化技巧,原理自己悟。。)

    6、如果我们不允许蜘蛛抓取admin文件夹中的内容,但是允许抓取admin文件夹下的某个页面:
       Disallow: /admin/
       allow: /admin/**

    语法格式:

    1、User-agent:_____ 空白处为定义搜索引擎的类型;

    2、Crawl-delay:_____ 空白处为定义抓取延迟;

    3、Disallow:_____ 空白处为定义禁止搜索引擎收录的地址;

    4、Allow:_____ 空白处为定义允许搜索引擎收录的地址;


    实例:phpcms内容管理系统的robots.txt文件:

    User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符

    Disallow: /caches/禁止爬寻缓存目录下的所有文件

    Disallow: /phpcms/禁止爬寻phpcms的核心目录下的目录

    Disallow: /install/禁止访问安装包目录下的目录

    Disallow: /phpsso_server/禁止爬寻phpsso_server目录下的目录

    Disallow: /api/禁止爬寻接口目录下的目录

    Disallow: /admin.php/ 这里定义是禁止蜘蛛爬寻admin目录下面的目录

    robots的测试
    在百度站长工具中,添加网站后使用左侧的抓取工具的权限,就可以对网站的robots进行测试了。
     

    转载请注明:2014年07月21日 发表于大牛SEO
博客地址:/

文章评论

点击排行

最近访客