robots书写方法及在robots添加Sitemap链接的位置
robots是什么?
根据百度百科上解析的:robots是网站跟爬虫间的协议。用简单直接的txt格式文本方式告诉对应的爬虫被允许的权限,也就是说robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
所以根据上面的解析我们可以理解为,robots.txt这个文件是告诉搜索蜘蛛我们网站中,哪些目录是不让搜索引擎收录的。
robots执行顺序是从上到下,那么robots.txt这个文见要怎么写呢,站点地图的sitemap链接要放在什么位置合适呢?什么是robots协议它对seo有什么影响。
sitemap是谷歌创造出来的,搜索引擎会优先读取sitemap.xml文件,如果没有就逐个抓取URL。
robots协议怎么写?
1、robots协议书写基本语法
User-agent:定义禁止搜索引擎蜘蛛的名字。百度蜘蛛(Baiduspide)、谷歌蜘蛛(Googlebot)、360蜘蛛(360Spider)、搜狗蜘蛛(SougouSpider)等。*号代表全部搜索引擎
Disallow:不允许收录 //比如我要禁止蜘蛛爬取我的网站后台登录地址,可以这样写,Disallow:/admin,需要注意的是这里的冒号为英文输入法下输入的冒号。
Allow:允许收录
robots怎么屏蔽所有蜘蛛
网站在改版之前,为了避免蜘蛛抓取错误或临时的链接,可以采用全站屏蔽蜘蛛的操作,在根目录建立robots.txt,添加如下内容:
User-agent:* Disallow:/
robots怎么屏蔽某个目录或文件
案例:我们需要屏蔽所有蜘蛛抓取根目录下的inc文件夹及里面的所有内容,根目录wap目录下的index.html文件。
那么我们的robots.txt文件就需要添加如下内容:
User-agent:* Disallow:/inc/ Disallow:/wap/index.html
屏蔽某个目录,但抓取目录下的文件或文件夹
案例:屏蔽所有蜘蛛抓取根目录下的wap文件夹,但抓取里面后缀名为html的文件
User-agent:* Disallow:/wap/ Allow:/wap/*.html注意:上面的写法,wap带“/”代表根目录下的wap目录下的内容。并不会禁止比如根目录下waptest的文件夹及文件夹所有内容。
案例:禁止抓取根目录下所有前面带“wap”字符的文件夹及文件
User-agent:* Disallow:/wap
禁止了如:/wap/,/wap/12.html,/waptest/,/wapabc.html。
robots怎么禁止网站后台且不让用户知道
禁止搜索引擎抓取我们网站某些私密文件夹的同时,也暴露了网站的目录结构,猜出网站后台管理系统、后台等,然而这些当然是不要让别人知道的好,同时也不想让蜘蛛爬取收录,那么我们在robots文件内要怎么写呢?
案例:保护隐私文件夹或文件
比如:禁止抓取/include,就可以写成如下,当然前提是你的根目录里面没有前面带这些字符的文件夹或文件给蜘蛛抓取。
User-agent:* Disallow:/inc
robots怎么屏蔽动态URL
网站有些动态页面可能会和静态页面相同,造成重复收录。
案例1:用robots屏蔽动态URL
书写方法:
User-agent:* Disallow:/*?*
案例2:仅允许访问“.html”为后缀的URL
User-agent:* Allow:.html$ Disallow:/
robots怎么屏蔽死链接
网站改版、删除文章后,原来的URL如果已经被搜索引擎索引,出现404错误。一般的做法如下:
①查看网站日志,找出这些死链,用百度提交死链工具提交,慢慢的会删除这些死链;
②如果这个链接已经更换,也可以用301跳转到新的链接,301跳转后原页面和新页面处理办法;
③robots禁止蜘蛛抓取死链,写法同上,最好带完整路径
User-agent:* Disallow:http://www.yaohuanet.com/m/22.html
robots屏蔽不参与排名的页面链接
比如会员中心、登陆界面、联系我们等。这些虽然有实际用途,蜘蛛一样会爬取这些页面链接,这些页面也会分权,因此为了集中权重,一些完全不参与排名的页面应该用robots屏蔽。也可以在该页面的</head>之前添加<meta>声明,指向该页面的链接加上nofollow标签。
<meta name="robots" content="noindex,nofollow"/>
<a rel="nofollow" href="/member/login">登陆</a>
sitemap索引在robots.txt的位置
sitamap索引的位置最好放在robots.txt的最下面,蜘蛛先遵循前面的原则,再按照网站地图爬取。
Sitemap: http://www.yaohuanet.com/sitemap.xml
Sitemap: http://www.yaohuanet.com/sitemap.html
总结:robots.txt协议是规范搜索引擎蜘蛛爬取我们网站的规则或命令,要求蜘蛛哪些是可以爬取建立索引哪些是不要爬取的;sitemap最好放置在robots的最下面。robots前面的内容是给蜘蛛一个命令告知怎么爬取,再结合后面sitemap站点地图才能更好的利于蜘蛛爬取。
文章评论