!
也想出现在这里? 联系我们
广告位
当前位置:首页>技术分享>网站运维>robots文件怎么设置(robots设置详细解读)

robots文件怎么设置(robots设置详细解读)

robots.txt是纯文本文件,用于声明网站中不想被蜘蛛抓取的部分,robots不是一个规定,是一种约束

蜘蛛访问网站的时候首先查看的是robots:如果存在就按照robots规则抓取、如果不存在蜘蛛就沿着链接直接爬行

robots文件怎么设置(robots设置详细解读)

1.robots作用

1.1、防止私密或重要的内容被搜索引擎抓取

1.2、节省服务器资源

1.3、减少重复抓取,提高网站质量

1.4、制定sitemap文件位置

2.写法

该文件放置在文件的根目录下,并且文件名必须小写:
http://www.dbgzs.shop/robots.txt

3.语法

3.1、User-agent:

3.1.1、指定哪个搜索引擎蜘蛛:Baiduspider(百度)、Googlebot(谷歌)、Sogouspider(搜狗)

3.1.2、*代码所有搜索引擎

3.2、Allow:表示允许蜘蛛抓取的栏目或文件

3.2.1、Allow:/web/ 表示允许访问web目录

3.2.2、Allow:/*.htm$ 表示允许访问html文件

3.3、Disallow:禁止抓取栏目或文件
Disallow:/web/:禁止抓取web目录
Disallow:/*.htm$:禁止抓取html文件

Disallow:/ 禁止抓取网站所有内容:
/表示根目录

4.工具:
http://tool.chinaz.com/robots/

5.问题

5.1、如果搜索引擎已经收录了你的网页,这时候你不想让搜索引擎收录网页 咋办?

5.2、robots是不能删除搜索引擎中已经收录的页面

5.3、robots meta标签来解决该问题

6.robots meta标签:针对具体的页面

6.1、语法

6.1.1、<meta name='robots' content='index,follow'/>(<meta name='robots' content='all'/>):允许搜索引擎抓取页面与页面的链接

<meta name='robots' content='noindex,follow'/>:不允许搜索引擎抓取页面与允许页面的链接

<meta name='robots' content='index,nofollow'/>:允许搜索引擎抓取页面与不允许页面的链接

<meta name='robots' content='noindex,nofollow'/>(<meta name='robots' content='none'/>):不允许搜索引擎抓取页面与不允许页面的链接

7.解释

index:表示搜索引擎可以抓取该页面

noindex:表示搜索引擎不可以抓取该页面

follow:表示搜索引擎蜘蛛可以爬寻该页面的上的链接

nofollow:表示搜索引擎蜘蛛不可以爬寻该页面的上的链接
提醒:有些时候也友情链接交换可能会被加上nofollow,大家可以查看一下(避免灰帽)

给TA打赏
共{{data.count}}人
人已打赏
网站运维

做外链有什么方法(分享做网站外链的知识)

2022-7-22 14:33:30

网站运维

网站运维怎么运作(解析维护网站的方法有哪些)

2022-7-23 15:49:07

声明 本站上的部份代码及教程来源于互联网,仅供网友学习交流,若您喜欢本文可附上原文链接随意转载。无意侵害您的权益,请发送邮件至 2651636361@qq.com 或点击右侧 私信:少羽 反馈,我们将尽快处理。
0 条回复A文章作者M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索