- A+
所属分类:SEO培训
好多做站的程序员不会写robots,甚至对robots.txt简单的术语不理解,不得已小编重拾指导员的角色,来一次彻底的SEO优化简单辅导吧。
首先简单说几个名词,大家牢记即可。
User-agent 用户代理,这里指描述搜索引擎蜘蛛的名字
Disallow 不容许的内容
Allow 容许的内容
我们先来分析一下比较大的2个网站平台,58同城网。
西安58同城robots协议很简单。
User-agent: Mediapartners-Google Disallow: User-agent: * Disallow: /*?* 不容许带*?*的页面。利于优化吧。
再来看看长一点的robots.txt搜狗搜索引擎的:
搜狗搜索引擎的太长,经过删减。
User-agent: Sogou web spider Disallow: /tx? Disallow: /sie? Disallow: /sgo? Disallow: /lx? Disallow: /ssc? Disallow: /rotad? Disallow: /websearch/websearch? Disallow: /nba? Disallow: /xml? Disallow: /sr? Disallow: /redirect? Disallow: /link? Disallow: /weixin? Disallow: /weixinwap? Disallow: /websearch.do Disallow: /websearch/websearch.do Disallow: /zhishi/searchlist.jsp Disallow: /express/sq.jsp Disallow: /xueshu? Disallow: /cidian? Disallow: /dict? Disallow: /scholar? Disallow: /qq? User-agent: Sogou inst spider Disallow: /tx? Disallow: /sie? Disallow: /sgo? Disallow: /lx? Disallow: /ssc? Disallow: /rotad? Disallow: /websearch/websearch? Disallow: /nba? Disallow: /xml? Disallow: /sr? Disallow: /redirect? Disallow: /link? Disallow: /submit? Disallow: /site? Disallow: /xueshu? Disallow: /cidian? Disallow: /dict? Disallow: /scholar? Disallow: /qq? User-agent: Sogou blog Disallow: /tx? Disallow: /sie? Disallow: /sgo? Disallow: /lx? Disallow: /ssc? Disallow: /rotad? Disallow: /websearch/websearch? Disallow: /nba? Disallow: /xml? Disallow: /sr? Disallow: /redirect? Disallow: /link? Disallow: /submit? Disallow: /site? Disallow: /sohu/sohu? Disallow: /sohu/websearch? Disallow: /sogou? Disallow: /web? Disallow: /sohu? Disallow: /quan? Disallow: /weixinwap? Disallow: /websearch.do Disallow: /websearch/websearch.do Disallow: /zhishi/searchlist.jsp Disallow: /express/sq.jsp Disallow: /xueshu? Disallow: /cidian? Disallow: /dict? Disallow: /scholar? Disallow: /qq? User-agent: Sogou News Spider Disallow: /tx? Disallow: /sie? Disallow: /sgo? Disallow: /lx? Disallow: /ssc? Disallow: /rotad? Disallow: /websearch/websearch? Disallow: /nba? Disallow: /xml? User-agent: * Disallow: /
哇,太长了,大概使用的Disallow比较多,屏蔽禁止的路径比较多,可以看到搜狗蜘蛛,不同的路径抓取这一块也是比较多的限制。
不知道怎么写蜘蛛Robots.txt规则协议可以利用站长工具写:

robots文件生成
工具页面:http://tool.chinaz.com/robots/
生产完毕之后最底部加一条sitemap.xml,蜘蛛地图。
做好之后的效果应该是,例如本站WordPress主题默认的:https://www.seoyu.net/robots.txt