多语言网站robots.txt设置攻略

最近好多朋友在折腾国际服网站的搜索引擎优化，发现大家对robots文件设置特别头大。今天咱们就来唠唠这个事，手把手教你怎么给多语言、多地域的网站安排明白机器人协议。

一、基础设置三步走

先记住这个口诀：文件名要小写、位置要放对、语法别出错。在网站根目录新建个robots.txt文件，注意必须是全小写字母。这里有个现成的模板可以直接抄作业：

别手滑写错标点符号，每个指令后面必须跟英文冒号。要是把User-agent:写成User-agent，整个文件就废了。

国际服常见套路是给不同语言建独立目录，比如/en/放英文版，/ja/放日文版。这时候可以这么搞：

目录结构	推荐设置	注意事项
/en/news/	Allow: /en/news/ Disallow: /ja/news/	确保语言代码符合ISO标准
/de/products/	Disallow: .pdf Allow: /de/products/.html	用通配符匹配动态参数

遇到需要屏蔽特定国家蜘蛛的情况，得先摸清各家搜索引擎的爬虫马甲：

举个栗子，想屏蔽俄罗斯爬虫抓取支付页面：
User-agent: Yandex Disallow: /payment/

最后说个血泪教训：去年有哥们把Disallow: /user写成了Disallow: user，结果整个用户系统被搜索引擎扒了个底朝天。设置完文件后，记得用curl命令或者在线检测工具跑几遍测试，别嫌麻烦。

现在去服务器上捣鼓吧，遇到抓取异常别慌，先检查是不是爬虫缓存了旧版robots文件。有时候清空缓存等个24小时，问题自己就解决了。


								
                                    郑重声明：
									以上内容均源自于网络，内容仅用于个人学习、研究或者公益分享，非商业用途，如若侵犯到您的权益，请联系删除，客服QQ：841144146