robots.txt文件可以有效的屏蔽搜索引擎抓取我们不需要被抓取的页面和网站源文件,其中的好处是限制搜索引擎过多的抓取不必要的内容,减少搜索引擎蜘蛛进行不必要的网站爬寻分散,也是为了让我们的网站不必要的内容不在搜索引擎被收录,不让别人搜索到。 其中什么样的文件会被限制抓取呢?
一、是否通过robots.txt来屏蔽动态页面,减少页面的重复抓取?
其实个人建议普通网站不必要进行动态页面的屏蔽,搜索引擎一般会自动判断是否重复,普通网站内容并不是非常多,一般出现重复页面的可能性也比较低,如果是信息站和论坛站等建议屏蔽动态页面。
二、robots.txt屏蔽特殊页面,隐私内容的屏蔽。
robots.txt屏蔽特殊页面,网站隐私内容的屏蔽,其实对于一个网站来说,隐私内容比较难实现,在无程序支持的前提下,这里说的隐私是指一些不想被流传到互联网的内容,屏蔽搜索引擎蜘蛛避免在互联网被泛滥,如:网络培训班培训资料。
三、网站特殊文件夹屏蔽
特殊文件夹一般是指,网站程序安装文件,动态功能页面,多于的文件夹,后台功能等。
robots.txt文件的好处刚才也说了,就是提供搜索引擎蜘蛛看的,告诉它哪些文件你不要看,不给你的,这是它的优点,但是robots.txt在告诉搜索引擎蜘蛛的同时,也在告诉其他人,这个网站的隐私,比如:网站后台文件夹地址,相信很多站长都会在robots.txt上面填写,如:Disallow:/dede/ 从这里我们可以看错应该是织梦程序,当然我们可以更改。
网站屏蔽的安装文件地址,如:Disallow: /install/ 这一般是程序安装文件的地址,就算我们后台地址更改后一样能分析出是什么程序做出来的。
屏蔽网站后台登录地址,如:Disallow: /login.asp 这样就明显告诉有心人你的后台登录地址了。
屏蔽网站隐私内容,如:Disallow: /123.html 也只是针对搜索引擎,对人为我们还是有风险。
上面说的几点都是出于安全性的考虑,那我们还写不写robots.txt呢?
根据我个人的操作来说,robots.txt还是要些的,毕竟优化很多时候离不开他,但是对于网站安全我们也要采取一些必要的措施与手段,那我们只能在程序的安全性上做手脚了,但要怎么做这手脚是程序员发挥作用的时候了,比如会员功能等。
其次,为了不告知他人我们的隐私,那么我们可以在robots里用“*”来隐藏我们的文件名。
从上图可以见,我们可以完全不暴露自己的文件名了,同时也能够对搜索引擎蜘蛛进行屏蔽!
文章
标签:西部数码 robots.txt文件 如何屏蔽搜索引擎抓取 搜索引擎优化