robots协议就是robots.txt文件,是一个被放置在网站中的.TXT文件,为搜索引擎爬虫做出提示,设置允许或者不允许两种搜索语句,网络爬虫据此判断抓取或者不抓取该网页内容。即网站通过robots协议高速搜索引擎哪些页面可以抓取,哪些页面不能抓取的。robots协议的目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。
Robots.txt函数释义 常见的Robots.txt函数有“User-agent”“Disallow”“Aallow”: 1.User-agent:表示允许搜索引擎的身份,User-agent后缀不同则表示允许访问的搜索引擎有不同。例如:User-agent:Baiduspider表示允许百度蜘蛛,User-agent:Googlebot表示允许谷歌爬虫,User-agent: *则表示允许所有的搜索引擎。
2.Disallow:表示禁止访问的内容。例如:Disallow: /表示网站禁止抓取访问; Disallow:则表示都允许收录;Disallow: /news/表示news这个文件夹的内容禁止访问;Disallow: /XXX.html表示XXX.html这个网站禁止收录;Disallow: /*.jpg$表示禁止抓取jpg格式的图片,其他类型的图片格式以此类推。
3.Allow:是允许的意思,但需要注意: 他的使用一般都是结合Disallow他不能单独出现,意思是禁止爬取那个内容,加上Allow后意思是,除了可以爬取这个外其余的都禁止!
|