robots.txt是一种存放于网站根目录下的ASCII编码的文本文件(.TXT 格式),它会告诉搜索引擎网站中的哪些内容是不应被搜索引擎的爬虫程序抓取的,哪些是可以被爬虫程序抓取的 。
【robots文件是什么】robots.txt应放置于网站的根目录下(例如
https://www.fuyeor.com/robots.txt ) 。
文章插图
robots.txt 协议并不是一个规范,而只是约定俗成的 , 相当于”君子协议“,所以并不能保证爬虫一定遵守,但不遵守的一定是不良爬虫 。