发布时间:2024-6-9 分类: 电商动态
不知道你的网站日志里有没有不寻常的CC蜘蛛。访问名称为CCBot/2.0。我们来看看蜘蛛CCbot是什么样的。
1.CCbot是什么蜘蛛?
CCbot,名为CommonCrawlBot,是一个非营利基金会,致力于提供一个开放的Web爬网数据存储库,每个人都可以访问和分析这些数据。
2.你用CCbot蜘蛛做什么?
方法一。使用robots.txt
使用robots.txt文件允许或禁止蜘蛛访问页面。Robots.txt放在网站的根目录下。蜘蛛来访问时,会先找到并查看robots.txt文件,按照robots协议访问网站上的内容。
不允许任何蜘蛛访问您网站的任何部分
用户代理:*
不允许:/
.允许任何蜘蛛访问您网站的任何部分
用户代理:*
不允许:
CCbot蜘蛛不允许访问网站的任何部分
用户代理:ccbot
不允许:/
.允许机器人蜘蛛访问你网站的任何部分
用户代理:ccbot
不允许:
.允许CCbot蜘蛛访问您的网站,但不允许CCbot访问“wp-admin”文件夹
用户代理:ccbot
禁止:/wp-admin
方法二。使用元标签
您可以在页面中使用元标签来帮助控制搜索引擎蜘蛛对您网站的访问权限。如果您为所有页面使用模板,则可以在和之间添加一个元标记,该标记将应用于使用该模板的所有页面。如果要控制特定的页面,可以在和之间的每个页面上添加元标签。
(1).允许所有蜘蛛访问您的页面
.允许所有蜘蛛访问你的网页,并跟踪网页上的链接
.所有的蜘蛛都可以访问你的网页,但是他们不允许跟随链接。
不允许任何蜘蛛访问您的网页
.允许CCbot访问您的网页
.CCbot不允许访问您的页面
.允许CCbot访问您的页面并跟踪更多页面的链接
如果你在网站日志中也发现了CCbot,不要慌,接下来你需要做的就是允许它继续爬行或者禁止爬行。阿美个人认为这种蜘蛛没有多大意义。一旦发现这类蜘蛛频繁抓取,最好的办法就是禁止这些蜘蛛继续访问我们的网站。
原文:MAY的SEO博客/分享/ccbot.html不允许,请勿转载!
« 西安外带平台的“绞架”?肚子饿了吗?客户被要求退出美团 | 天猫DeEP数据化能源,新品牌迎来了更多的确定的成长力 »