目前仍然有人仅使用robots.txt文件来阻止他们的网站在Google或Bing中建立索引。结果,他们的网站仍然出现在搜索引擎中。你知道为什么会出现这样的结果吗?因为robots.txt实际上不会执行后者,即使它确实阻止了对网页建立索引。让我在这篇文章中解释如何禁止网页被搜索引擎索引?
索引
将网站或页面的内容下载到搜索引擎的服务器,然后将其添加到其“索引”的过程。
排名/列表/显示
在搜索结果页面(又称SERP)中显示网站。
因此,尽管最常见的过程是从索引到搜索引擎排名,一个网站没有被搜索就不会有排名。如果链接指向页面、域铭或任何地方,则Google会跟踪该链接。如果该域上的robots.txt阻止了搜索引擎对某一页面的索引,但如果它可以通过其他页面被搜索引擎发现,甚至被索引,它仍有可能会出现在搜索引擎中。
如果您真的要完全禁止搜索引擎对网页建立索引,那么将请求添加到要阻止的特定页面上。有以下两种方法:
1. 添加meta robots标签来禁止页面索引
禁止您的页面被搜索引擎索引最有效的方式是使用漫游器元标记。将下面的标记添加到您的页面中:
2. 添加X-Robots-Tag HTTP标头
为了使将meta robots标记添加到网站的每个页面的过程变得更加容易,搜索引擎提出了X-Robots-Tag HTTP标头。这样,您就可以指定一个HTTP标头,X-Robots-Tag并像meta robots标签值一样设置该值。如果您的站点在Apache上运行,并且启用了mod_headers(通常是启用),则可以将以下单行添加到.htaccess文件中:
Header set X-Robots-Tag "noindex, nofollow"
这将禁止您的页面被搜索引擎索引,且永远不会显示在搜索结果中。
如何禁止网页被搜索引擎索引?本文提供的两种解决方法,您学会了吗?