HTTPS站点如何做才能让百度蜘蛛抓取
我们可以根据user-agent来判断spider。然后做301/302定向,百度spider引擎定向到HTTP
非百度SPIDER 定向到HTTPS
目前百度的度各个产品使用的user-agent:
目前有两种方法
第一种方法:可以采用.htaccess 301重定向
RewriteEngine On
# BEGIN Force SSL
RewriteCond %{HTTPS} !on [NC]
RewriteCond %{HTTP_USER_AGENT} !( Baiduspider| Baiduspider-image | Baiduspider-video | Baiduspider-news | Baiduspider-favo | Baiduspider-cpro | Baiduspider-ads | Baiduspider) [NC]
RewriteRule (.*) https://%{SERVER_NAME}%{REQUEST_URI} [R=301,NC,L]
# END Force SSL
第二种方法:php的 $_SERVER['HTTP_USER_AGENT']来进行判断
<?php $tmp = $_SERVER['HTTP_USER_AGENT'];
if (strpos($useragent, 'baiduspider') !== false){ return 'baiduspider'; }
if (preg_match(“#(baiduspider)#si”, $_SERVER['HTTP_USER_AGENT'])) { header(“HTTPS/1.1 301 Moved Permanently”); header(“Location: http://www.XXXXX.com/”); exit; }}
采用HTTPS的站点都是要求安全性能的站点,所以站长还是采用形式,需要安全的站点采用二级域名,其余用目录形式表现。