下载香蕉视频APP

分析IIS蜘蛛爬行日志,看看谷歌百度是否喜歡你的網站內容

2011-10-18 10:43:40  來源:蜘蛛爬行日志  字號:【下載香蕉視頻APP:  下載香蕉視頻APP:  下載香蕉視頻APP:】  瀏覽:970

如(ru)果你(ni)是租用服(fu)(fu)務(wu)器或者有自己(ji)的(de)(de)(de)服(fu)(fu)務(wu)器來做網(wang)站(zhan)的(de)(de)(de),那么要記錄(lu)蜘(zhi)蛛訪(fang)問日志是很簡單和事,但是大部分(fen)站(zhan)長購買自己(ji)的(de)(de)(de)服(fu)(fu)務(wu)器是不太可能的(de)(de)(de)。這(zhe)里我(wo)教(jiao)你(ni)一種方(fang)法,可以很輕松的(de)(de)(de)記錄(lu)蜘(zhi)蛛訪(fang)問日志,從而分(fen)析日志,看(kan)百度等搜索引擎是否喜(xi)歡你(ni)的(de)(de)(de)網(wang)站(zhan)。

深度分析百度蜘蛛代碼,合理優化網站

研究百度蜘蛛的爬行規律對于網站優化意義重大,特別是對百度蜘蛛Baiduspider的研究。本文解釋一下百度蜘蛛爬行后返回代碼代表的具體含義:
2xx 成功
200 正常;請求已完成。
201 正常;緊接 POST 命令。
202 正常;已接受用于處理,但處理尚未完成。
203 正常;部分信息 — 返回的信息只是一部分。
204 正常;無響應 — 已接收請求,但不存在要回送的信息。
3xx 重定向
301 已移動 — 請求的數據具有新的位置且更改是永久的。
302 已找到 — 請求的數據臨時具有不同 URI。
303 請參閱其它 — 可在另一 URI 下找到對請求的響應,且應使用 GET 方法檢索此響應。
304 未修改 — 未按預期修改文檔。
305 使用代理 — 必須通過位置字段中提供的代理來訪問請求的資源。
306 未使用 — 不再使用;保留此代碼以便將來使用。
4xx 客戶機中出現的錯誤
400 錯誤請求 — 請求中有語法問題,或不能滿足請求。
401 未授權 — 未授權客戶機訪問數據。
402 需要付款 — 表示計費系統已有效。
403 禁止 — 即使有授權也不需要訪問。
404 找不到 — 服務器找不到給定的資源;文檔不存在。
407 代理認證請求 — 客戶機首先必須使用代理認證自身。
410 請求的網頁不存在(永久);
415 介質類型不受支持 — 服務器拒絕服務請求,因為不支持請求實體的格式。
5xx 服務器中出現的錯誤
500 內部錯誤 — 因為意外情況,服務器不能完成請求。
501 未執行 — 服務器不支持請求的工具。
502 錯誤網關 — 服務器接收到來自上游服務器的無效響應。
503 無法獲得服務 — 由于臨時過載或維護,服務器無法處理請求。

比如說:
2011-10-11 08:05:54 e3SVC1662187803 110.60.152.106 GET /index.php - 80 - 61.135.168.47 Baiduspider+(+//www.baidu.com/search/spider.htm) 200 0 0

1、110.60.152.106這個就是你的網站的 IP。
2、61.135.168.47這個是爬行你網站的蜘蛛IP。
2、 Baiduspider代表代表百度蜘蛛,我們通常以此確定是哪個搜索引擎蜘蛛。
3、/index.php 就代表百度蜘蛛訪問的網頁
4、2011-10-11 08:05:54是百度蜘蛛爬行的日期與時間
5、代碼中的200就代表百度蜘蛛爬行后返回HTTP狀態代碼,代碼中可以了解蜘蛛爬行后的反映。
6、e3SVC1662187803這個我們不用管。
7、80代表WEB服務器的端口。
如果你的網站是下載香蕉視頻APP://xinyanyuan.com.cn這就意味著百度蜘蛛在2011-10-11 08:05:54 爬過下載香蕉視頻APP://xinyanyuan.com.cn/index.php這一頁(ye),200代(dai)表了正常;請求已完成。對于(yu)日志(zhi)中的內容(rong),我們之需要(yao)(yao)關心的是(shi)3和5項(xiang),3代(dai)表的是(shi)網(wang)頁(ye),不需要(yao)(yao)在說明,下(xia)面(mian)重點說一下(xia)第五項(xiang),我們要(yao)(yao)根據第五項(xiang)來(lai)即使調整(zheng)網(wang)站。

通過下面的(de)程序你就可以(yi)(yi)記(ji)錄蜘(zhi)蛛(zhu)訪問日志,使(shi)用時你只要在你的(de)php頁面里(li)調(diao)用以(yi)(yi)下這個(ge)文件就可以(yi)(yi)了

function get_naps_bot()
{
$useragent strtolower($_SERVER[\\\'HTTP_USER_AGENT\\\'
]);

if (
strpos($useragent\\\'googlebot\\\') !== false
){
return 
\\\'Googlebot\\\'
;
}

if (
strpos($useragent\\\'msnbot\\\') !== false
){
return 
\\\'MSNbot\\\'
;
}

if (
strpos($useragent\\\'slurp\\\') !== false
){
return 
\\\'Yahoobot\\\'
;
}

if (
strpos($useragent\\\'baiduspider\\\') !== false
){
return 
\\\'Baiduspider\\\'
;
}

if (
strpos($useragent\\\'sohu-search\\\') !== false
){
return 
\\\'Sohubot\\\'
;
}

if (
strpos($useragent\\\'lycos\\\') !== false
){
return 
\\\'Lycos\\\'
;
}

if (
strpos($useragent\\\'robozilla\\\') !== false
){
return 
\\\'Robozilla\\\'
;

return 
false
;
}


function 
nowtime
(){
$date=date("Y-m-d.G:i:s"
);
return 
$date
;
}

$searchbot get_naps_bot
();

if (
$searchbot
) {
$tlc_thispage addslashes($_SERVER[\\\'HTTP_USER_AGENT\\\'
]);
$url=$_SERVER[\\\'HTTP_REFERER\\\'
];
$file="log"
;
$time=nowtime
();
$data=fopen($file,"a"
);
fwrite($data,"Time:$time        robot:$searchbot        URL:
$tlc_thispage\n");
fclose($data
);
}

?>

返回的http狀態諸如200 0 64分析說明

在百度研究院的論壇里看到一位版主有這樣的一段解釋:
蜘蛛在IIS里的行為200 0 64 的解釋:
根據(ju)我前(qian)段時間(jian)到現在(zai)的(de)觀察,雖然(ran)沒有足夠的(de)證據(ju),但(dan)是(shi)基本上可以肯定在(zai)IIS中,如果蜘蛛(zhu)后面(mian)(mian)的(de)號(hao)碼出(chu)現200 0 64,那么(me)網站(zhan)中的(de)這(zhe)個單頁(ye)(ye)面(mian)(mian)就會在(zai)搜索引擎中消失了.我被K的(de)頁(ye)(ye)面(mian)(mian)后面(mian)(mian)都寫著(zhu)200 0 64 ,不知道大家是(shi)否認同(tong),還有其他看法,當然(ran),我說(shuo)這(zhe)個不夠絕(jue)對(dui),因(yin)為我也(ye)有一個頁(ye)(ye)面(mian)(mian)后面(mian)(mian)顯示著(zhu)200 0 64 但(dan)是(shi)在(zai)搜索引擎中依(yi)舊可以找到.這(zhe)也(ye)說(shuo)明著(zhu)問題,但(dan)大多200 0 64行為的(de)網頁(ye)(ye)就已經沒有了.

所以我覺得蜘蛛的200 0 64行為可以被解釋為清除數據。

這(zhe)個解(jie)釋(shi)(shi),目前看 上去還(huan)是(shi)(shi)有(you)可(ke)信度(du)的(de)(de)(de)。我認為(wei),抓(zhua)取(qu)(qu)狀(zhuang)態成(cheng)(cheng)200 0 64是(shi)(shi)不正常(chang)的(de)(de)(de)抓(zhua)取(qu)(qu),正常(chang)的(de)(de)(de)抓(zhua)取(qu)(qu)是(shi)(shi)成(cheng)(cheng)功(gong)標志200 0 0,當變成(cheng)(cheng)了200 0 64的(de)(de)(de)狀(zhuang)態時說(shuo)明搜索引(yin)擎(qing)在抓(zhua)取(qu)(qu)這(zhe)個頁(ye)面的(de)(de)(de)時候出現了錯誤,沒(mei)有(you)正常(chang)的(de)(de)(de)進(jin)行常(chang)規抓(zhua)取(qu)(qu);對(dui)于百度(du)來說(shuo),百度(du)很可(ke)能(neng)是(shi)(shi)已經不再把這(zhe)些頁(ye)面抓(zhua)進(jin)主索引(yin)庫(ku),而是(shi)(shi)放進(jin)了“百度(du)沙(sha)盒”里進(jin)行考察,考察多久,就(jiu)看你如何改進(jin),也許(xu),你看不到(dao)百度(du)把這(zhe)些被K的(de)(de)(de)網站釋(shi)(shi)放出來的(de)(de)(de)時候,人是(shi)(shi)沒(mei)有(you)規律的(de)(de)(de)。

對于已經被百度拔毛的網站來說,如果你還在乎百度,那就趕緊改正網站上的一切作弊的地方消除過度優化消除惡意鏈接,等待百度再次光臨,一般來說,這需要2-3個月的時間,認真做(zuo)站(zhan)(zhan),發現問(wen)題(ti),解決(jue)問(wen)題(ti),才是網站(zhan)(zhan)最終獲得(de)成功的(de)關鍵。

下面給出一個分析案例

http狀態碼 200

2011-05-14 15:52:03  W3SVC1  112.124.232.185   GET /category-8-b0-min1100-max2200.html - 80 - 220.181.7.74 Baiduspider+(+baidu/search/spider.htm) 200 0 0

   分析(xi)下 200 0 0組成部分    sc-status(協(xie)議狀態) sc-substatus(協(xie)議子狀態) sc-win32-status(Win32狀態碼(ma))

   sc-status(協議狀態): 200 連接(jie)成功

   sc-substatus(協議子狀態) :0 成功(gong)

   sc-win32-status(Win32狀態碼):0 代表抓取成功并帶回數據庫 ; 64 指定的網絡名不再可用

   1: 在這個訪問記錄里面112.124.232.185是你服務器的IP地址,220.181.7.74  是bd蜘蛛的IP,/category-8-b0-min1100-max2200.html 為蜘蛛訪問你的頁面 80是端口 GET是打開方式 W3SVC1是記錄的文件夾,這里說明,bd蜘蛛已經訪問了你的category-8-b0-min1100-max2200.html 這個頁面,那么最重要的是最后面的這個參數200 0 0

   2、200 0 0 成功訪問該頁面,0代表抓取成功并帶回數據庫。這個時候你就放心了,這個頁面已經被bd收錄,但是還沒有釋放出來,bd更新時就可能釋放出來。

   3:200 0 64 網絡上流傳著這么三種解釋第一:64為K站的前兆。第二64的出現只是64位操作系統。第三:網絡不可達,由于某種原因無法完全打開頁面,或者網絡不穩定這些原因,導致蜘蛛無法帶回頁面或者說不抓取該頁面,所以200 0 64的解釋也應該為:訪問了該頁面,但并沒有任何抓取也沒有帶回數據庫。這種原因多為空間不(bu)穩(wen)(wen)定、服務(wu)器不(bu)穩(wen)(wen)定。

   4:304 0 0這(zhe)(zhe)個(ge)(ge)返回碼代表蜘蛛訪問的(de)頁(ye)面沒(mei)有(you)更新,和他之前來(lai)的(de)時候(hou)是(shi)一樣的(de),所以看到這(zhe)(zhe)個(ge)(ge)不(bu)要(yao)擔心,蜘蛛來(lai)過,只(zhi)不(bu)過你沒(mei)有(you)更新,所以他也(ye)不(bu)愿意帶走這(zhe)(zhe)個(ge)(ge)頁(ye)面。

   5:404 0 0這個是代表404頁面,但是有個很嚴重的問題,這個返回碼告訴我們,蜘蛛來到了404頁面并把他帶走了,崩潰~~~~,塞是這樣的話基本上你要倒霉了,塞你有太多的404,那么蜘蛛就會不斷是抓取,不斷的帶走,這樣會造成無數的重復頁面,最終導致K站或者降權,正確的返回罵是404 0 64 這就(jiu)代表蜘蛛沒有抓取(qu)你這個頁面(mian)。

   6:500錯誤500錯誤是服務器內部錯誤,是由(you)程序的(de)錯誤造成的(de),我(wo)不(bu)懂(dong)程序,但是500錯誤是會給你(ni)減分的(de),這(zhe)點(dian)基本(ben)的(de)邏(luo)輯都(dou)可(ke)以想的(de)到,塞發現500錯誤,馬上(shang)查(cha)看是哪個頁面的(de),然(ran)后去修正以下(xia)錯誤吧!

   7:302塞在日志中發(fa)現302的返回碼也是(shi)需要注意的,302為(wei)臨時重定(ding)向(xiang),塞你是(shi)長期(qi)的將這(zhe)個(ge)(ge)頁(ye)(ye)面重定(ding)向(xiang)到(dao)另一個(ge)(ge)頁(ye)(ye)面,麻煩(fan)你使(shi)用301永(yong)久重定(ding)向(xiang),塞是(shi)302的話bd蜘蛛下次來還(huan)會(hui)訪問這(zhe)個(ge)(ge)頁(ye)(ye)面,這(zhe)樣又會(hui)造成復(fu)制大量頁(ye)(ye)面的問題,結果(guo)肯定(ding)是(shi)K,所(suo)以,抽空檢查以下。

首頁  |  服務  |  產品  |  案例  |  關于  |  聯系  |  地圖

北(bei)京適(shi)普益(yi)康健(jian)身器材有(you)限公司 Copyright © 2003-2020. xinyanyuan.com.cn. All Rights Reserved}