怎么檢索和剖析網(wǎng)站日志文件 |
發(fā)布時間:2018-05-22 文章來源:本站 瀏覽次數(shù):3782 |
作為SEOer,咱們運用的林林總總的東西,以搜集林林總總的技能問題,網(wǎng)站剖析,抓取確診,百度站長東西等。所有這些東西是有用的,但都無法比擬在網(wǎng)站日志數(shù)據(jù)剖析查找引擎蜘蛛抓取,就像Googlebot到爬取您的網(wǎng)站并您的網(wǎng)站上留下了一個實在的記錄。這是網(wǎng)絡(luò)效勞器日志。日志是一個強壯的源數(shù)據(jù)常常沒有得到充分使用,但有助于堅持您的網(wǎng)站的查找引擎抓取檢查的完整性。 效勞器日志是由一個特定的效勞器進行具體記錄了每一個動作。在一個Web效勞器的情況下,你能夠得到許多有用的信息。怎么檢索和剖析日志文件,并根據(jù)您的效勞器的呼應(yīng)代碼(404,302,500等)的辨認(rèn)問題。我將它分解成2個部分,每個部分突出不同的問題,能夠發(fā)現(xiàn)在您的Web效勞器日志 一、獲取日志文件 查找引擎抓取網(wǎng)站信息必會在效勞器上留下信息,這個信息就在網(wǎng)站日志文件里。咱們經(jīng)過日志能夠了解查找引擎的拜訪情況,一般經(jīng)過主機效勞商注冊日志功用,再經(jīng)過FTP拜訪網(wǎng)站的根目錄,在根目錄下能夠看到一個log或許weblog文件夾,這里邊就是日志文件,咱們把這個日志文件下載下來,用記事本(或瀏覽器)翻開就能夠看到網(wǎng)站日志的內(nèi)容。那么究竟這個日志里邊躲藏了什么玄機呢?其實日志文件就像飛機上的黑匣子。咱們能夠經(jīng)過這個日志了解許多信息,那么究竟這個日志給咱們傳遞了什么內(nèi)容呢?下面先做一個簡單的闡明。 日期:這將讓你一天查找引擎抓取速度的發(fā)展趨勢進行剖析。 被爬取文件:這將通知你哪些被抓取的目錄和文件,并在某些路段或類型的內(nèi)容能夠協(xié)助查明問題。 情況碼:(只列出常見到并能直接反正網(wǎng)站問題的情況碼) 200情況碼:懇求已成功,懇求所希望的呼應(yīng)頭或數(shù)據(jù)體將隨此呼應(yīng)回來。 302情況碼:懇求的資源現(xiàn)在暫時從不同的URI呼應(yīng)懇求。 404情況碼:懇求失利,懇求所希望得到的資源未被在效勞器上發(fā)現(xiàn)。 500情況碼:效勞器遇到了一個未曾預(yù)料的情況,導(dǎo)致了它無法完成對懇求的處理。 - - 供給了哪些網(wǎng)頁被爬蟲運轉(zhuǎn)到并反響出什么樣的問題。 從哪里來:盡管這不一定是有用的剖析查找機器人,它是非常有價值的,其他的流量剖析。 哪種爬蟲:這個會通知你哪個查找引擎爬蟲在你的網(wǎng)頁上運轉(zhuǎn)的。 二、解析網(wǎng)站日志文件 現(xiàn)在你需求一個日志剖析東西,由于假如你的網(wǎng)站有幾M或幾十M甚至百M以上的日志數(shù)據(jù)時,你不可能一條條去看。再說,就算日志數(shù)據(jù)不多,一條條看也是不科學(xué)的。
查找引擎抓取您的網(wǎng)站有最快的方法是看在正在效勞的效勞器呼應(yīng)代碼。404(找不到頁面)可能意味著抓取那寶貴的資源被浪費了;302重定向懇求的資源現(xiàn)在暫時從不同的URI呼應(yīng)懇求;500是效勞器遇到了一個未曾預(yù)料的情況,導(dǎo)致了它無法完成對懇求的處理,能夠剖分出效勞器呈現(xiàn)的問題。盡管網(wǎng)站辦理東西供給了一些信息,這樣的過錯,會給你的網(wǎng)站形成一個非常大的影響。
302呈現(xiàn)的問題數(shù)量是能夠承受的,可是不代表能夠放著不去處理,咱們應(yīng)該有更好的方法來處理這些問題,或許用一個robots.txt指令應(yīng)掃除這些頁面被抓取。 404也需求處理,找出潛在的問題是阻隔404目錄或許運用rel =”nofollow”注釋這些404鏈接。當(dāng)然404的頁面也有必要要有。 結(jié)語 百度網(wǎng)站辦理為您供給抓取過錯的信息,但在許多情況下,它們約束了數(shù)據(jù)。作為SEO的,咱們應(yīng)該使用全部可用的數(shù)據(jù),究竟只要一個數(shù)據(jù)源,你能夠真正依托自己的源。日志不說謊! |
|