經(jīng)過(guò)剖析網(wǎng)站日志Log文件我們能夠看到用戶(hù)和搜索引擎蜘蛛拜訪(fǎng)網(wǎng)站的行為數(shù)據(jù),這些數(shù)據(jù)能讓我們剖分出用戶(hù)和蜘蛛對(duì)網(wǎng)站的偏好以及網(wǎng)站的健康狀況。在網(wǎng)站日志剖析中,我們首要需求剖析的是蜘蛛行為。
在蜘蛛爬取及錄入過(guò)程中,搜索引擎會(huì)給特定權(quán)重網(wǎng)站分配相應(yīng)的資源量。一個(gè)搜索引擎友愛(ài)型的網(wǎng)站應(yīng)該充分利用這些資源,讓蜘蛛能夠敏捷、精確、全面的爬取有價(jià)值、用戶(hù)喜愛(ài)的內(nèi)容,而不浪費(fèi)資源在無(wú)用的、拜訪(fǎng)反常的內(nèi)容上。
但由于網(wǎng)站日志中數(shù)據(jù)量過(guò)大,所以我們一般需求憑借網(wǎng)站日志剖析東西來(lái)查看。常用的日志剖析東西有:光年日志剖析東西、web log exploer。
在剖析日志時(shí),關(guān)于單日日志文件我們需求剖析的內(nèi)容有:拜訪(fǎng)次數(shù)、逗留時(shí)刻、抓取量、目錄抓取計(jì)算、頁(yè)面抓取計(jì)算、蜘蛛拜訪(fǎng)IP、HTTP狀況碼、蜘蛛活潑時(shí)段、蜘蛛爬取途徑等;關(guān)于多日日志文件我們需求剖析的內(nèi)容有:蜘蛛拜訪(fǎng)次數(shù)趨勢(shì)、逗留時(shí)刻趨勢(shì)、全體抓取趨勢(shì)、各目錄抓取趨勢(shì)、抓取時(shí)刻段、蜘蛛活潑周期等。
下面我們來(lái)看看網(wǎng)站日志怎么剖析?
網(wǎng)站日志數(shù)據(jù)剖析解讀:
1、拜訪(fǎng)次數(shù)、逗留時(shí)刻、抓取量
從這三項(xiàng)數(shù)據(jù)中我們能夠得知:均勻每次抓取頁(yè)面數(shù)、單頁(yè)抓取逗留時(shí)刻和均勻每次逗留時(shí)刻。
均勻每次抓取頁(yè)面數(shù)=總抓取量/拜訪(fǎng)次數(shù)
單頁(yè)抓取逗留=每次逗留/每次抓取
均勻每次逗留時(shí)刻=總逗留時(shí)刻/拜訪(fǎng)次數(shù)
從這些數(shù)據(jù)我們能夠看出蜘蛛的活潑程度、親和程度、抓取深度等,總拜訪(fǎng)次數(shù)、逗留時(shí)刻、抓取量越高、均勻抓取頁(yè)面、均勻逗留時(shí)刻,標(biāo)明網(wǎng)站越受搜索引擎喜愛(ài)。而單頁(yè)抓取逗留時(shí)刻標(biāo)明網(wǎng)站頁(yè)面拜訪(fǎng)速度,時(shí)刻越長(zhǎng),標(biāo)明網(wǎng)站拜訪(fǎng)速度越慢,對(duì)搜索引擎抓取錄入較晦氣,我們應(yīng)盡量進(jìn)步網(wǎng)頁(yè)加載速度,削減單而立逗留時(shí)刻,讓爬蟲(chóng)資源更多的去抓取錄入。
別的,依據(jù)這些數(shù)據(jù)我們還能夠計(jì)算出一段時(shí)刻內(nèi),網(wǎng)站的全體趨勢(shì)體現(xiàn),如:蜘蛛拜訪(fǎng)次數(shù)趨勢(shì)、逗留時(shí)刻趨勢(shì)、抓取趨勢(shì)。
2、目錄抓取計(jì)算
經(jīng)過(guò)日志剖析我們能夠看到網(wǎng)站哪些目錄受蜘蛛喜愛(ài)、抓取目錄深度、重要頁(yè)面目錄抓取狀況、無(wú)效頁(yè)面目錄抓取狀況等。經(jīng)過(guò)比照目錄下頁(yè)面抓取及錄入狀況,我們能夠發(fā)現(xiàn)更多問(wèn)題。關(guān)于重要目錄,我們需求經(jīng)過(guò)表里調(diào)整添加權(quán)重及爬。魂P(guān)于無(wú)效頁(yè)面,在robots.txt中進(jìn)行屏蔽。
別的,經(jīng)過(guò)多日日志計(jì)算,我們能夠看到站表里行為給目錄帶來(lái)的作用,優(yōu)化是否合理,是否達(dá)到了預(yù)期作用。關(guān)于同一目錄,以長(zhǎng)時(shí)刻時(shí)刻段來(lái)看,我們能夠看到該目錄下頁(yè)面體現(xiàn),依據(jù)行為估測(cè)體現(xiàn)的原因等。
3、頁(yè)面抓取
在網(wǎng)站日志剖析中,我們能夠看到具體被蜘蛛爬取的頁(yè)面。在這些頁(yè)面中,我們能夠剖分出蜘蛛爬取了哪些需求被制止爬取的頁(yè)面、爬取了哪些無(wú)錄入價(jià)值頁(yè)面、爬取了哪些重復(fù)頁(yè)面url等,為充分利用蜘蛛資源我們需求將這些地址在robots.txt中制止爬取。
別的,我們還能夠剖析未錄入頁(yè)面原因,關(guān)于新文章,是由于沒(méi)有被爬取到而未錄入抑或爬取了但未放出。關(guān)于某些閱覽含義不大的頁(yè)面,可能我們需求它作為爬取通道,關(guān)于這些頁(yè)面,我們是否應(yīng)該做Noindex標(biāo)簽等。但從另一方面講,蜘蛛會(huì)弱智到靠這些無(wú)含義的通道頁(yè)爬取頁(yè)面嗎,蜘蛛不懂sitemap?【對(duì)此,筆者有疑惑,求共享經(jīng)歷】
4、蜘蛛拜訪(fǎng)IP
早年有人提出過(guò)經(jīng)過(guò)蜘蛛的ip段來(lái)判別網(wǎng)站的降權(quán)狀況,笨鳥(niǎo)感覺(jué)這個(gè)含義不大,由于這個(gè)后知性太強(qiáng)了。并且降權(quán)更多應(yīng)該早年三項(xiàng)數(shù)據(jù)來(lái)判別,用單單一個(gè)ip段來(lái)判別含義不大。IP剖析的更多用途應(yīng)該是判別是否存在收集蜘蛛、假蜘蛛、歹意點(diǎn)擊蜘蛛等。
5、拜訪(fǎng)狀況碼
蜘蛛經(jīng)常呈現(xiàn)的狀況碼如301、404等,呈現(xiàn)這些狀況碼要及時(shí)處理,以防止對(duì)網(wǎng)站造成壞的影響。
6、抓取時(shí)刻段
經(jīng)過(guò)剖析比照多個(gè)單日蜘蛛小時(shí)爬取量,我們能夠了解到特定蜘蛛關(guān)于本網(wǎng)站在特定時(shí)刻的活潑時(shí)段。經(jīng)過(guò)比照周數(shù)據(jù),我們能夠看到特定蜘蛛在一周中的活潑周期。了解這個(gè),關(guān)于網(wǎng)站內(nèi)容更新時(shí)刻有必定指導(dǎo)含義,而之前所謂小三大四等均為不科學(xué)說(shuō)法。
7、蜘蛛爬取途徑
在網(wǎng)站日志中我們能夠盯梢到特定IP的拜訪(fǎng)途徑,如果我們盯梢特定蜘蛛的拜訪(fǎng)途徑則能發(fā)現(xiàn)關(guān)于本網(wǎng)站結(jié)構(gòu)下蜘蛛的爬取途徑偏好。由此,我們能夠恰當(dāng)?shù)囊龑?dǎo)蜘蛛的爬取途徑,讓蜘蛛更多的爬取重要、有價(jià)值、新更新頁(yè)面。其間爬取途徑中我們雙能夠剖析頁(yè)面物理結(jié)構(gòu)途徑偏好以及url邏輯結(jié)構(gòu)爬取偏好。經(jīng)過(guò)這些,能夠讓我們從搜索引擎的視角去審視自己的網(wǎng)站。
|