淺析原創(chuàng)內(nèi)容怎么被百度拋棄的原因

發(fā)布時(shí)間：2016-01-18 文章來(lái)源：瀏覽次數(shù)：2506

在網(wǎng)頁(yè)運(yùn)營(yíng)改版過(guò)程中，常常有設(shè)計(jì)師或者運(yùn)營(yíng)同事有這樣的疑問(wèn)：我的頁(yè)面到底產(chǎn)生了多大價(jià)值？這個(gè)頁(yè)面引導(dǎo)的用戶接下來(lái)訪問(wèn)了多少商品的頁(yè)面？有沒(méi)有產(chǎn)生交易？有沒(méi)有到我想讓用戶去的那些頁(yè)面？

　　假如使用數(shù)據(jù)庫(kù)查詢，雖然可以得到一些結(jié)果，但查詢過(guò)程過(guò)于復(fù)雜，數(shù)據(jù)量大的網(wǎng)站查詢耗時(shí)太長(zhǎng)，很難靈活應(yīng)用到普通頁(yè)面。本文提出一種相對(duì)簡(jiǎn)樸的分析方法可以解決這個(gè)題目。

　　每個(gè)用戶在網(wǎng)站上的訪問(wèn)軌跡在網(wǎng)站日志或者數(shù)據(jù)庫(kù)中，都是一串URL，有的只訪問(wèn)了一兩步，有的訪問(wèn)了成百上千步，如何在如斯復(fù)雜繁多的數(shù)據(jù)中找到用戶在訪問(wèn)某個(gè)頁(yè)面（例如服裝首頁(yè)）之前或者之后n步，有多少人訪問(wèn)過(guò)特定頁(yè)面（例如交易頁(yè)面）？

　　先拋開(kāi)這個(gè)題目，我們想象這樣一個(gè)場(chǎng)景：在一個(gè)大會(huì)場(chǎng)中，熟人坐在某個(gè)座位上，假如我們知道他們的位置，我們的眼睛很輕易聚焦到這幾個(gè)位置，自動(dòng)忽略其他座位的人，請(qǐng)參看圖1。同樣，人們?cè)谟^察附近事物時(shí)，常常會(huì)把精力聚焦到自己關(guān)心的事物上，下意識(shí)忽略其他。我們?cè)?jīng)做過(guò)這樣的實(shí)驗(yàn)，我們的講演廳有4個(gè)很大的外置式擴(kuò)音器，分列在兩側(cè)。留意不是那種不顯眼的內(nèi)置式，任何人只要輕微留心就會(huì)看到。而當(dāng)我們要求會(huì)場(chǎng)的人閉上眼睛回答會(huì)場(chǎng)有幾個(gè)擴(kuò)音器時(shí)，很少有人能給出準(zhǔn)確謎底，由于大部門人會(huì)關(guān)心更重要的東西，好比會(huì)議內(nèi)容，提問(wèn)題目，甚至是如何找個(gè)恬靜的位子也比擴(kuò)音器的多少更讓人關(guān)心。

　　
網(wǎng)站日志

　　圖1

　　回到我們網(wǎng)站遇到的題目，某個(gè)項(xiàng)目的設(shè)計(jì)師關(guān)心的頁(yè)面并非全部，而只是幾個(gè)與之頁(yè)面有關(guān)的頁(yè)面和部門重要的指標(biāo)頁(yè)面。因此我們可以去除相關(guān)性不大的頁(yè)面，只留存關(guān)心頁(yè)面，從而縮短用戶路徑，大大進(jìn)步計(jì)算效率。

　　另外，我們把索引的思惟引入分析過(guò)程中，把網(wǎng)頁(yè)的URL按照一定規(guī)則（例如正則表達(dá)式）替代成簡(jiǎn)樸字符，把相關(guān)性不大的頁(yè)面統(tǒng)計(jì)替代為統(tǒng)一個(gè)字符（例如“0”），把一些過(guò)渡性的頁(yè)面替代成某個(gè)字符（例如”p”），如斯以來(lái)，每個(gè)用戶的訪問(wèn)路徑就可以表示為一個(gè)字符串，例如”a,c,0,0,0,a,p,p,c,0,c,d,0,0,0”。也有的用戶的訪問(wèn)路徑全為相關(guān)性不大的頁(yè)面，此時(shí)，路徑為”0,0,0,0,0,0,0,0,0,0,0,0,0,0”，這表示用戶并未訪問(wèn)到目標(biāo)頁(yè)面，假如不需要計(jì)算用戶比例或用戶分類，那么這樣的記實(shí)我們可以刪除掉。

　　假如需要留存其他的用戶信息，例如cookieid，登錄名，訪問(wèn)時(shí)間等信息，這個(gè)字符串會(huì)更加復(fù)雜些。假如我們研究目的比較簡(jiǎn)樸，還可以進(jìn)一步處理，假如不需要對(duì)步長(zhǎng)信息進(jìn)行分析，我們可以去掉相鄰重復(fù)的一些數(shù)據(jù)，把上式簡(jiǎn)化為” a,c,0,a,p,c,0,c,t,0”。

　　這個(gè)過(guò)程請(qǐng)參看圖2中的①和②，由此我們可以得到多個(gè)用戶的路徑的字符串形式的文件。

　　
網(wǎng)站日志

　　圖2

　　得到這個(gè)聚焦式用戶路徑文件后，我們就可以對(duì)這個(gè)字符串文件進(jìn)行分析了。例如，我們需要計(jì)算a頁(yè)面后有多少個(gè)c頁(yè)面，需要能忽略中間的翻頁(yè)頁(yè)面（p頁(yè)面）。在上例中的這個(gè)用戶的字符串中，就是1個(gè)用戶，2次c頁(yè)面。假如在訪問(wèn)了其他頁(yè)面之后再訪問(wèn)c頁(yè)面的行為也可計(jì)算入內(nèi)的話，那就是1個(gè)用戶，3次c頁(yè)面。

　　接下來(lái)就是分析的樣本量題目。一般分析過(guò)程中會(huì)講究“多而全”，但數(shù)據(jù)量大到一定級(jí)別，分析1/10甚至1/100人群與分析全樣本所得到的結(jié)果相差無(wú)幾，花費(fèi)良多資源去晉升一點(diǎn)精確度是一件很得不償失的事情。因此可以酌情分析小樣本量，節(jié)省分析本錢。

　　因?yàn)槟繕?biāo)頁(yè)面業(yè)務(wù)的獨(dú)特性，每次需要分析的方式也很個(gè)性化。路徑查詢器可以靈活應(yīng)對(duì)各種查詢。例如，我們需要計(jì)算a后面有t的人次，a后面緊隨著c的人次，行為符合某種模式的用戶數(shù)有多少等等。需要統(tǒng)計(jì)的模式在分析算法配置文件（圖2中的③）中進(jìn)行配置，查詢器會(huì)計(jì)算并導(dǎo)出終極結(jié)果。

　　另外，查詢器還支持分類信息查詢，根據(jù)用戶路徑文件的配置信息，對(duì)每種分類的人群分別查詢，或者導(dǎo)出符合某種模式的人群Cookieid，用戶名等，與其他數(shù)據(jù)存儲(chǔ)媒介聯(lián)接，取得這部門人群的其他信息，從而進(jìn)行綜合分析。

　　這種方法長(zhǎng)處在于比較靈活，假如網(wǎng)站的URL規(guī)則比較規(guī)范，在配置過(guò)程中可以多采用正則表達(dá)式，從而可以發(fā)現(xiàn)更多有趣的現(xiàn)象。

上一條：關(guān)于網(wǎng)站建設(shè)行業(yè)的遠(yuǎn)景分...

下一條：為什么合肥商城網(wǎng)站建設(shè)是...