SEO的藝術(shù):匍匐與索引 |
發(fā)布時(shí)間:2018-06-21 文章來(lái)源:本站 瀏覽次數(shù):3578 |
2.2.1 匍匐與索引 為了提供盡可能好的成果,查找引擎企圖發(fā)現(xiàn)萬(wàn)維網(wǎng)上一切公開(kāi)的網(wǎng)頁(yè),然后顯現(xiàn)與用戶(hù)查找查詢(xún)最匹配的成果。這一進(jìn)程的第一步是Web匍匐。查找引擎從一組眾所周知的高質(zhì)量網(wǎng)站開(kāi)端,然后訪(fǎng)問(wèn)這些網(wǎng)站每個(gè)頁(yè)面上的鏈接,以發(fā)現(xiàn)其他網(wǎng)頁(yè)。 Web的鏈接結(jié)構(gòu)將一切公共的網(wǎng)頁(yè)聯(lián)絡(luò)在一起。經(jīng)過(guò)鏈接,查找引擎的自動(dòng)機(jī)器人(稱(chēng)作匍匐器或許蜘蛛)能夠接觸到數(shù)以?xún)|計(jì)相互連接的文檔。 然后,查找引擎加載其他頁(yè)面并剖析其內(nèi)容。這一個(gè)進(jìn)程不斷重復(fù)直到匍匐進(jìn)程完結(jié)。因?yàn)閃eb巨大而雜亂,因此匍匐進(jìn)程的雜亂度極高。 查找引擎并不是每天都企圖匍匐整個(gè)Web.實(shí)際上,查找引擎能夠發(fā)現(xiàn)有些頁(yè)面的重要性不足以出現(xiàn)在查找引擎中,然后不對(duì)這些頁(yè)面進(jìn)行匍匐。下一節(jié)將評(píng)論重要性所起的效果。 一旦查找引擎在匍匐中讀取一個(gè)頁(yè)面,其下一步作業(yè)就是解析它們的代碼,并將頁(yè)面中精選的部分存放在大型磁盤(pán)陣列里,以便在查詢(xún)時(shí)調(diào)用。這一進(jìn)程的第一步是樹(shù)立要害詞詞典。要害詞詞典是分類(lèi)查找引擎匍匐得來(lái)的每個(gè)頁(yè)面上一切重要要害詞的大型數(shù)據(jù)庫(kù)。其他一些數(shù)據(jù)(如頁(yè)面鏈接地圖、鏈接的錨文本、鏈接是否被當(dāng)作廣告等)也記載在內(nèi)。存儲(chǔ)瞬間內(nèi)就能訪(fǎng)問(wèn)到的數(shù)千億(甚至萬(wàn)億)個(gè)網(wǎng)頁(yè)的信息是極端深重的使命,為此查找引擎樹(shù)立了許多大型的數(shù)據(jù)中心。 構(gòu)建查找引擎的要害概念之一是斷定從Web的哪個(gè)方位開(kāi)端匍匐。雖然從理論上講,能夠從許多不同的當(dāng)?shù)亻_(kāi)端,可是最理想的情況仍是從一組信任的網(wǎng)站開(kāi)端匍匐。 從已知可信的一組網(wǎng)站開(kāi)端,查找引擎就能衡量經(jīng)過(guò)匍匐進(jìn)程找到的其他網(wǎng)站的可信度。7.1節(jié)將更具體地評(píng)論可信度在查找算法中所起的效果。 |
|