yy6080午夜理论大片久久精品,四虎国产精品永久地址48,国产精品视频免费一区二区三区

搜索引擎關鍵詞排名的鏈接原理

2013.09.14
0
分享

類型 : 行業(yè)動態(tài)

在Google誕生之前，傳統(tǒng)搜索引擎主要依靠頁面內容中的關鍵詞匹配搜索詞進行排名。這中排名方式的短處現(xiàn)在看來是顯而易見，那就是很容易被刻意操縱。黑帽SEO在頁面上堆積關鍵詞。或加入與主題無關的熱門關鍵詞，都能提高排名，使搜索引擎排名結果質量大為下降?，F(xiàn)在的搜索引擎都使用鏈接分析技術減少垃圾，提高用戶體驗。本節(jié)就簡要探討鏈接在搜索引擎排名中的應用原理。

在排名中計入鏈接因素，不僅有助于減少垃圾，提高結果相關性，也使傳統(tǒng)關鍵詞匹配無法排名的文件能夠被處理。比如圖片、視頻文件無法進行關鍵詞匹配，但是卻可能有外部鏈接，通過鏈接信息，搜索引擎就可以了解圖片和食品的內容從而排名。

鏈接因素現(xiàn)在已經(jīng)超過頁面內容的重要性。不過理解鏈接關系比較抽象。頁面上的因素對排名的影響能看得到：關鍵詞在標題標簽中出現(xiàn)有什么影響，出現(xiàn)在最前面又有什么影響，有技術資源的還可以大規(guī)模地統(tǒng)計，技術出關鍵詞出現(xiàn)在標題標簽中不同位置與排名之間的關系。雖然這種關系不一定是因果關系，但至少是統(tǒng)計上的聯(lián)系，使SEO人員大致了解如何優(yōu)化。

李彥宏超鏈分析

百度創(chuàng)始人李彥宏在回國之前就是美國頂級的搜索引擎工程師之一。據(jù)說李彥宏在尋找風險投資時，投資人詢問其他三個搜索引擎業(yè)界的技術高人一個問題：要了解搜索引擎技術應該問誰。這三個被問到的高人中有兩個人回答：搜索引擎的事就問李彥宏。由此投資人斷定李彥宏是最了解搜索引擎的人之一。

這事實就是在現(xiàn)實生活中類似于鏈接關系的應用。要判斷哪個頁面最具權威性，不能光看頁面自己怎么說，還要看其他頁面怎么評價。

李彥宏1997年就提交了一份名為“鏈接文件檢索系統(tǒng)和方法”的專利，這比Google傳說人發(fā)明PR要早得多，不得不說這是非常具有前瞻性的研究工作。在這份專利中，李彥宏提出了與傳統(tǒng)信息檢索系統(tǒng)不同的基于鏈接的排名方法。

這個系統(tǒng)除了索引頁面之外，還建立一個鏈接詞庫，記錄鏈接錨文字的一些相關信息，如錨文字中包含哪些關鍵詞，發(fā)出鏈接的頁面索引，包含特定錨文字的鏈接總數(shù)，包含特定關鍵詞的鏈接都指向哪些頁面。詞庫不僅包含關鍵詞原型，也包含同一個詞干的其他衍生關鍵詞。

根據(jù)這些鏈接數(shù)據(jù)，尤其是錨文字，計算出基于鏈接的文件相關性。在用戶搜索時，將得到的基于鏈接的相關性與基于關鍵詞匹配的傳統(tǒng)相關性綜合使用，得到更準確的排名。

在今天看到，這種基于鏈接的相關性計算是搜索引擎的常態(tài)，每個SEO人員都知道。但是在十幾年前，這無疑是非常創(chuàng)新的概念，當然現(xiàn)在的搜索引擎算法對鏈接的考慮，已經(jīng)不僅僅是錨文字，實際上要復雜的多。

HITS算法

HITS是英文Hyperlink-Induced Topic Search 的縮寫,意譯為“超鏈誘導主題搜索” 。

按照HITS算法，用戶輸入關鍵詞后，計算對返回的匹配頁面技術兩種值，一種是樞紐值，另一種是權威值，這兩個值是相互依存、相互影響的。所謂樞紐值，指的是頁面上所有導出鏈接指向頁面的權威值之和。權威值指的是所有導入鏈接所在頁面的樞紐值之和。

上面的定義比較拗口，我們可以簡單的說，HITS算法會提煉出兩種比較重要的頁面。也就是樞紐頁面和權威頁面。樞紐頁面本身可能沒有多少導入鏈接，但是有很多導出鏈接指向權威頁面。權威頁面本身可能導出鏈接不多，但是有很多來自樞紐頁面的導入鏈接。

典型的樞紐頁面就是如雅虎目錄，開放目錄或好123這樣的網(wǎng)站目錄。這種高質量的網(wǎng)站目錄作用就在于指向其他權威網(wǎng)站，所有稱為樞紐，而權威頁面有很多導入鏈接。其中包含很多來自樞紐頁面的鏈接。權威頁面通常是提供真正相關內容的頁面。

HITS算法是針對特定查詢詞的，所以稱為主題搜索。

HITS算法的最大缺點是，它在查詢階段進行計算，而不是在抓取或預處理階段。所以HITS算法是以犧牲查詢排名相應為代價的。也正因為如此。原始HITS算法在搜索引擎中并不常用。不過HITS算法的思想很可能融入到搜索引擎的索引階段，也就是根據(jù)鏈接關系找出具有樞紐特征或權威特征的頁面。

稱為權威頁面的第一優(yōu)先，不過難度比較大，唯一的辦法就是獲得高質量的鏈接，當你的網(wǎng)站不能成為權威頁面時，就讓它成為樞紐頁面。所以導出鏈接也是當前搜索引擎排名的因素之一。絕不鏈接到其他網(wǎng)站的做法，并不是好的SEO辦法。

TrustRank算法

TrustRank是近年來比較受關注的基于鏈接關系的排名算法。TrustRank可以翻譯為“信任指數(shù)”。

TrustRank算法最初來自于2004年斯坦福大學和雅虎的一項聯(lián)合研究，用來檢測垃圾網(wǎng)站，并且于2006年申請專利。TrustRank算法發(fā)明人還發(fā)表了一份專門的PDF文件，說明TrustRank算法的應用。

TrustRank算法并不是有Google提出的，不過哦由于Google所占市場份額最大，而且TrustRank在Google排名中也是一個非常重要的因素，所以有些人誤認為TrustRank是Google提出的。更讓人糊涂的是，Google曾經(jīng)把TrustRank申請為商標，但是TrustRank商標中的TrustRank指的是Google檢測含有惡意代碼網(wǎng)站的方法，而不是指排名算法中的信任指數(shù)。

TrustRank算法基于一個基本假設：好的網(wǎng)站很少會鏈接到壞的網(wǎng)站，反之則不成立，也就是說，壞的網(wǎng)站很少鏈接到好的網(wǎng)站這句話不成立。正相反，很多垃圾網(wǎng)站會鏈接到高權威、高信任指數(shù)的網(wǎng)站，試圖提高自己的信任指數(shù)。

基于這個假設，如果能挑選出可以百分之百信任的網(wǎng)站，這些網(wǎng)站的Trustrank評為最高，這些TrustRank最高的網(wǎng)站所鏈接的網(wǎng)站信任網(wǎng)站稍微降低，但也會提高。與此類似，第二層被信任的網(wǎng)站鏈接出去的第三層網(wǎng)站，信任度繼續(xù)下降。由于種種原因，好的網(wǎng)站也不可避免的會鏈接到一些垃圾網(wǎng)站，不過離第一層網(wǎng)站點擊距離越近，所傳遞的信任指數(shù)越高，離第一級網(wǎng)站點擊距離越遠，信任指數(shù)將以此下降，這樣，通過TrustRank算法，就能給所有網(wǎng)站計算出相應的信任指數(shù)，離第一層網(wǎng)站越遠，成為垃圾網(wǎng)站的可能性越大。

計算TrustRank值首先要選擇一批種子網(wǎng)站，然后人工查看網(wǎng)站，設定一個初始TrustRank值，挑選種子網(wǎng)站的兩種方式，一種是選擇導出鏈接最多的網(wǎng)站，因為TrustRank算法就是計算指數(shù)隨著導出鏈接的衰減。導出鏈接多的網(wǎng)站，在某種意義上可以理解為“逆向PR值”比較高。

另一種挑選種子網(wǎng)站的方法是選PR值高的網(wǎng)站，因為PR值越高，在搜索結果頁面出現(xiàn)的概率越大。這些網(wǎng)站才正是TrustRank算法最關注的、需要調整排名的網(wǎng)站，那些PR值很低的頁面，在沒有TrustRank算法時排名也很靠后，計算TrustRank意義就不大了。

根據(jù)測算，挑選出兩百個左右網(wǎng)站作為種子，就可以比較準確地計算出所有網(wǎng)站的TrustRank值。

計算TrustRank隨鏈接關系減少的公式有兩種形式。一種是隨著鏈接次數(shù)衰減，也就是說如果第一層頁面TrustRank指數(shù)為100，第二層頁面衰減為90，第三層衰減為80.第二種計算辦法是按導出鏈接數(shù)目分配TrustRank值，也就是說，如果一個頁面的TrustRank值為100，頁面上有5個導出鏈接，那個鏈接將傳遞20%的TrustRank值，衰減和分配這兩種計算方法通常綜合使用，整體效果都是隨著鏈接層次的增加，TrustRank值逐步降低。

得出網(wǎng)站和頁面的TrustRank值后，可以通過兩種方式影響排名。一種是把傳統(tǒng)排名算法挑選出的多個頁面，根據(jù)TrustRank值比較，重新做排名調整。另一種是設定一個最低的TrustRank值門檻，只有超過這個門檻的頁面，才被認為有足夠的質量進入排名，低于這個門檻的頁面將被認為是垃圾頁面，從搜索結果中過濾出去。

雖然TrustRank算法最初是作為檢測垃圾的辦法，但在現(xiàn)在的搜索引擎排名算法中，TrustRank概念使用更為廣泛，常常影響大部分網(wǎng)站的整體排名，TrustRank算法最初針對的是頁面級別，現(xiàn)在在搜索引擎算法中，TrustRank值也通常表現(xiàn)在域名級別，整個域名的信任指數(shù)越高，整體排名能力就越強。

Google PR

PR是PageRank的縮寫。Google PR理論是所有基于鏈接的搜索引擎理論中最有名的。PR是Google創(chuàng)始人之一拉里佩奇發(fā)明的，用于表示頁面重要性的概念。用最簡單的話說就是，反向鏈接越多的頁面就是越重要的頁面，因此PR值也就越高。Google PR有點類似于科技文獻中互相應用的概念，被其他文獻引用較多的文獻，很可能是比較重要的文獻。

PR的概念和計算

我們可以把互聯(lián)網(wǎng)歷程成由結點和鏈接組成的有向圖，頁面就是一個個結點，頁面之間的有向鏈接傳遞著頁面的重要性。一個鏈接傳遞的PR值決定于導入鏈接所在頁面的PR值，發(fā)出鏈接的頁面本身PR值越高，所能傳遞出去的PR值也越高。傳遞的PR數(shù)值也取決于頁面上的導出鏈接數(shù)目。對于給定PR值的頁面來說，假設能傳遞到下級頁面100份的PR，頁面上有10個導出鏈接，每個鏈接能傳遞10份PR，頁面上有20個導出鏈接的話，每個鏈接只能傳遞5份PR。所以一個頁面的PR值取決于導入鏈接總數(shù)，發(fā)出鏈接頁面的PR值，以及發(fā)出鏈接頁面上的導出鏈接數(shù)目。

PR的兩個比喻模型

關于PR有兩個著名的比喻。一個比喻是投票。鏈接就像民主投票一樣，A頁面鏈接到B頁面，就意味著A頁面對B頁面投了一票，使得B頁面的重要性提高。同時A頁面本身的PR值決定了A所能投出去的投票力，PR值越高的頁面，投出的票也更重要。在這個意義上，傳統(tǒng)基于關鍵詞匹配的算法是看頁面直接說頁面內容是什么，基于鏈接的PR則是看別人怎么評價這個頁面。

第二個比喻是隨機沖浪比喻。假設一個訪問者從一個頁面開始，不停地隨機點擊鏈接，訪問下一個頁面，有時候這個用戶感到無聊了，就再點擊鏈接，就隨機跳到另一個網(wǎng)址，再次開始不停地向下點擊。所謂PR值，也就是一個頁面在這種隨機沖浪訪問中被訪問到的概率。一個頁面導入鏈接越多，被訪問的概率也越高，因此PR值也越高。

上一篇：湖州網(wǎng)站優(yōu)化：網(wǎng)站關鍵詞選擇策略
上一篇：建網(wǎng)站企業(yè)應該怎么準備資料

新聞中心

搜索引擎關鍵詞排名的鏈接原理