技術觀點

加強技術投入,共享技術成果

Google--PageRank技術解密(一)


編輯:杭州大顯網絡科技有限公司更新日期:2009-05-29

PageRank(網頁級別)是Google用于評測一個網頁“重要性”的一種方法。在揉合了諸如Title標識和Keywords標識等所有其它因素之后,Google通過PageRank來調整結果,使那些更具“重要性”的網頁在搜索結果中另網站排名獲得提升,從而提高搜索結果的相關性和質量。

1. 什么是PageRank
2. PageRank的決定因素
3. 如何查知PageRank
4. PageRank的重要性
5. Google的前1,000項搜索結果
6. PageRank與其它影響網站排名因素間的區別

一:什么是PageRank(網頁級別)

PageRank(網頁級別)是Google用于評測一個網頁“重要性”的一種方法。在揉合了諸如Title標識和Keywords標識等所有其它因素之后,Google通過PageRank來調整結果,使那些更具“重要性”的網頁在搜索結果中另網站排名獲得提升,從而提高搜索結果的相關性和質量。

簡單說來,Google通過下述幾個步驟來實現網頁在其搜索結果頁(SERPS)中的排名:
1) 找到所有與搜索關鍵詞匹配的網頁
2) 根據頁面因素如標題\關鍵詞密度等排列等級
3) 計算導入鏈接的錨文本中的關鍵詞
4) 通過PageRank得分調整網站排名結果
事實上,真正的網站排名過程并不是這么簡單,我們會在后面進行詳細深入的闡述。

二:PageRank的決定因素

Google的PageRank是基于這樣一個理論:若B網頁設置有連接A網頁的鏈接(B為A的導入鏈接時),說明B認為A有鏈接價值,是一個“重要”的網頁。當B網頁級別(重要性)比較高時,則A網頁可從B網頁這個導入鏈接分得一定的級別(重要性),并平均分配給A網頁上的導出鏈接。

導入鏈接(也叫逆向鏈接)指鏈至你網站的站點,也就是我們一般所說的“外部鏈接”。而當你鏈至另外一個站點,那么這個站點就是你的“導出鏈接”,即你向其它網站提供的本站鏈接。

PageRank反映了一個網頁的導入鏈接的級別(重要性)。所以一般說來,PageRank是由一個網站的導入鏈接的數量和這些鏈接的級別(重要性)所決定的。

三:如何知道一個網頁的PageRank得分

可從http://toolbar.google.com上下載并安裝Google的工具欄,這樣就能顯示所瀏覽網頁的PageRank得分了。PageRank得分從0到10,若不能顯示PageRank得分,可檢查所安裝版本號,需將老版本完全卸載,重啟機器后安裝最新版本即可。

四:PageRank的重要性

搜索引擎網站排名算法中的各排名因子的重要性均取決于它們所提供信息的質量。但如果排名因子具有易操縱性,則往往會被一些網站管理員利用來實現不良競爭。例如初引入的排名因子之一--關鍵詞元標識(Meta Keywords),是由于理論上它可以很好地概括反映一個頁面的內容,但后來卻由于一些網站管理員的惡意操縱而不得不黯然退出。所以“加權值”--即我們對該因子提供信息的信任程度是由排名因子的易操縱程度和操縱程度共同決定的。

PageRank無疑是頗難被操縱的一個排名因子了。但在它最初推出時針對的只是鏈接的數量,所以被一些網站管理員鉆了空子,利用鏈接工廠和訪客簿等大量低劣外部鏈接輕而易舉地達到了自己的目的。Google意識到這個問題后,便在系統中整合了對鏈接的質量分析,并對發現的作弊網站進行封殺,從而不但有效地打擊了這種做法,而且保證了結果的相關性和精準度。

五:Google的前1,000項搜索結果

一般說來,網站排名因素包括網頁標題(META TITLE),網頁正文中的關鍵詞密度,錨文本(也叫鏈接文本,指鏈接或超鏈的文本內容)和PageRank所決定的。

請記?。簡慰縋ageRank是無法使你獲得比較理想的網站排名的。PageRank只是網站排名算法中的一個乘積因子,若你網站的其它排名因子的得分是零,就算你的PageRank是兩百億,最后的得分還是零。但這并不是說PageRank就毫無價值,而是在什么情況下PageRank才能完全發揮其功力。

如果在Google上進行廣泛搜索,看起來好象有幾千個結果,但實際顯示最多前1,000項結果。例如對“car rental”,顯示搜索結果為5,110,000,但實際顯示結果只有826個。而且用時只有0.81秒。試想一下,0.84秒的時間就可以計算這五百萬搜索結果的每個排名因子得分,然后給出最終我們所看到的網站排名結果嗎?

答案就在于:搜索引擎選取與查詢條件最相關的那些網頁形成一個子集來加速搜索的速度。例如:假設子集中包含2,000個元素,搜索引擎所做的就是使用排名因子中的兩到三個因素對整個數據庫進行查詢,找到針對這兩三個排名因子得分較高的前2,000個網頁。(請記住,雖然可能有五百多萬搜索結果,但最終實際顯示的1,000項搜索結果卻是從這個2,000頁的子集中提煉出來的。) 然后搜索引擎再把所有排名因子整合進這2,000項搜索結果組成的子集中并進行相應的網站排名。由于按相性進行排序,子集中越靠后的搜索結果(不是指網頁)相關性(質量)也就越低,所以搜索引擎只向用戶顯示與查詢條件最相關的前1,000項搜索結果。

請注意,在搜索引擎生成這2,000項網頁的子集中我們強調了“相關性”這個詞。即搜索引擎找尋的是與查詢條件有共同主題的網頁。如果這時候我們把PageRank考慮進去,就很可能得到一些PageRank很高但主題只是略微相關的一些搜索結果。顯然這有違搜索引擎為用戶提供最為相關和精準的搜索結果的原則。

一旦理解了為什么會如此,就說明了為什么你應當首先努力在“頁面”因子和錨文本上下足工夫,最后才是PageRank。所以關鍵在于:

你必須首先在頁面因素和/或錨文本上下足工夫,使這些排名因子能夠獲得足夠的得分,從而使你的網站能夠按目標關鍵詞躋身于這2,000項搜索結果的子集中,否則PageRank再高也與事無補。

六:PageRank和其它排名因子之間的不同

網頁Title標識 僅能被列出一次。
正文中的關鍵詞 連續的重復只會降低關鍵詞的重要性,重要的是接近度。
錨文本 加權值極高,但存在上限,超過上限的錨文本信息將被忽略或降低權值。
PageRank 潛質無窮,沒有上限的限制,但需要大量工作。
備注 其它排名因子都存在一個上限(闕值),超過上限部分其權值將降低或不再計分。PageRank則不存在此問題。

Google--PageRank技術解密(二)

除了PageRank外,其它排名因子都存在一個闕值,也叫臨界值或差值。即當增長到一定值時,因子的重要性反而開始慢慢降低,則該值就是非PageRank因子的闕值。

7. 非PageRank因素闕值
8. 使用闕值推知兩種排名策略的價值
9. PageRank的計算

七:非PageRank因子的上限闕值(Non-PageRank Factor Threshold)
除了PageRank外,其它排名因子都存在一個闕值,也叫臨界值或差值。即當增長到一定值時,因子的重要性反而開始慢慢降低,則該值就是非PageRank因子的闕值。

設闕值為1,000,如果網頁A和B是我們對某一查詢條件的其中兩個查詢結果,且A的總分數(包括頁面因子得分和PageRank得分)是900,B是500,則顯然A會排在B的前面。但由于A和B的分數均低于我們上面假設的非PageRank因子闕值,因而在不改變PageRank的情況下,我們可以通過對B頁進行精心的頁面優化使頁面因子分數得到提高來使其排名超過A。但如果A的總得分升至1,100分,則B若還只是一味優化頁面因子是遠遠不夠的。在這種情況下,提升PageRank就成為首要任務了。

一般說來,Google的查詢結果頁中既可能包含一些分數超過闕值的網頁,也可能包含一些分數低于闕值的網頁。所以:

為了提高競爭能力,必須在闕值范圍內盡可能提高頁面的搜索引擎排名得分,否則會降低頁面的競爭力。“頁面因子”是接近和達到闕值最迅捷的方式,它與PageRank的結合使用才是提升網站排名得分的最佳優化策略。

八:使用闕值推知兩種排名策略的價值

闕值解釋了搜索引擎商所遵循的原則和不同的實施途徑,同時亦闡述了為什么會產生關于PageRank的一些誤解。我們可以把這兩種策略當成兩個人A和B。

A認為“PageRank”并不重要。他們已有數年網頁優化經驗并知道如何完美地利用“頁面因素”來達到優化的目的。他們亦理解基本的錨文本,但對PageRank得分毫不在意。結果如何呢?由于最大化地使用了“頁面因子”,從而使A迅速達到“非PageRank因子的闕值”。所以通過精心選擇關鍵詞可使他們獲得較好的網站排名。而且只要網站內容比較好,隨著時間推移總會有排名高的站點鏈接,涓涓細流匯成河。A最后亦得到了PageRank得分,并籍此鞏固了排名。

B認為“PageRank”十分重要。他掌握了很多關于提升PageRank得分的信息,并為提高該得分下足了工夫。結果又如何呢?B的做法和A相反,但A在非PageRank因子上下工夫,結果卻得到了PageRank得分。而B在PageRank因子上下工夫,結果卻得到非PageRank因子得分。究其原因,就是由于提高PageRank得分需要外部鏈接,鏈接又具有錨文本,從而通過精心挑選外部鏈接的錨文本,B自發提高了其非PageRank因子的得分,從而贏得了較高的PageRank得分。

雖然這只是兩個極端,但我們可以利用它們來推知這兩種途徑各自的優缺點:
 
A:忽略PageRank 網站排名在短期內就可得到提升

自我生成鏈接節省了工作量

需投入大量工作維持網站排名

對新競爭者的應變速度較慢
 
B:忽略頁面排名因子 可獲得可靠網站排名,并可在需要時輕松修改頁面因素使排名迅速提升

極可能從非搜索類引擎來源上獲得更高訪問量

網站排名提升較慢

操作難度較大

容易為SPAM過濾程序所制
 
事實上,我們前面說過,最終排名得分=所有非PageRank因子實際得分x實際PageRank得分。亦即二者相輔相成,再加上隨著網上營銷方式的發展壯大,關鍵詞的競爭也變的愈來愈激烈,這種情況下只靠非PageRank因子得到好排名顯然是不可能的。而且非PageRank因子存在著闕值的局限性。同時,對于競爭性極高的關鍵詞,還存在著PageRank下限的問題。也就是說,除非網站的PageRank得分超過這個下限標準,否則網站排名很難上去。PageRank的下限由關鍵詞的競爭度所決定。競爭性一般的關鍵詞PageRank下限也不高,而對競爭較為激烈的關鍵詞來說,它所要求的PageRank下限相應就要高。而PageRank得分的提升又非常有難,這時候非PageRank因子就變的非常重要了。
綜上所述:我們需要充分發揮各排名因子的優勢來贏取理想的綜合排名得分。同時關鍵詞(競爭度適宜)的精心選擇亦變的非常重要,它可以節省大量的支出。

九:PageRank的計算方法

PageRank (A) = (1-d) + d(PageRank (T1)/C(T1) + ... + PageRank (Tn)/C(Tn))
其中PageRank (A)表示給定頁面A的PageRank得分;
D為阻尼因子,一般設為0.85;
PageRank (T1)表示一個指向A頁的網站其本身的PageRank得分;
C(T1)表示該頁面所擁有的導出鏈接數量;
PageRank (Tn)/C(Tn)表示為每一個指向A頁的頁面重復相同的操作步驟。

事實上,計算某個頁面的PageRank得分需要大量繁復計算。例如若計算A頁的PageRank得分則首先要知道所有鏈至A頁的網頁(導入鏈接)的PageRank得分。要想知道這些外部鏈接頁的PageRank得分,又需要先知道這些頁面的外部鏈接的PageRank得分,等等。我們只需要知道:

A頁的外部鏈接B能夠帶給A的PageRank得分與B的導出鏈接數量成反比,即隨著B上導出鏈接數的增加,帶給A的PageRank得分亦隨之降低。這同樣表明了一個網頁的PageRank得分是該網頁對其它頁面投票的一個基本的度量形式。一個網頁可以投票給一個或多個導出鏈接,但其總投票權一定,并被平均分配給所有的導出鏈接。假設B的PageRank得分是5,且B上只有一條指向A的鏈接,那么A將獲得B全部的PageRank得分(B沒有損失任何東西,而A贏得了B的PageRank得分)。但如果B上有N個鏈接,則A只能得到B的PageRank得分的N分之一。

Google--PageRank技術解密(三)

假設A頁鏈向B,根據PageRank計算公式,其初始PageRank為0.15,鏈接后的PageRank變為1。如果A鏈向C,而C又鏈回A,則A此時的PageRank變成了1.4594594595。也就是說若A鏈向一個外部網頁,而那個網頁又回鏈向A的話,則使A的PageRank會增加。(如果A鏈向一個網頁,而該網頁又鏈向C,C再鏈向A的話,也會發生同樣的情形)。如果把所有相互鏈接的頁面看做是一個系統整體的話,其實鏈接前后系統總的PageRank并沒有發生改變,只是由于不同鏈接關系的發生導致了PageRank對系統內每個鏈接頁面的重新分布。

10. PageRank的反饋性
11. 如何控制PageRank
12. 導入鏈接(Links to Your Site)
13. 導出鏈接(Links out of your site)

十:PageRank的反饋性
  
PageRank的反饋機制說明了為什么一個網站的導出鏈接能夠使網站自身受益。
  
假設A頁鏈向B,根據PageRank計算公式,其初始PageRank為0.15,鏈接后的PageRank變為1。如果A鏈向C,而C又鏈回A,則A此時的PageRank變成了1.4594594595。也就是說若A鏈向一個外部網頁,而那個網頁又回鏈向A的話,則使A的PageRank會增加。(如果A鏈向一個網頁,而該網頁又鏈向C,C再鏈向A的話,也會發生同樣的情形)。如果把所有相互鏈接的頁面看做是一個系統整體的話,其實鏈接前后系統總的PageRank并沒有發生改變,只是由于不同鏈接關系的發生導致了PageRank對系統內每個鏈接頁面的重新分布。
 
其增量比較小,整體則視情況而定。但有一點是顯而易見的 – 提供導出鏈接的網頁往往會通過一種叫做PageRank反饋的機制提升了自身的PageRank。

結論:

這表明和一些大型站點進行互惠鏈接交換是比較明智的。這些大網站均采用鏈接結構,并對鏈接頁給予高度關注。你所鏈接的對象站點所包含的網頁數量及其設計結構對于你網站的PageRank反饋總數有著顯著的影響。

十一:如何控制PageRank

雖然PageRank因子很難控制,但我們可以通過其它技術來得到理想的結果。而且,良好優化過的頁面因子整合較高的PageRank得分無疑會使網站更具競爭力。

PageRank因子的優化可從下面三個方面著手:
  1. 導入鏈接。包括如何選取導入鏈接,獲得導入鏈接所付出的努力是與收獲呈正比的。
  2. 導出鏈接。包括導出鏈接的選取及它們在你網站上的合適位置,應使PageRank得到最大回饋(Feedback) 和最小損耗(Leakage)。
  3. 網站內部導航結構和內部頁面的聯接。實現PageRank在網站內部的良好分布。

十二:導入鏈接(Links to Your Site)
  
尋找導入鏈接時,一般總是容易陷入這樣的誤區:只看鏈接頁的PageRank得分,得分越高就越好。而事實上,一個鏈接頁的PageRank得分遵循平均分配原則被平均分配給該頁面上的所有鏈接。所以,只注重外部鏈接的PageRank得分的鏈接策略無疑是片面的。正確的做法應該是既要考慮鏈接頁的PageRank,又要考慮該頁的鏈接數量(應注意:PageRank的單位是網頁而不是網站,即每個頁面都有其特定的PageRank。所以在尋找鏈接時應查看“鏈接”頁面的PageRank,也就是說,需要考慮的是放置你網站鏈接的那個頁面的PageRank得分情況。) 而且PageRank較高的站點對鏈接請求一般總是比較挑剔的。

結論:
  
那些看起來較為適宜,具有良好質量的網站都是理想的鏈接對象。先別去管它們的PageRank到底是多少,倘若它們既與你的網站相關,又具有較高的質量,那么總是會有益你的PageRank,只是個時間問題罷了。另外,網站被DMOZ和Yahoo收錄亦能相當有效地提升PageRank。

十三:導出鏈接(Links out of your site)
  
導出鏈接并不會損失PageRank,但網站整體的PageRank將會降低。所以,選擇導出鏈接時宜遵循這樣的定律:

1. 盡量保持自己網站的PageRank

2. 盡量使內部頁面分得盡可能多的PageRank

向大家推薦一種方法:可以在網站上設立一個對導出鏈接的“評審”頁。用于放置對外部鏈接站點的評審內容。每條評審內容應包括指向其相應外部站點的超鏈。(注意:由于搜索引擎的SPIDERS無法支持javascript,所以不宜用JAVA程序打開這些頁面。)

“評審”頁應鏈回網站內部等級較高的一個頁面 (好是主頁,其它重量級頁也可)。這樣做可顯著降低網站PageRank的流失。放置外部鏈接的頁面亦需鏈回主頁及其它重要內部頁面。但“評審”頁上只要放置一個重量級內部頁面即可(好是主頁)。此外,可以告訴你的”評審“鏈接對象你已經”評審“過他們的網站,這樣一來他們很有可能會把你的這個”評審“頁鏈接到他們自己的網站上,這樣就可以從他們那里得到兩個導入鏈接。自然效果就更好了。用文字描述太麻煩了,我們還是用圖表來說明吧。(下表包括主頁A,外部鏈接頁頁D和其它兩個內頁B和C)
 
在放置導出鏈接的頁面上同時放一些網站的內部鏈接是提高PageRank的相當重要的內部因素之一。這種收益雖然無法和網站所從導入鏈接上獲得的收益相提并論,但卻極易操作,并可有益于網站讀者

Google--PageRank技術解密(四)

說完了“外部鏈接”,現在讓我們來看看“內部鏈接”。如果PageRank確由頁面投票的質量和數量所決定,那么我們立即就可以得出網站內鏈與PageRank的關系的一個重要結論:網站上每個已被Google收錄的內部網頁(內鏈)都是對該網站的一記投票,不過投票份量很小。因而,一個網站若能擁有更多已被Google收錄的內部網頁,就有可能獲得更多的總投票。

14. 網站內部結構和聯結

十四:網站的內部結構和聯接

一:網站的內部頁面

說完了“外部鏈接”,現在讓我們來看看“內部鏈接”。如果PageRank確由頁面投票的質量和數量所決定,那么我們立即就可以得出網站內鏈與PageRank的關系的一個重要結論:

網站上每個已被Google收錄的內部網頁(內鏈)都是對該網站的一記投票,不過投票份量很小。因而,一個網站若能擁有更多已被Google收錄的內部網頁,就有可能獲得更多的總投票。

這樣一來,我們可以通過創建大量內部網頁來提高網站整體的PageRank。但這還遠遠不夠。因為我們此處所指的內部網頁是指已被Google收錄,即擁有自己的PageRank的那些內鏈頁面。這些網頁之所以被Google檢索是由于它們具備豐富充實的內容。所以應盡力充實和豐富你的網站,一旦網站內容得到充實和豐富,會有更多的內頁得到檢索,從而帶來更多的PageRank。同時“升值”的網站也會獲得更多站點的青睞,從而會有更多的站點主動鏈接你。

簡言之,就提升PageRank而言,對“內”最需要做的就是為網站填充更加豐富和有價值的內容。應確保網頁內容不會過長或過短,如有必要可將網頁內容分割成若干網頁。

二:網站的內部結構、聯接

網站有三種內部聯方式,宜結合使用這三種聯接方式進行網站的建設。假設一個網站由“主頁”,“關于我們”頁,“產品介紹”頁和“更多信息”頁這四個頁面組成,通過下表我們可以看出每種結構對網站PageRank的影響度。
 在未考慮外部鏈接因素的前提下,可以看出類層級結構(Hierarchical-Like)能夠改變網站內部頁面的PageRank分布。(注意:我們所指的并不一定是嚴格意義上的層級結構,不過必須比環路結構(Looping)或廣泛互聯(Extensive Interlinking)結構包含更多層級結構的屬性。)

若PageRank均勻分布于網站內部頁中,那么網站管理員可以通過層級結構這種能夠使PageRank發生轉移的性能來有選擇地轉移內部網頁的PageRank:即把一些不太重要的頁面的PageRank適當地轉移到那些關鍵詞競爭性比較強的網頁上,或想提高特定關鍵詞排名的網頁上去,從而使網站獲得最大的收益。

上面只是封閉網站設計結構(即無導入也無導出鏈接的結構)下內部各網頁的分布情況,如果加入外部鏈接--即導入和導出鏈接后情況又會怎樣呢?

十五:Google如是說

關于PageRank,最權威的發言人自然還是Google。雖然Google不會也不可能提供相關的技術信息,但我們亦可從中窺得一斑:

Chris:PageRank的命名是基于“Page”,還是和某個創始人有關?

Google:PageRank是以Google的聯合創始人兼總裁Larry Page的名字命名的。

Chris:Google是否把PageRank視做顯著區別于其它搜索引擎的一個特性?

Google:PageRank是一種能夠使Google在搜索速度和搜索結果的相關性上區別于其它搜索引擎的技術。不唯如此,在排名公式中Google還使用了100種其它的算法。

Chris:Google是否認為引入PageRank可以顯著提高搜索結果的質量?以后是否仍將繼續使用PageRank?

Google:由于PageRank使用了量化方法來分析鏈接,所以它仍將是決定Google搜索結果頁排名的一個重要因素。

Chris:您認為Google工具欄上的PageRank的信息對普通用戶/網站管理員/搜索引擎優化專家來說各有什么意義?

Google:Google工具欄上所提供的PageRank信息僅作為一種網站評估信息使用。用戶們會覺得它很有趣,網站管理員一般用它來衡量網站性能。不過,由于PageRank只是一個大體評估,所以對搜索引擎專家的價值并不大。

Chris:常有網站試圖通過“鏈接工廠”和訪客簿的手段達到提升PageRank的目的。對這樣的網站Google有什么舉措?

Google:Google的工程師會經常更新Google的排名算法以防止對Google排名的惡意操縱。

結束語:

選擇導入鏈接時應首先考慮對方網站的內容如何,然后再考察其導出鏈接的數量進行決策。而在建立本站的導出鏈接時則應盡量使自己網站的PageRank維持在最大回饋和最小流失上。

應確保合理的網站設計結構和內部聯接方式。網站的結構和內部聯接方式也會對PageRank產生影響,可利用其特性有效進行PagaRank在網站內部頁面的再分布及盡可能保持網站整體的PageRank。

網站的PageRank的提升應與該網站的訪問者體驗息息相關。即使獲得再高的PageRank,如果沒有客戶訪問,一樣毫無價值。所以網站的內容始終是提升PageRank最關鍵的因素之一。

欧美日韩国产高清综合二区_波多野结衣高清av系列_欧美大色大av高清