2007年11月22日 星期四

Web Teconology HW4-web robot study

Web Technology HW4

Web Robot Study


Paper Reading:

Monika R. Henzinger(Google Inc.),

“Hyperlink Analysis for the Web”,IEEE Internet Computing

本篇是由Goole網路公司的一位員工所撰寫的surey 型論文。主要提出一種搜尋引擎可使用的演算法。

Kleinberg’s Hyperlink-induced Topic Search(HITS) Algorithm

如何去定義一個連結(或稱網頁)與你所鍵入搜尋列的相關度?又如何定位一個連結的屬性為何?以本身使用搜尋引擎的經驗來說,在yahoo奇摩搜尋時,搜尋結果排序在前面的較為可能是其它搜尋引擎的此關鍵字相關頁面,而Google在排序搜尋結果時,會把較為人常用的網頁排在前頭。雖然不知道這兩大搜尋引擎排序的遊戲規則為何,但是對照這次作業所讀的論文,好像兩者有一定的相關。在論文中提出,有兩大類的連結類型。一類是Authority Links,一類是Hub LinksAuthority Links指的是此連結(也就是論文中所示之node節點)有許多的indegree nodes,且這些indegree nodes因著重要性不同會有不同權重;Hub Links則是outdegree nodes 很多,像Hub集線器般將很多網頁集合起來。這兩類型的連結在茫茫網海中都可以算是優質網頁,也是各大搜尋引擎會優先列出的搜尋結果。

The Key Power of HyperLink Analysis

這樣的分類突顯了網際網路上的資訊檢索與傳統的資料庫或資料收集系統的差異。在網際網路中,一個網頁是否有價值,不只和它本身的內容有關,更具判斷力的準則在於:它與其它網頁(尤其是那些具有指標性的網頁)的相關度如何?母以子(子連結)貴也好,子以母貴也好,想要成為一個好的網站就是要朝這兩個方向努力:成為一個收集某領域的資訊中繼站,或者,內容棒到讓權威性網站不得不為你多設一個超連結,讓你成為它們的延伸閱讀。

沒有留言: