2008年10月12日 星期日

10/01 Professor Mu & 隱性語義索引

10月的第一天,所上請來了來自Milwaukee的Mu教授舉辦演講,原本我以為是個金髮碧眼的外國人,沒想到居然是和我一樣黑髮黑眼睛的中國人!Mu教授笑容可掬的一開始先介紹起他的背景,他畢業於南京大學,念的科系是大氣科學,後來發現圖書資訊科學的有趣,於是轉向開始朝完全不同的方向前進,最後就留在Milwaukee當教授了,實在是非常厲害。話說小蝶老師還問他當初托福考了幾分,Mu教授很謙虛的笑笑說只有600多分吧~真的是太厲害了!雖然Mu教授是道地的中國人,不過談起專業時,他可是流暢的用英文介紹,他也害羞的表示,專業用語反而他不知道中文怎麼說呢!


今天的主題是隱性語義索引:使用者無錯。

使用者常常在檢索的過程中費盡千辛萬苦,可以得到的回饋卻少的可憐。他們不同於受過圖書資訊訓練的人,無法從一堆詞彙中確實的明白那個是所需的。OPAC就是一個相當好的例子,館員明白如何去使用,是因為他們知道如何操作,如何利用關鍵字做為索引點,而讀者往往陷入不知道該如何檢索的困境中。OPAC和Google都是獨立文件,關鍵就是文件中的「連結」,將連結找出來便可以發現其價值,隱藏的關連性。系統是連結使用者和資訊的橋樑,因此該如何傳達對的訊息,變成使用者的問題,要怎麼讓它們知道我們在說些什麼?而我們所說的,又跟我們所想的有什麼不同?不能夠因為使用者在使用上產生錯誤,於是就怪罪於使用者愚笨。

因此就產生了隱性語義索引(Latent Semantic Indexing:LSI)。

什麼是隱性語義索引?傳統搜尋引擎的演算法是基於關鍵字,但是從自然語言的角度,即使不是所有的詞,至少大部分的詞都有一詞多義的意思,於是這麼一來搜尋結果和使用者的理想變產生了很大的距離。隱性語義索引便是為了解決這個問題所製造出來的,以大樣本數亮的統計分析,找出不同的詞之間的相關性,提高檢索收穫率,更進一步的貼近使用者真正要找的內容。將索引的特徵找出來,就像是人對人的第一印象通常是形狀大於顏色,所以要先找出外廓才可以抓到重點。

讓使用者和搜尋引擎可以相處融洽,是身為圖資人的使命之一。

沒有留言: