:::

搜尋引擎的排序方法其中一種是詞彙加權排序(Boolean Retrieval Model),依檢索詞彙出現的位置和頻率影響排序位置,那這種方法有什麼優缺點呢?感謝!!!

您好。

有關「詞彙加權排序」(Boolean Retrieval Model)之優缺點,答復如下:

一、
……此種檢索方法不僅速度快,而且在實現上亦十分容易。然而布林模型有二項主要缺點,首先,它屬於一種二元決策法則(Binery decision criterion),亦即每筆被檢索的資料,只有兩種狀態:相關或不相關……使得此種檢索模式的效能無法提昇。除此之外,布林檢索必須對資料庫中每份文件制訂一組適當的索引…..因此索引的好壞,直接影響了檢索的效能表現…… 

資料來源:
應用相關資訊回饋於貝氏混合式機率檢索模型 , 第5-7頁
研究生: 楊敦淇


二、
Boolean Model 是以Set theory為主的IR 演算法;Boolean Model 的缺點是它是以二元比較, 缺乏「相似性」或「程度上」的比較, 也就是無法進行相似文章的查詢, 此外, 布林運算式雖具有精確的語意, 但如何將一篇文章以布林運算式表達也是一個問題。

資料來源:
網路資訊與學習系統之中文全文探勘工具 , 第23頁
研究生:施建新


三、
Boolean Model:為最簡單的檢索模式,單純使用布林邏輯判斷文件中是否有查詢詞彙存在,但缺乏程度上的比對,故文件排序效果不彰。

5.1.1 詞彙加權排序
高等資料庫報告


四、

Very simple model based on sets
Only retrieves exact matches
Sets are easy, but complex Boolean expressions aren’t
All terms are equally important

資料來源:
IR Models: The Boolean Model , p.15