1、資訊檢索之理論與實作,人社學院 通識教育中心邱子恒tzchiutmu.edu.tw2012.11.19-11.26,Outline,資訊檢索之基本概念檢索策略檢索技巧,I. 資訊檢索之基本概念,IS&R自然語言 vs. 控制字彙precision vs. recall布林邏輯運算元切截相近運算元Known item search vs. subject search,資訊儲存與檢索(IS&R Model),資料,需求,分析內容,選擇關鍵詞,轉譯,系統關鍵詞,分析需求,選擇關鍵詞,轉譯,系統關鍵詞,索引典,資料庫,關鍵詞比對,檢索結果,索引作業,檢索作業,自然語言,自然語言是相對於人工語言的一種
2、人類語言,也是最合乎人類教談行為的溝通方式,它依循著人類自然進化而發展,成為人和人之間溝通的最基本工具,如中文、英文、日文等都是自然語言。,控制字彙,Maintenance UF Preventive maintenance UpkeepPreventive maintenance use Maintenance Upkeep use Maintenance,回收率精確率,Recall(回收率/查全率) & Precision(精確率/查準率),查全率=a/(a+c) 查準率=a/(a+b),無關,相關,c,a,b,d,布林邏輯(AND、OR、NOT),A AND B A AND B AND
3、C A OR B A OR B NOT C,切截 (truncation),Library, libraries, librarian, librarians, librarianship - lib* (單複數, 詞性不同, 使用 右切截)Woman, Women - Wom#n (單複數, 使用中間切截)Color, Colour - Colo#r (美式/英式拚音, 使用中間切截),相近運算元 (adjacent/near),ANALOG* ADJ1 DIGITAL* 482ANALOG* NEAR1 DIGITAL* 506,Known item search,已知書目之檢索, 即精確
4、檢索用已知的書目資料來檢索, 包括: 作者, 題名, 期刊名, 出版商, 出版年 etc.,Subject search,主題檢索想檢索一下到底有那些關於某主題的文獻存在,II. 檢索策略,針對一檢索問題之通盤考量或全面性規劃分區組合檢索法 (Block Building)引用文獻滾雪球法 (Citation Pearl Growing)簡易檢索 (Brief search)主題層面連續檢索 (successive facet strategies)主題層面配對檢索 (pairwise facets strategies),分區組合檢索法,1. 選擇資料庫2. 確定問題之主要概念及其布林邏輯關
5、係3. 依序找出代表每個概念之所有詞彙4. 將各概念下所有詞彙以“OR”連結5. 將步驟4所得結果以步驟2所決定之布林邏輯關係進行結合6. 依步驟1至步驟5 規劃檢索敘述7. 輸入檢索敘述8. 評估檢索成果,分區組合檢索法示意圖,引用文獻滾雪球法,事先掌握一篇或數篇相關文章, 利用這些相關文章找尋更多相關的文章, 如此相關文章就像雪球一樣越滾越大.在資訊檢索上的應用: 以相關文章的關鍵字或敘述語繼續檢索.是由precision反向追求recall的方法通常必須進行多次檢索, 才能找到足夠的相關文章.,簡易檢索,最常見的檢索通常用簡單的幾個關鍵字, 加上布林邏輯的組合快速, 同時檢索到的文章不多
6、, recall低適用情形:檢索者只想閱讀“幾篇”相關文章執行已知書目檢索時檢索概念相當專指 (specific) 時,主題層面連續檢索,在決定檢索問題的主題層面之後, 必須確認各主題層面的優先順序.在最專指概念或是可能產生最少資料的概念輸入系統後, 如果產生太多資料, 再輸入其他次要概念與之結合.直到檢索者認為檢索筆數可以接受為止.,主題層面連續檢索,適用情形:當所有主題層面以布林運算元結合, 可能產生零筆資料時當檢索問題中有一至二個主題層面涵義相當模糊時當檢索問題具備其他非主題之檢索條件時 (如: 資料類型, 語文, 出版年代), 可將此非主題檢索條件視為第一個檢索概念,主題層面連續檢索,
7、適用情形: (續)當檢索者寧願忍受誤引, 而不願失去相關文章時當加入其他主題層面所花費的時間和金錢, 可能會超過直接列出檢索結果, 每筆一一審視時當相關文獻過少, 檢索者願意檢視一些相關度較低的文章時,主題層面連續檢索示意圖,主題層面配對檢索,是先將主題層面兩兩配對, 並取其交集也就是取任意二主題層面的交集而後聯集之適用情形:當所有主題層面都同樣重要時當主題層面之專指性或模糊性相差不大時當將所有主題層面結合可能導致零筆資料時,主題層面配對檢索示意圖,比較圖,III. 檢索技巧,為完成特性目的所採取的行動當檢索所得資料筆數過多時(通常指誤引太多)當檢索所得資料筆數過少時(包括零筆資料)當檢索者想
8、提高 recall 時當檢索者想提高 precision 時,當檢索所得資料筆數過多時,是否過份簡化問題?是否需要重新釐清檢索概念?是否使用了正確的布林邏輯運算元?是否使用過份含混或一般性之名詞?是否應考慮使用控制字彙?是否相近運算元限制過鬆?是否切截應用過鬆?,當檢索所得資料筆數過少時,是否將問題過份複雜化?是否真有文獻探討該主題?是否每個概念都使用足夠的檢索詞彙來表達?是否相近運算元限制過緊?是否使用了正確的布林邏輯運算元?是否有語法或拼字上的錯誤?是否該改用自然語言進行檢索?是否考慮使用切截?,當檢索者想提高 recall 時,增加同義詞和類同義詞的數目使用較廣義的檢索詞彙以自然語言檢索代替控制字彙檢索檢索其他主題欄位刪除布林邏輯運算元“AND”及“NOT”增加切截的範圍使用較鬆的相近運算元刪除一些非主題之檢索限制(如:年代, 資料類型)刪除一主題層面,當檢索者想提高 precision 時,刪除部份類同義詞或是詞意含糊的檢索詞彙使用專指性較高的詞彙進行檢索當有適當的控制字彙工具時, 盡量使用其來代替自然語言增加一主題層面使用“ NOT” 除去不相關文章減弱切截的範圍加上非主題之檢索限制 (如年代,資料類型),Ovid Medline上機操作&作業二題目說明,