1、自然語言與模糊理論於破碎性路況資料處理之應用The application of Natural Language Processing and Fuzzy Theoryon Unstructured Traffic Report with Redundancy王晉元 博士陳冠佑 徐士家國立交通大學運輸科技與管理學系研究背景與動機在現代運輸系統中,車多路少已經是一個長久的問題。在資源有限的狀況下,提供用路人詳細且正確的資訊確實是一個有效提昇運輸系統服務水準的方法。臺灣地區目前路況資訊的主要來源便是警察廣播電台(以下簡稱為警廣),警廣的路況資料乃是由許多單位以及用路人透過電話,以口頭敘述路況情形
2、,再由輸入人員以其慣用的方式輸入系統。由於通報來源的多樣性,時常會有一筆路況多重通報的問題發生。且用路人只能以其主觀提供路況之概略敘述,而輸入人員為了輸入效率,又會將通報資料透過許多的慣用縮寫及簡稱來簡化輸入,因此造成了路況資料的破碎及無結構性 。對一般的用路者而言,清楚且完整的路況資訊是他們所期待的。但警廣路況資料卻是重複且破碎,僅能供作電台播報材料,無法進行統整分析以做為決策輔助。若能建立一套完善的重覆性口語化路況資料處理機制來處理這些重複且破碎的警廣路況,將使這些龐大的資料獲得有效的利用,提供用路人更豐富的路況資訊,更可做為交通路況研究或是運輸資訊系統之背景資料,提昇整體運輸系統之服務品
3、質。本研究針對警廣路況中心所匯整的路況通報資料進行處理,利用中文自然語言的技術,剖析且修正各路況的關鍵句意,並透過模糊理論之概念過濾重覆路況。經過歷史路況資料的測試,證實本研究模式之適用性。在實作應用的層面,本研究模式將能善用以往難以處理之文字敘述資料,有效的分析警廣之路況資料庫。除了能過濾重複之路況資料外,更可修正路況資料之相關屬性,提供用路人更正確、簡潔之資訊。研究成果與結論本研究所處理的資料,異於一般的自然語言文句,乃是參雜許多慣用法、符號、簡寫的超自然語言 ,難以運用一般的語意樣板處理。因此本研究針對路況資料的特性,設計了一個高效率的關鍵詞搜尋模式,並搭配特殊編碼的關鍵詞資料庫,將能有
4、效的降低自然語言處理的運算時間。除了基本的關鍵詞搜尋外,本研究更結合語意概念層級樹之方法,透過關鍵字詞的概念分類,層層推出詞句之語意,避免單用關鍵詞定義之偏頗。並提供一事件隸屬度之樹狀計算準則,以供相似度計算之用。本研究中整理出了一個多屬性模糊相似度之計算模式,分別取得後選路況資料各屬性對於目標路況之隸屬度,再計算其相似程度。由於路況資料之特性容易產生極值,該公式在降低極值影響、平緩相似度曲線上皆有著不錯的表現。為了驗證相似度計算之可信度,本研究設計一份相似度判斷問卷,交給警廣之播報人員填寫,並與系統產生之相似度值進行比較。比較後之結果顯示:本研究之成果將能有效的輔助警廣之工作人員進行路況資訊的輸入及處理,尤其是在過濾重覆的路況資料,或是修正路況資料的相關屬性上,提供一具有理論基礎之決策輔助。在後續的實際應用上,將可整合進入全國路況中心,直接對全國各地的路況通報資料統籌處理,提高全國用路人更可靠、精確的路況資訊。