1、1,第二章 邁向網際資料採礦之路,第一組 D9309304 紀博文 D9409101 葉國暉 M9509218 林董原,2,大綱,結構資料採礦 使用行為資料採礦 內容資料採礦 相關案例分享,3,什麼是網際資料採礦,結構資料採礦 從網際網路的topology結構中挖掘資訊 使用行為資料採礦 從使用者應用瀏覽器閱讀頁面的行為中挖掘 內容資料採礦 從網頁的文字、圖片,以及各種組成網頁的內容中挖掘,4,從資料採礦的角度看網路,網際網路是由網頁及超連結所組成 常以圖形理論來描述理想化的網路結構 在最單純的狀況下,內容資料採礦是不需要暸解任何網頁對外連結的狀況,同時結構資料採礦也不需要暸解網頁中所包含的內
2、容。 使用行為資料採礦的理想呈現則是使用者的行為側寫。,5,結構資料採礦,6,總體結構,網際網路就是指向性的圖形 每個網頁 圖形的節點 (node) 超連結 稜 (edge)指向性 就是當A連向B時並不代表B會連結至A 稱為連結分析 (link analysis),7,計算引用次數,學術論文引用次數決定學術研究成就的影響力 網站的總體結構也很類似,當越多網頁指向時,則代表被連結的網頁是越重要的 要取得完整資訊是相當困難,因為網路世界無時無刻都在變化,搜尋引擎,8,data-miners 首頁導入,2001搜尋引擎排行榜,4月導入排行榜,9,集線器頁面及權威頁面,康乃爾大學的 Jon Klein
3、berg 提出 放置許多好站推薦的網站稱之集線器(hubs) 被許多集線器所推薦連結的網站稱之為權威(authority),哈佛,www.harvard.edu,10,集線器與權威,11,Kleinberg 演算法,建立根網頁群 (root set) 利用內容資料採礦搜尋引擎產生 定義符合條件網頁 區分為推薦網站與被推薦網站 產生集線器與權威積分 遞迴計算,產生集線器積分與權威積分,12,1. 建立根網頁群,拿掉搜尋關鍵中的無效字元 如的 、了等助冠詞 產生有效查詢字串,轉型(stemming) 根據詞彙來搜尋網頁索引 根據關鍵字本身的出現頻率 該文件中反覆出現次數 (綜合以上指標來產生分數)
4、 挑選前200名為根網頁群,13,2. 定義符合條件網頁,符合條件是指 被根網頁群中的推薦連結所推薦的網頁,同時這些被推薦的網頁也放置連結回指到根網頁群者 至少根網頁群推薦數 50 可再調整以剔除非有意義的連結 來自於同一個網域的推薦 該網站共同的連結,14,3. 產生集線器與權威積分,集線器積分較高的網頁通常會連向權威積分較高的網頁,反之亦然。演算法利用迴圈的方式來根據權威網頁來調整集線器網頁的積分,再根據集線器的積分來調整權威網頁積分,15,行為模式資料採礦,16,特性,使用者行為是跨時間的進行內容資料採礦或結構資料採礦時,常伴隨使用行為資料採礦(例如研究連結)應用廣泛與資料來源較複雜,1
5、7,瀏覽路徑分析,流量資料(網站伺服器下載網頁的歷史紀錄,如購物籃分析)流量(hit) 瀏覽頁 區段(session),個人資料,18,網路事件檔(log),網頁下載 數個點選(hit) 伺服器間的事件檔整合 分析瀏覽路徑前,需先整合各個伺服器的事件檔,才能合併一個瀏覽頁 網頁事件檔的處理流程: 過濾 去蜘蛛化 使用者識別 區段化 完成路徑,19,網頁事件檔的處理流程 1/2,過濾:過濾掉不需分析的資料,以獲得比較單純的流量分析 去蜘蛛化:去掉一般所謂的蜘蛛程式瀏覽行為 使用者識別:哪些頁面流量是由同一個使用者所產生出來的?哪些不同時點的瀏覽區段行為是由同一個使用者產生的?(使用帳號密碼、IP
6、、Cookie來判斷),20,網頁事件檔的處理流程 2/2,區段化:辨識出哪些頁面流量是由同一個使用者在同一次瀏覽產生出來的(如:YAHOO查天氣)與區段定義問題?完成路徑:瀏覽器的暫存區問題 低估網站的使用流量、瀏覽路徑變的不完整與無法辨識多位使用者,21,應用服務事件檔,上述行為為單純的網址下載結果應用伺服器事件檔包含詳細的下載頁面與其中的意義,如使用者的購物行為、業務記錄與顧客行為等,22,應用:利用使用行為資料採礦來提升網站使用狀況,使用者瀏覽路徑分析 購物籃分析 利用關連規則來分析頁面 利用群集技術來分析出不同的使用行為與目的,潛在客戶,23,內容資料採礦,24,特性,針對內容 資訊
7、存取 (information retrieval) 從文中萃取出資訊,並建構出完整的中繼資料(Metadata) 技術上目前仍僅達到文字資料採礦 搜尋效率 回查(recall)與精確度(precision),25,內容分類案例,研究目的 藉由信用卡正常戶與逾期戶及呆帳戶之特性差異分析,可以發現正常戶轉變為逾 期戶及呆帳戶之徵兆,並根據這些症兆運用決策樹分析方法找出正常戶潛在之高 風險族群,在其發生逾期或造成呆帳損失前採取策略,以減少銀行呆帳損失 資料來源 信用卡申請書及客戶交易行為資料分析對象,26,內容分類案例-cont,樣本數變數,27,內容分類案例-cont,客戶特性分析 影響正常戶、逾期戶及呆帳戶特性差異之重要因子有性別、教育程度、繳款型 態、額度使用率、是否有使用預借現金,28,內容分類案例-cont,29,內容分類案例-cont,30,內容分類案例-cont,31,內容分類案例-cont,32,內容分類案例-cont,33,內容分類案例-cont,表4.3.2高風險族群及低風險族群潛在特性,34,內容分類案例-cont,表4.3.2高風險族群及低風險族群潛在特性,35,內容分類案例-cont,表4.3.2高風險族群及低風險族群潛在特性,