ImageVerifierCode 换一换
格式:PPT , 页数:35 ,大小:351.50KB ,
资源ID:7950882      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-7950882.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(迈向网际资料采矿之路.ppt)为本站会员(fmgc7290)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

迈向网际资料采矿之路.ppt

1、1,第二章 邁向網際資料採礦之路,第一組 D9309304 紀博文 D9409101 葉國暉 M9509218 林董原,2,大綱,結構資料採礦 使用行為資料採礦 內容資料採礦 相關案例分享,3,什麼是網際資料採礦,結構資料採礦 從網際網路的topology結構中挖掘資訊 使用行為資料採礦 從使用者應用瀏覽器閱讀頁面的行為中挖掘 內容資料採礦 從網頁的文字、圖片,以及各種組成網頁的內容中挖掘,4,從資料採礦的角度看網路,網際網路是由網頁及超連結所組成 常以圖形理論來描述理想化的網路結構 在最單純的狀況下,內容資料採礦是不需要暸解任何網頁對外連結的狀況,同時結構資料採礦也不需要暸解網頁中所包含的內

2、容。 使用行為資料採礦的理想呈現則是使用者的行為側寫。,5,結構資料採礦,6,總體結構,網際網路就是指向性的圖形 每個網頁 圖形的節點 (node) 超連結 稜 (edge)指向性 就是當A連向B時並不代表B會連結至A 稱為連結分析 (link analysis),7,計算引用次數,學術論文引用次數決定學術研究成就的影響力 網站的總體結構也很類似,當越多網頁指向時,則代表被連結的網頁是越重要的 要取得完整資訊是相當困難,因為網路世界無時無刻都在變化,搜尋引擎,8,data-miners 首頁導入,2001搜尋引擎排行榜,4月導入排行榜,9,集線器頁面及權威頁面,康乃爾大學的 Jon Klein

3、berg 提出 放置許多好站推薦的網站稱之集線器(hubs) 被許多集線器所推薦連結的網站稱之為權威(authority),哈佛,www.harvard.edu,10,集線器與權威,11,Kleinberg 演算法,建立根網頁群 (root set) 利用內容資料採礦搜尋引擎產生 定義符合條件網頁 區分為推薦網站與被推薦網站 產生集線器與權威積分 遞迴計算,產生集線器積分與權威積分,12,1. 建立根網頁群,拿掉搜尋關鍵中的無效字元 如的 、了等助冠詞 產生有效查詢字串,轉型(stemming) 根據詞彙來搜尋網頁索引 根據關鍵字本身的出現頻率 該文件中反覆出現次數 (綜合以上指標來產生分數)

4、 挑選前200名為根網頁群,13,2. 定義符合條件網頁,符合條件是指 被根網頁群中的推薦連結所推薦的網頁,同時這些被推薦的網頁也放置連結回指到根網頁群者 至少根網頁群推薦數 50 可再調整以剔除非有意義的連結 來自於同一個網域的推薦 該網站共同的連結,14,3. 產生集線器與權威積分,集線器積分較高的網頁通常會連向權威積分較高的網頁,反之亦然。演算法利用迴圈的方式來根據權威網頁來調整集線器網頁的積分,再根據集線器的積分來調整權威網頁積分,15,行為模式資料採礦,16,特性,使用者行為是跨時間的進行內容資料採礦或結構資料採礦時,常伴隨使用行為資料採礦(例如研究連結)應用廣泛與資料來源較複雜,1

5、7,瀏覽路徑分析,流量資料(網站伺服器下載網頁的歷史紀錄,如購物籃分析)流量(hit) 瀏覽頁 區段(session),個人資料,18,網路事件檔(log),網頁下載 數個點選(hit) 伺服器間的事件檔整合 分析瀏覽路徑前,需先整合各個伺服器的事件檔,才能合併一個瀏覽頁 網頁事件檔的處理流程: 過濾 去蜘蛛化 使用者識別 區段化 完成路徑,19,網頁事件檔的處理流程 1/2,過濾:過濾掉不需分析的資料,以獲得比較單純的流量分析 去蜘蛛化:去掉一般所謂的蜘蛛程式瀏覽行為 使用者識別:哪些頁面流量是由同一個使用者所產生出來的?哪些不同時點的瀏覽區段行為是由同一個使用者產生的?(使用帳號密碼、IP

6、、Cookie來判斷),20,網頁事件檔的處理流程 2/2,區段化:辨識出哪些頁面流量是由同一個使用者在同一次瀏覽產生出來的(如:YAHOO查天氣)與區段定義問題?完成路徑:瀏覽器的暫存區問題 低估網站的使用流量、瀏覽路徑變的不完整與無法辨識多位使用者,21,應用服務事件檔,上述行為為單純的網址下載結果應用伺服器事件檔包含詳細的下載頁面與其中的意義,如使用者的購物行為、業務記錄與顧客行為等,22,應用:利用使用行為資料採礦來提升網站使用狀況,使用者瀏覽路徑分析 購物籃分析 利用關連規則來分析頁面 利用群集技術來分析出不同的使用行為與目的,潛在客戶,23,內容資料採礦,24,特性,針對內容 資訊

7、存取 (information retrieval) 從文中萃取出資訊,並建構出完整的中繼資料(Metadata) 技術上目前仍僅達到文字資料採礦 搜尋效率 回查(recall)與精確度(precision),25,內容分類案例,研究目的 藉由信用卡正常戶與逾期戶及呆帳戶之特性差異分析,可以發現正常戶轉變為逾 期戶及呆帳戶之徵兆,並根據這些症兆運用決策樹分析方法找出正常戶潛在之高 風險族群,在其發生逾期或造成呆帳損失前採取策略,以減少銀行呆帳損失 資料來源 信用卡申請書及客戶交易行為資料分析對象,26,內容分類案例-cont,樣本數變數,27,內容分類案例-cont,客戶特性分析 影響正常戶、逾期戶及呆帳戶特性差異之重要因子有性別、教育程度、繳款型 態、額度使用率、是否有使用預借現金,28,內容分類案例-cont,29,內容分類案例-cont,30,內容分類案例-cont,31,內容分類案例-cont,32,內容分類案例-cont,33,內容分類案例-cont,表4.3.2高風險族群及低風險族群潛在特性,34,內容分類案例-cont,表4.3.2高風險族群及低風險族群潛在特性,35,內容分類案例-cont,表4.3.2高風險族群及低風險族群潛在特性,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报