1、1,Data Mining Microsoft SQL Server 2005,謝邦昌 輔仁大學統計資訊學系 教授 中華資料採礦協會 理事長,stat1001mails.fju.edu.tw WWW.CDMS.ORG.TW www.stat.fju.edu.tw,2,你不能不知的十大創新技術,Technology Review雜誌(麻省理工學院2002年1月出刊),3,改變未來的十大創新技術,機器與人腦的介面 塑膠電晶體 資料採礦(Data mining) 數字權利管理 生物測定學(Biometrics) 語言識別處理 微光學技術(Microphotonics) 解開程式碼(Untanglin
2、g code) 機器人設計 微應用流體學(Microfluidics),4,PC Architecture DOS,Spreadsheets Word Processors,PC Mid 80s,Internet Mid 90s,Applications Late 80s-Mid 90s,Web Apps Mid 00s - . . .,Today,Speech/Writing,XML/SOAP HTTP/HTML SMTP,Email Clients Web Browsers,Wi-Fi/Broadband,Devices,Web Services,Rights Management,Tru
3、sted Computing Hardware,Mouse GUI LANs,Waves of Innovation,5,DATA MINING執行階段,定義企業問題,資料準備,資料檢視,模型的建立,模型的評估,佈署與應用,資料源,Data Mining 處理流程CRISP-DM,DATA MINING 處理流程,6,分析服務 (Data Mining),整合性服務 (SSIS),SSIS分析服務報表服務,資料來源檢視表 (Data Source View),定義企業問題,資料準備,資料檢視,模型的建立,模型評估,佈屬與應用,資料源,Data Mining整合微軟商業智慧方案,資料源,7,定義
4、企業問題 (CRISP-DM),確定目前內部遇到的問題 定義解決的目標是開源或是節流,電信用戶忠誠度逐年下降 產品良率持續下降 零售點庫存情況成長 保戶詐欺狀況不斷升高 卡戶剪卡比例增加 客戶呆帳發生數暴增 客戶轉貸頻率提升,8,資料準備(CRISP-DM),使用資料平台整合性服務(SSIS) 全新的資料轉換工具,SQL 2000 稱之為 DTS 消除異常資料如出生前的消費記錄、離家300公里的日常消費 進行資料載入、轉換、清除過濾與彙整 多重資料源整合至資料倉儲或分析服務 進行資料取樣 處理訓練與驗證資料 根據百分比抽樣 根據筆數抽樣 整合變數使用 衍生性欄位、通用變數等 文字採礦功能 可擷
5、取單字或是片語 可列舉排除關鍵字,9,資料檢視(CRISP-DM),進行建立模型前的決策 檢視資料分佈情況 檢視資料最大最小值 檢視資料標準差 檢視資料平均值 使用的工具 BI Development Studio,10,模型的建立(CRISP-DM),將資料切割為: 訓練資料 鑑效資料 測試資料 同一商業問題可以透過多種演算法、調整參數找出最佳模型 微軟提供9種採礦演算法(再加Text Mining) 利用Data Mining 語法 利用Data Mining 建置精靈,11,模型的評估(CRISP-DM),Training,Validation,Test,使用 訓練資料集 建立預測模型.
6、,使用 鑑效資料集 來避免模型對於訓練資料集產生記憶效應,使用測試資料集來選擇模型以及測量模型在預測未知資料的能力,微軟提供的評估方法可以透過 Mining Accuracy Chart Lift Chart-累積增益圖 Classification Matrix-錯差矩陣,12,模型的評估使用測試資料(CRISP-DM),利用測試資料集進行欄位對應 選擇輸入資料表 進行欄位對應,13,模型的評估之累積增益圖(CRISP-DM),累積增益圖指標 可以判斷不同採礦演算法的準確率,14,模型效益評估之錯差矩陣(CRISP-DM),橫軸為預測結果,縱軸為實際結果 用來比較各類預測正確與錯誤之組合,1
7、5,佈署與應用(CRISP-DM),將採礦的分析結果部署到商業模型中,達到自動化預測的效果,以提升營運利潤、改善商業流程使用對象 決策者 行銷單位 財務分析 品保單位 整合方案 使用技術 DMX、AMO 、XMLA 資料平台整合性服務(Integration Services) 分析服務(Analysis Services) 報表服務(Reporting Services),16,Data Mining評估,17,Data Mining工具,資料採礦工具是利用資料來建立一些模擬真實世界的模式(Model),利用這些模式來描述資料中的特徵(Patterns)以及關係(Relations)。這些模
8、式有兩種用處: 瞭解資料的特徵與關係可以提供你做決策所需要的資訊。 資料的特徵可以幫助你做預測。,18,Data Mining的商業價值,9個新algorithms+Text Mining 親切的使用者介面 12 種 viewer,與現有 BI 系統整合 與 Web & Office 整合,資料來源:Microsoft Taiwan,19,完整的演算法,決策樹,群集,時間序列,時序群集,關聯規則,貝氏機率分類,類神經網路,SQL Server 2000已提供,羅吉斯迴歸,線性迴歸,文字資料採礦,20,Data Mining在各產業的應用,金融服務業客戶貢獻度分析、信用評分、風險評估、客戶區隔、
9、交叉行銷等。 保險業顧客貢獻度分析、信用評分、風險評估、客戶區隔、交叉行銷、客戶流失分析和詐欺偵測等。 電信業顧客貢獻度分析、信用評分、客戶區隔、交叉行銷、客戶流失分析、銷售預測和詐欺偵測等。,21,Data Mining在各產業的應用,製造業客戶貢獻度分析、品質管制、行銷績效分析、生產分析和存貨分析等。 零售業客戶忠誠度、客戶區隔、購物籃分析、定價分析、交叉行銷和銷售預測等。 生物科技、醫療保健、航太空業、環境、法律等,22,商業智慧流程,23,商業智慧的核心,如何收集資料 營運資料,市場調查資料,固定Panel追蹤 如何管理資料 ETL,Data warehousing 如何從資料中獲取智
10、慧 Data Mining,OLAP,Statistics 如何應用智慧 行銷策略,主管決策,互動化CRM機制,24,商業智慧之整合運用,不論是行銷或服務部門,如何將分析所得到的資訊,進一步轉換成經營管理可資利用的材料,並且在實際線上作業環境中,將整個回應機制完全自動化,充分運用這些資訊。 將資料分析所得的結果回饋入企業資源規劃系統(ERP),客戶關係管理(CRM)以及電子商務(EC)等系統中,藉此快速地提昇在這些系統上所花費大量支出的投資報酬率(return on investment, ROI) ,25,透過提供企業所有成員商業洞察力,以提昇企業組織能夠更快速、更正確的產生營運決策,完整且
11、高度整合的商業智慧解決方案 可透過Microsoft Office傳遞商業智慧訊息 符合預算考量的企業級解決方案,Microsoft 商業智慧 遠景 與 策略,26,Integration Services,ETL的重要性 ETL的重大突破 新一代ETL平台的工具標準,27,Integration Services ETL的重要性,整合異質資料來源: 文字檔案 大型主機 試算表 關連式資料庫快速更新資料倉儲與資料超市載入資料前可以清除錯誤資料可以高效率進行線上交易處理系 (OLTP) 與線上分析處理的資料 (OLAP)轉換作業回報作業成功與失敗的狀態透過整合服務可以不用在資料轉換過程中需要暫存
12、資料庫處理作業 包含資料自動管理功能,28,傳統資料整合作業,Alerts & escalation,資料整合與資料倉儲建立過程中需要額外的暫存性資料區(Stage)與作業(如彙總) 資料處理需要不同多種工具(如CRM系統的文字採礦工具) 且工具間有相容性問題存在 回報機制與問題層級提升的速度緩慢 資料過多時往往會造成該策略無法運作,29,整合Integration Services的運作方式,Alerts & escalation,使用Integration Services可以在作業過程將原需要資料庫處理的部分,直接處理完畢. 所有的作業包括文字採礦、彙總、合併、資料比對等都可以整合在同一
13、個服務中 分離增加資料庫與ETL工具的作業範圍,強化資料庫的高可用度 直接透過Integration Services進行問題的警示與回報,30,Data Flow Task 運作方式,設定資料源可以是多種不同來源,也可以包含客制化來源或是設定檔如 *.udl 使用轉換作業進行資料轉換如Merge、Aggregate、Sort等 資料可以根據規則進行分類或是合併如Multicast、Conditional Split等 資料處理流程可以根據企業規則複雜化但是不影響資料的同時性存取 最後資料可以同時寫入到不同的檔案格式如Excel、Flat File、Database等,31,Integrati
14、on Services 新一代ETL平台的工具標準,資料整合 提供資料採礦與專家經驗值 提供任何專業領域的資料整合作業 模糊查閱 查詢最適切的資料 找出最佳的符合資料 去除重複 移除相似的重複性資料 “Windows XP”, “WinXP” 找出字義相同,管理緩時變維度 例如 業務組織的改變 例如 客戶的遷移改變 例如 產品目錄的改變,32,Analysis Services,OLAP 與 Data Mining 的重要性 擴充的 OLAP 與 Data Mining 能力 更豐富的Analysis Services功能 New Paradigm for the Analytics Plat
15、form,33,OLAP 市場領導者,http:/,34,Analysis Services OLAP 與 Data Mining 的重要性,全新的商業智慧資料模型 大幅簡化架構且減少資料重複 運用UDM模型整合異質資料 提供從 MOLAP 到 ROLAP的完整選擇 豐富多元的分析範本 關鍵績效指標KPI 即時、高效率 多種即時OLAP Cubes架構可供選擇 提供快速而彈性的分析架構 XML 資料存取標準與Web Services 整合OLAP與資料採礦 支援大量運算架構,35,數位儀表板,固定式報表,BI 前端工具,EXCEL試算表,Ad Hoc 報表,Analysis Services,
16、快取,XML/A or ODBO,UDM,SQL Server,Teradata,Oracle DB2,LOB,DW,Datamart,Analysis Services 全新的資料模型架構,36,關鍵績效指標KPI,為何需要KPI 視覺化績效指標,37,38,商業智慧 關鍵績效指標KPI,Calculations that drive visual indicators 快速掌握數據且便於解讀 設定且監控績效目標 監控指標隨時間變動趨勢,39,Data Mining,資料採礦的重要性 全新資料採礦功能,40,完整的演算法,決策樹,群集,時間序列,時序群集,關聯規則,貝氏機率分類,類神經網路,
17、SQL Server 2000已提供,羅吉斯迴歸,線性迴歸,文字資料採礦,41,Decision Tree 決策樹,基本觀念 決策樹是從一個或多個預測變數中,針對類別應變數的階級,預測案例或物件的關係(會員數)。 決策樹的目標是針對類別應變數加以預測或解釋反應結果,決策樹的彈性,使得資料本身更加具吸引人的分析選項。,42,採礦模型檢視器,Decision Tree 決策樹,43,44,Cluster 群集演算法,基本觀念 目的在將相似的事物歸類。可以將變數分類,但更多的應用是透過顧客特性做分類,使同類中的事物相對於某些變數來說是相同的、相似的或是同質的;而類與類之間確有著顯著的差異或是異質性。
18、 主要是在檢驗某種相互依存關係,主要是顧客間特性的相似或是差異關係;透過將顧客特性進一步分割成若干類別而達到市場區隔之目的。,45,Cluster 群集演算法,群集圖表,46,Cluster 群集演算法,群集設定檔,47,採礦模型檢視器,Cluster 群集演算法,48,Association 關聯規則演算法,關聯規則是分析發現資料庫中不同變數或個體間(例如商品間的關係及年齡與購買行為)之間的關係程度(機率大小),用這些規則找出顧客購買行爲模式 如購買了桌上型電腦對購買其他電腦週邊商品(印表機、喇叭、硬碟)的相關影響。 發現這樣的規則可以應用於商品貨架擺設、庫存安排以及根據購買行為模式對客戶進
19、行分類。,49,相依性網路,主要目的在於了解各產品間的關聯性,Association 關聯規則演算法,50,項目,Association 關聯規則演算法,51,Sequence Cluster 時序群集演算法,Sequence Data:有順序事件序列組成的資料,相關的變數是以時間區分開來, 但不一定要有時間屬性。 例如瀏覽Web的資料屬於序列資料。,52,Sequence Clustering:在找出先後發生事物的關係,重點在於分析資料間先後序列關係。 Association則是找出某一事件或資料中會同時出現的狀態,例如項目A是某事件的一部份,則項目B也出現在該事件中的機率有a %。,Seq
20、uence Cluster 時序群集演算法,53,顧客通常在購買某類商品後,經過一段時間,會再購買另一類商品 例如: 租過黃飛鴻第一集,經過一段時間,通常會再租黃飛鴻第二集,之後再租黃飛鴻第三集 例如: 買過“棉被、枕頭、床單”之後,經過一段時間 ,通常會再購買“紙尿褲、奶粉” 例如:購買印表機的顧客,有80%的客戶在三個月內購買墨水盒。,Sequence Cluster 時序群集演算法,54,Sequence Clustering應用範圍 顧客購買行為模式預測 Web訪問模式預測 疾病診斷 自然災害預測 DNA序列分析,Sequence Cluster 時序群集演算法,55,Sequence
21、 Cluster 時序群集演算法,56,群集設定檔,Sequence Cluster 時序群集演算法,57,Time Series 時間序列演算法,時間序列 生物現象的觀察值,有時常依時間的變化而發生一系列有規則的變化,此種資料謂之時間序列的資料,而對此種資料的分析方法謂之時間序列分析法。 在自然界中,常常有很多資料具有時間序列的特色可給予使用者解決問題的重要訊息。,58,人類社會的各種活動所產生的資料如以發生的時間來區分,則可分為 橫斷面資料(Cross Section Data) 指發生於同一時期的資料 時間數列資料(Time Series Data) 同一元素的同一特質(變數)於不同時點
22、或不同時期的資料,包括逐日的日資料、週資料、月資料、季資料及年資料等,Time Series 時間序列演算法,59,時間序列定義 依時間過程所得變數的觀測值稱為時間數列,即依事件或資料發生的時間先後,依序排列的一群觀測值。 時間數列是一群發生在連續的時間點上或是整個連續時期上的觀察值所形成的集合。,Time Series 時間序列演算法,60,時間數列分析其主要目的為: 對數列未來趨勢作預測。 將數列分解成主要趨勢成份(Trend Components),季節變化成份(Seasonal Components)。 對理論性模式與數據進行適合度檢定,以討論模式是否能正確地表示所觀測之現象,如一些常
23、見的經濟模式。,Time Series 時間序列演算法,61,Time Series 時間序列演算法,62,Time Series 時間序列演算法,63,Neural Network 類神經網路演算法,類神經網路( Neural Network,NN)類似人類神經結構,是一種基於腦與神經系統研究,所啟發的資訊處理技術。 具有人腦功能基本特性:學習、記憶和歸納,64,NN並不需要瞭解系統的數學模型,直接以神經網路取代系統的模型,一樣可以得到輸入與輸出之間的關係。,Neural Network 類神經網路演算法,65,類神經網路和迴歸分析不同,沒有任何假設的機率分佈,是模式識別和誤差最小化的過程,
24、在每一次經驗中提取和學習資訊。 類神經網路可以處理連續型和類別型的資料,對資料進行預測。,Neural Network 類神經網路演算法,66,Neural Network 類神經網路演算法,67,Dependency Network,68,Nave Bayes Classifer 貝氏機率分類演算法,何謂Nave Bayes Classifer 用於大型資料庫,可以得出準確高切有效率的分類結果 單純貝氏分類器主要是根據貝氏定理 (Bayesian Theorem) ,來預測分類的結果。,69,何謂Nave Bayes Classifer 主要的運作原理,是透過訓練樣本,學習記憶分類根據所使用
25、屬性的關係,產生這些訓練樣本的中心概念,再用學習後的中心概念對未歸類的資料進行類別預測,以得到受測試資料物件的目標值。 每筆訓練樣本,一般含有分類相關連屬性的值,及分類結果 (又稱為目標值);一般而言,屬性可能出現兩種以上不同的值,而目標值則多半為兩元的相對狀態,如 ”是/否”,”好/壞”,”對/錯”,”上/下”。,Nave Bayes Classifer 貝氏機率分類演算法,70,Microsoft Naive Bayesian,Naive Bayesian can only accept categorical attributes. You need to discrete the nu
26、merical Attributes into the categorical one. No parameters need to be adjusted in SSAS.,71,Nave Bayes Classifer 貝氏機率分類演算法,72,Nave Bayes Classifer 貝氏機率分類演算法,73,Nave Bayes Classifer 貝氏機率分類演算法,74,Nave Bayes Classifer 貝氏機率分類演算法,75,Lift Chart,76,Linear Regression 線性迴歸演算法,迴歸分析 建立變數關係的數學方程式之統計程序。是將研究的變數區分為
27、因變數與自變數,並建立因變數為自變數之函數模型,其主要目的是用來解釋資料過去的現象及自由變數來預測因變數未來可能產生之數值。 自變數(Independent variable) 由數學方程式預測的變數。 因變數(Dependent variable) 據以預測因變數的值之變數。,77,簡單線性迴歸(Simple Linear Regression) 僅有一自變數與一因變數,且其關係大致上可用一直線表示。 複迴歸(Multiple Regression) 兩個以上自變數的迴歸。 多變量迴歸(Multi-Variable Regression) 用多個自變項預測數個因變數,建立之迴歸關係。,Lin
28、ear Regression 線性迴歸演算法,78,Linear Regression 線性迴歸演算法,79,Linear Regression 線性迴歸演算法,80,透過scatter plot,將實際值與預測值比對,Linear Regression 線性迴歸演算法,81,Logistic Regression 羅吉斯迴歸演算法,Logistic Regression 就是針對二元因變 ,即是1 或0。在 Logistic Curve 中有一個界遞增的 S 型函,適用於分析一機模型,而根據分性變,產生輸出變,其值可為0 或1 ,常代表選擇中的是與否。 BASEL II 算信用評分卡的標準演
29、算法,82,在統計學上,許多學者認為Logistic Regression的優點,主要能處依變項有個別的名目變項,用以預測事件發生的勝算比(Odds Ratio) ,它可解決傳統線性迴歸模式中,能處依變項是個別的名目變項的缺點,Logistic Regression 羅吉斯迴歸演算法,83,羅吉斯迴歸模型與ProspectiveBuyer資料表產生連結,之後可按增益圖,可以看到預測模型的準確率,Logistic Regression 羅吉斯迴歸演算法,84,Logistic Regression 羅吉斯迴歸演算法,85,Text Mining 新增文字資料採礦功能,Term Extract,
30、Term Lookup 目前僅支援英語 可擷取單字或是片語 可列舉排除關鍵字 Fuzzy lookup, Fuzzy Grouping 容錯指標Error-Tolerant Index 可應用在專利文件、病例、論文研究、文件分類、知識管理、信用評等,資料來源:Microsoft Taiwan,86,詞彙索引,前 置 處 理,既有詞彙擷取,文件,新生詞彙擷取,關鍵詞彙篩選及排名 (Ranking),概念式分類/分群,多國語言 中(簡繁体字)英日德俄,詞庫式斷詞,專家斷詞,領域相關經驗法則,指引式文件分類,文件自 動分類 (相似),資訊截取 (Information Extraction),概念式
31、 搜尋,資訊分享,統計斷詞,關聯與相依 分析 (Association & Dependent Analysis),專家校正,圖形模式,貝氏機制,87,相似類歸,88,文獻分類/分群,知識表達方式之轉換,資料探勘技術 Clustering k-means, EM, agglomerative ,Categorization kNN, DT, Bayes,.,表達方式之處理 藉以取得運算矩陣,UMLS, MeSH medical hierarchy Library of Congress subject headings ACM keyword hierarchy,概念階層 Concept Hi
32、erarchical Analysis,89,文件分類,自動分群/分類,文件,類別1,類別2,類別n,專家,分類器,新文件,90,關聯與法則,議題關聯相關,議題法則,法則推論,相似分析/相依原理,法則邏輯推論,91,92,93,Data Mining Model Evaluation,94,Data Mining Model Evaluation,分類矩陣 橫軸為預測結果,縱軸為實際結果 增益圖 橫軸為名單百分比,縱軸為累積佔全體之百分比 收益圖 根據成本以及銷售成功利潤,並計算出累積利潤圖 散佈圖 針對連續變數,可以利用此功能了解實際值與預測值間之差異性以及預測之趨勢變動情形,95,Data
33、 Mining Model Evaluation,說明: 在進行模型效益評估前必須先選入資料表,並在模型中勾選要進行評估比較之模型,96,Data Mining Model Evaluation,分類矩陣,97,Data Mining Model Evaluation,增益圖,增益圖: 主要展現在整體的百分上所累積的效益狀況,98,Data Mining Model Evaluation,收益圖,收益圖: 可根據所設定之固定成本、單位成本以及單位營收加以計算,找出最佳獲利點,99,Data Mining Model Evaluation,散佈圖,100,資料採礦無處不在,101,Reporti
34、ng Services,報表的重要性 報表的強化 整合 SQL Server 2005 商業智慧開發環境,102,即時透視企業問題與發展趨勢運用在跨組織進行資訊分析作業單一報表同時支援多種資料來源允許使用者進行即時互動作業允許使用者立即編輯與修改報表支援多樣畫報表輸出格式輕鬆整合前端整合應用程式,Reporting Services 報表的重要性,103,Reporting Services 報表的強化,高擴充性報表伺服器 豐富, 企業級的報表平台 (靜態與互動式報表) 多重資料來源搭配多重格式輸出選項 整合 Web Services架構,強化報表規模與管理功能 可排時程,報表快照,報表快取,
35、 高整合性開發工具 利用Visual Studio環境進行開發 報表定義語言(RDL)使用XML規格 可以利用3rd party 元件 支援前端使用者報表開發 強大的管理支援 提供 SOAP Web Service 程式介面 提供報表管理入口網站 提供高安全性管理模式 整合分析服務與整合服務等管理工具,104,設計階段報表開發工具: 報表設計器 多種資料來源(SQL Oracle DB2 ) 多種輸出控制項 (表格式, 矩陣式, 圖表) SQL指令自動產生器 MDX指令自動產生器 全新報表控制項: 互動式排序 浮動式標頭 日曆控制項 多重選項,Reporting Services 整合 SQL
36、 Server 2005 商業智慧開發環境,105,SQL Server Database / SQL Server Agent,Shared Components,Web Service (IIS / ASP.NET),Win32 Service,URL Access,SOAP Endpoints,資料提取,WMI,傳送機制,安全性,報表管理員,報表輸出,瀏覽器,開發環境 VS 2003/2005,SQL Server 2005 Management Studio,報表服務 組態管理員,ReportServer,ReportServerTempDB,SQL Server 2005報表服務架構
37、,106,Report Builder-報表產生器,延伸報表服務功能 針對使用者自訂報表 簡單化報表部署 報表產生器功能: 使用者導向方式開發 透過畫面產生查詢指令 使用者可以修改報表 簡單化資料來源整合,107,完整商業智慧的工具,強化的功能 新一代 Business Scorecard Manager 2005 整合 Office “12”,108,SQL Server 2005 關連式的資料倉儲,分割資料表與分割索引 強化高規模與同時存取的功能 簡單化資料管理 線上索引作業 資料庫鏡像與快照隔離等級 讀取動作不等待寫入動作 寫入動作不干擾讀取動作 新增與資料載入強化 T-SQL 強化,D
38、ata Warehouse Ready,109,110,整合Office “12”,利用 Excel分析資料建立企業分析資料文件,整合試算表與文件到 SharePoint,直接在應用程式中進行Office 文件的使用,直接在入口網站 進行資料存取檢視,整合 SQL,111,從各種資料來源取得資料 整合與轉換資料,從商業邏輯的角度呈現與分析資料 以 Data Mining 預測與分析,發布與呈現資料 簡單易用 Report Builder,整合,分析,報表,Decision Ready Business Intelligence,加速企業決策效能 商業智慧,112,Data Mining in SQL Server 2005,113,