1、環球技術學院 資料採礦與資料倉儲講師 Michael Wang / Scott.Chiang 2006.10 第六章 資料採礦與資料倉儲6-1 資料採礦意義與特性6.1.1 資料採礦的意義就是從大量的資料庫中找出相關的模式(Relevant Patterns) ,並自動地萃取出可預測的資訊 。它是利用完備的統計與機器學習(Machine Learning)技術,來建立能自動預測顧客行為的模型,同時還能與資料倉儲結合,發展出有價值的商業用途。資料採礦技術可應用在下列六個方向:1.獲取新客戶;2.維繫舊客戶;3.剔除壞 客戶;4.客戶購物籃分析(Basket Analysis) ;5.需求預測與目
2、標行銷;6.交叉行銷(Cross-selling)與主動行銷(Up-selling) 。6.1.2 資料採礦的特性 它可從資料庫中挖掘隱藏的知識、趨勢發展,了解顧客行為,做好客戶關係管理,幫助企業作做決策,增進商機提昇企業競爭力 可應用在商業客戶分析、廣告分析、追踨犯罪、風險管理、網路訊息分析、製造過程掌握等。6-2 資料採礦執行步驟了解資料、獲取相關知識與技術、融合與查核資料、去除錯誤或不一致的資料、發展模式與假設、執行資料探勘、測試與檢核、解釋與運用6-3 資料採礦使用方法決策樹、神經網路、規則推斷、遺傳演算法、類神經系統、資料方塊法、線性迴歸、實驗設計等,例如:百貨業利用客戶消費資料,進
3、行行銷作業、銀行業利用消費者刷卡資料,與週邊企業進行整合行銷手段。環球技術學院 資料採礦與資料倉儲講師 Michael Wang / Scott.Chiang 2006.10 6-4 資料倉儲意義與特性6.4.1 資料倉儲的意義:從技術面來看,它是一個集中儲存電子資訊的所在。不同來源、不同型態的資料經過清洗整理(Cleaning ) 、轉換(Transformation )後,以相同的型態有組織的排列,儲存於倉儲內以供分析。所以,廣義的資料倉儲指的是整體的解決方案,除了資料集中儲存,還包括連線分析(On-line Analytical Processing,簡稱 OLAP) 。從應用面來看,資
4、料倉儲是現代企業資訊系統架構的核心,為企業提供快速的、整合的、具分析性的資訊服務。傳統資料庫著重於微觀查詢 ,也就是使用者可以查詢到他所需要的各項資料,而資料倉儲則著重在宏觀查詢 ,也就是其所提供的資訊可以協助高階主管了解與掌握問題。6.4.2 資料倉儲的特性:(一)以主題為導向(Subject-Oriented)資料倉儲會將資料自然的以相同的種類或主題聚集在一起,因此它會以這些高層次且不重複的主題為主要的處理對象,而有別於交易作業系統的流程導向。資料倉儲所欲解決的問題是決策分析的問題,而非交易導向的問題。 (二)整合性(Integration)資料倉儲內的資料必須具有相當整合性,在一企業中,
5、具有多個資料庫或不同的系統平台是普遍的事。而資料倉儲便是要整合企業的多個資料庫,跨越不同的平台,透過資料轉換過程,要讓欄位名稱、測量變數、編碼方式、日期時間等等主題屬性具有一致性的格式。 (三)時間變化性(Time Variation)日常的作業系統每天都有新資料增加,為維持資料倉儲的可用性,必須在某些特定的時間點到作業系統中擷取新資料,這樣才能確保資料倉儲中的資料是最具時效性的。 (四)非揮發性(Non Volatilization)當資料放到資料倉儲中後,便不易異動、修正或更新。換個方式說,資料一旦被新增之後,便難以被更動,只會被查詢,因此它具有唯讀的性質和累積性。簡單地說,資料倉儲本身是
6、一個非常大的資料庫,它儲存著由組織作業資料庫中整合而來的資料,特別是指從線上交易系統(On-Line Transactional Processing,簡稱 OLTP,處理一般交易的線上資訊系統)所得來的資料,另外還包括少部分相關的外部資料。 而企業可以以顧客為中心來整合資料,來加以分析顧客關係管理的相關主題,如顧客流失問題、顧客分群問題、顧客利潤問題、購物籃分析、交叉行銷問題等。環球技術學院 資料採礦與資料倉儲講師 Michael Wang / Scott.Chiang 2006.10 6-5 資料倉儲執行步驟與執行方法在此以汽車業者執行資料倉儲的步驟與方法進一步介紹,在市場競爭情勢及企業內
7、部資料管理架構不足的原因驅動下,某汽車業者的高層決定投入顧客關係管理專案的經營及開發。汽車業者採取的第一個動作是建置資料倉儲系統,亦即是將依企業各個部門使用者不同的需求層面建立資料架構,重新開發適當的系統模型,以強化資料收集及分析的能力。顧客關係管理專案的建置,是藉由分析企業使用者需求,以維度模型 (Dimension Model)重新測度及規劃出汽車業者顧客資料的構面,且檢視原先資料架構及內容不足和正確性。建置資料倉儲系統的步驟:1.企業使用者需求分析:在定義資料來源前,必須先充分了解企業使用者的需求。在此階段中,首先須清楚汽車業者各個部門使用者,對資料採礦及資料分析的切入構面,以及相關的分
8、析資料需求。例如業務部門會希望了解台灣各個縣市賣出車型的資料,那麼就可將資料分析的切入構面設定為區域;或者是要了解特定時段內銷售的車型或是數量,則切入的構面就是汽車掛牌時間 。除了這些銷售端的資料外,顧客在購買汽車後,與公司最重要的互動就是回廠維修。所以利用維修廠的工作報單(簡稱工單)中的項目,如:維修項目、更換的零件、維修時間、維修金額、車主等為中心,而輔以經銷商手中汽車購買時間、汽車掛牌時間、掛牌區域等資料,即可建立完整的顧客資料維度模型。2.建立資料模型:此階段的主要目標即是依各個使用者對資料內容的需求,規劃出適當且足夠的欄位,供資料的紀錄輸入及往後的分析,同時決定是採用一次劃足 (Fu
9、ll Table ) , 漸次增加(Incremental )的設計模式。同時在線上即時分析處理(On-Line Analytical Processing , OLAP)功能的設計上,也必須同時考量資料的深度(是否能擷取整體的企業資料,甚至是最細項的資料?) 、報表的範圍(能否涵蓋全面性的問題範疇?)及資料的廣度(系統是否能滿足企業營運上各種應用需求?) 。此階段中,還有一項非常重要的工作,就是定義所謂的中介資料 (Metadata) 。中介資料事實上就是資料表格欄位,與分析報表中企業觀點的對照關係,因為對企業使用者而言,閱讀報表者通常並不了解系統與欄位設計,因此如何將系統設計,與企業實際需
10、求串連整合,就要透過完整正確的中介資料 ,所以設計好要定義中介資料必須同時了解資料庫的設計,及企業觀點。以汽車業者為例,其中介資料包括維度物件與量測物件 。維度物件即是各個業務分析觀點及事物分類,亦即查詢或觀察資料的角度,包括:車型、工作代號及維修種類等;而量環球技術學院 資料採礦與資料倉儲講師 Michael Wang / Scott.Chiang 2006.10 測物件則為各種隨維度物件而變化的運算數值,通常是可以加總的數值資料,如維修金額、車次及工單數。汽車業者所有的中介資料中,最重要的應該就是所謂的 RFM:(R):是指最近一次消費(Regency)的相關資料,如最後一次進廠日、最後一
11、次保養日等。(F):是指消費頻率( Frequency)的相關資料,如購買車次等。(M):是指消費金額(Monetary )的相關資料,如零件、工作項等金額。同時,為有利於使用者解讀資料,在設計中介資料的階層時,應該由最概括性的資料,深入細分到最特定資料,如車種車系 底盤前三碼 底盤前六碼。因此一個完整的資料模型要能順利且有效率的運作,必須充分整合維度模型、OLAP 的設計及中介資料的定義。1.提供企業使用者一致性的使用介面:在以往,汽車業者在總公司的要求下,建置了許多不同的資料庫環境,諸如工單銷貨系統、車藉系統及客戶系統,分別散佈在不同的平台上,所以企業各個部門的用者,在作業環境無法統合下,
12、一直必須以制式的申請表格,要求資訊人員代為採擷或製作報表,不僅曠日費時,也造成資訊部門與其他部門間的緊張關係。為了克服過去的問題,再加上資料分散在不同的資料庫中,因此在系統設計時,就特別提供企業使用者一致性的使用介面如圖 6.5.1,包括定時轉換檔案、載入資料倉儲等工作,終端使用者都僅透過一致性的圖形使用者介面,即可進行資料的採擷分析,絲毫不會感覺到後台的轉換及作業複雜性。圖 6.5.1環球技術學院 資料採礦與資料倉儲講師 Michael Wang / Scott.Chiang 2006.10 2.專案管理整個資料倉儲的建置過程,都必須有專案管理專業人員做全程的掌控,從初期的專案規劃、設計,乃
13、至執行的進度,與委託企業間業務負責人的溝通,各個部門使用者的接觸,都要不時的進行,以不斷的修正。甚至在系統開始使用後,都應該持續進行專案管理,以掌握系統運作狀況與改善需求。根據過去協助業者專案建置的經驗,使用者可能無法在專案進行初期,周延的提出可能的需求,因此在系統上線運作後,專案管理人員必須不斷的與業務負責人,以及使用者密切的溝通,回饋使用需求,讓資料模型能反應實際的經營模式(Business Model)系統建置的問題與具體成效:在建置汽車業者資料倉儲系統的過程中,可能碰到下列問題:1.資料失真或缺乏:汽車業者曾面臨因維修廠作業上的未落實,而造成資料失真或缺乏,增加資料分析的困難。以維修廠
14、工單填寫為例,目前填寫維修廠工單的人,主要是維修技工,但很多時候經常不夠認真的填寫或記錄,所以,汽車業者要求維修廠,指派特定專業人員配備手持式電腦,將資料掃描輸入,以保存完整周延的資料。不過在這樣的過程中,也協助汽車業者檢視自身的作業流程,成為企業再造的動力。2.工具的開發與應用問題 在建置資訊架構時,面臨開發工具中文化及熟悉度上的問題,這二者都需要時間加以修改及適應。同時由於 OLAP 工具無法提供所有的管理資訊報表,汽車業者建置這套資料倉儲的效益大致顯現在四個方面:1.成為行銷的輔助工具 透過銷售端及維修端資料的綜合分析,汽車業者可以在最適當的時間,以 DM 或親身聯絡的方式,告知顧客應該
15、回廠維修的日期,及維修的項目、以及當時是否有推出促銷優惠方案,如此一來,即可達到一對一行銷的目標,也可改善過往保固期滿後,回廠維修比率過低的情況,並進而提高客戶再購買的機率。2.了解消費者及本身產品 透過維修金額的演變,如台灣地區北、中、南各區域,客戶年齡及地區做全盤的分析,就可以知道各地區消費者對車型的需求差異;或是藉由個別車主回廠檢修的車次及項目,了解車主對檢修的需求及個別車型的車況或問題。3.維修廠績效分析 在資料紀錄輸入落實的前提下,可以透過工單登記的項目、金額,顧客回廠的次數及金額的交叉分析中,了解維修廠經營的績效。環球技術學院 資料採礦與資料倉儲講師 Michael Wang /
16、Scott.Chiang 2006.10 4.控管零件庫存 顧客回廠的維修項目及零件替換的資料,可以讓汽車業者知道那一類的零件需要有較多的庫存, ;同時,如前面所提,公司可經由零件,一旦總公司有大規模全面性的召回措施時,才能及時在量上足夠的供應,也不會因為大量缺貨,導致顧客必須以過高不合理的價格替換零件。6-6 資料倉儲與資料採礦Data Warehousing 如果是礦坑,Data Mining 就是深入礦坑採礦的工作。就資料倉儲而言,主要蒐集來自其他系統的有用資訊,存放在整合的儲存區,並在正確的時間將正確的資料交給正確的人。而資料探勘則是從巨大的資料倉儲中,找出有用資訊的一種過程與技術,因
17、此,如果將資料挖掘和資料倉庫協同工作,則可以簡化資料挖掘過程的某些步驟,從而大大提高資料挖掘的工作效率。並且因為資料倉庫的資料來源於整個企業,保證了資料挖掘中資料來源的廣泛性和完整性。 CRM 不是設一個(0800)客服專線就可以了,更不是把一堆客戶的基本資料輸入電腦就夠了,完整的 CRM 運作,在相關的軟硬體系統能健全支持之前,所有的資料都須要經過準備與分析才可加以使用。透過 Data Mining 的技術,可以分別針對策略、目標定位、操作效能及測量評估等四切面,有效率地從市場與顧客處所蒐集累積之大量資料,挖掘分析出對消費者而言最關鍵、最重要的答案,並賴以建立真正由客戶需求點出發的客戶關係管理。