1、資料倉儲(Data Warehouse)與資料採礦要進行資料採礦前,企業必須先行建置資料倉儲。資料倉儲乃是儲存大量資料之資料庫,其與資料庫最大的不同之處則在於,資料庫中所儲存之資料通常為與營運(Operation)相關之資料,而這些資料在累積一段時間後,除儲存備份外,亦可加以整理後移轉至另一資料系統供作資料分析之用,稱之為資料倉儲。 由於將資料庫中之資料移轉至資料倉儲必須先行經過資料萃取及重新整理之過程,因此資料分析師可藉由相關分析工具如線上分析處理(On-Line Analytical Processing, OLAP)之工具、統計分析以及其他如資料採礦之分析工具來進行資料分析。 不同的分析
2、工具針對相同的資料數據可能產生各種簡單與複雜的分析結果。一般而言,資料庫均有類似如詢問(Query)與報告( Reporting)等分析工具,藉由系統所設定之參數,產生不同之分析報告。 此類分析報告多屬制式性質,通常由部門中技術類型之經理(Functional Manager)來負責,一般分析的標的為不同時期之銷售量、成本等資料;而線上分析進行之工具以及多層次(Multi-Dimensional )分析工具則多屬企業內部商業分析人士專屬使用,這些分析工具使得分析人士有能力得以對於原始資料加以剖析(Drill )以瞭解資料所呈現出之不同面向,或是瞭解不同參數間之相關性;資料採礦亦具有上述之特性,
3、惟其與上述各項分析工具主要之區分在於資料採礦可以針對相當大量之資料加以分析,找出資料中的隱性模式(Hidden Patterns)。 資料採礦本質上與統計分析技術及線上分析技術有所不同。統計技術分析僅能針對較少量之資料,就資料之關聯性或統計學上不同之標的加以分析;而線上分析處理技術,則為一般資料倉儲所採用之分析報告,可以針對制式化以及關聯性較低的數據資料加以分析。例如線上分析處理可以提供零售業者瞭解不同產品、區域以及其對於成本及銷售收入之影響,但是並無法提供顧客之購買行為模式,如顧客在購買零食後通常會購買飲料等顧客購買相關產品間之關連性。 以下的例子可以簡單的說明線上分析處理與資料採礦對於資料
4、分析的不同點:資料採礦之步驟與技術分類網路或資訊軟體之應用並未改變資料採礦之流程,但是新資訊科技加速了資料採礦的流程並擴充了應用層面。在實體商品世界中,直效行銷(Direct Marketing)可能要耗費數週甚至數月來籌備,在資訊世界的領域中,直效行銷往往只是彈指之間即可完成。 雖然資料採礦涉及資訊軟體與統計分析,範圍相當廣泛,然而由於資訊科技的進步,一般企業使用者幾乎不需要過分瞭解軟體背後所涵蓋之專業知識。最重要的是,資料採礦之重點在於能夠瞭解資料背後所寓含之意義,以及資料分析對於商務營運所可能產生之功效,倘若公司無法或錯誤解讀資料,資料採礦也就完全失去了意義,甚至可能對公司營運產生負面效
5、果。 資料採礦係一種利用分析與行為模組(Modeling)之技術,可瞭解顧客行為模式同時預測顧客未來可能行為模式之資訊軟體應用。而進行資料採礦有三個基本步驟:資料之描述、預測模組之建立以及測試模組之可信度。 首先,業者必須針對需進行資料採礦之資料進行整理,瞭解資料分析對於企業運作所可能產生之效益與優點,再針對資料庫中之資料加以分析,擷取最符合經濟效益之資料內容。其次,企業必須就歷史資料庫中之資料建立一個可供分析使用之模式(Model),並針對所設計之模式整合編修較不完整或遺失之資料,再從所設計之模式中找尋可資利用之資料行為模式。最後,則必須針對所建立之模組進行測試。測試之進行可從資料庫中透過取
6、樣之方式,以測試所建立模組結果之真偽,然後再從測試結果瞭解模組之可信度。 由於不同之產業與顧客群特性,企業有時必須針對不同之模組設計來進行抽樣研究,再從中找尋最合適之模組與應用方式。錯誤之模組設計往往將導論出不同之結論,由於資料採礦之結果通常為行銷策略之重要指標,因此錯誤的設計不僅會使企業的行銷計畫不如預期,甚至可能會使公司營運遭到嚴重打擊。 資料採礦雖與傳統所用之統計分析有所不同,然二者之本質內容仍屬類似。簡單的資料採礦仍普遍應用統計學中之資料分析方式,分析資料之數學特性如平均值、中位數等,以及瞭解數據資料間之關連性如線性迴歸等分析方式,來作為資料預測之依據。而常見之資料採礦分析類別可概分為
7、下列數種: (一) 線性迴歸(Linear Regression): 線性迴歸分析方式乃是藉由二個或二個以上之變數,瞭解彼此間之關係。如廣告預算可能對銷售收入所造成之影響,即可藉由廣告預算與銷售收入二者之歷史數據,利用線性迴歸分析來瞭解數據間之關連性,進而預測未來廣告收入之增減可能對銷售收入所產生之影響。 (二) 最鄰近者(Nearest Neighbor): 此種分析方式性質上與之後介紹的叢集分析方式近似。此種分析方式可算是所有分析技術中最簡易也最常為使用者使用之方式。 使用者可以利用過去的數據資料,訓練應用軟體瞭解不同數據間之關連性。例如使用過去十個時期的股票價格,其中前九次為預測數據(p
8、redictor value),第十次則為預測決定數據(prediction value );重複依循不同次序輸入十項不同股票價格可以產生十種不同之訓練模組,然後再由其推斷可信度較高之數據。 (三) 叢集(Clustering): 叢集就是將不同的資料數據加以分類,然後提供使用者一個較佳的資料觀察點來分析資料。一般來說,叢集分析法可以提供使用者,尤其是行銷部門,瞭解產品及顧客之特性,進而制訂出有效之行銷策略。叢集分類的方式可依照策略之需要來制訂相關資料變數,並無特定的方式或最佳之方式,由於叢級與最鄰近者分析方法類似,因此二者經常配合使用。 (四) 決策樹(Decision Tree): 決策樹
9、之分析方式是一種十分適合使用者進行資料分析之工具。由於決策樹係將資料依據不同的變數循序來產生分析結果,因此使用者幾乎不需要擁有任何統計分析之知識,即可藉由決策樹之分析方式來分析顧客或消費者之特質與異同點。 與上述各項分析方法不同的是,決策樹分析法係由使用者之意旨來將資料依據其特性加以分類,使用者並可利用決策樹之各項不同變數來判斷及預測可能之結果。然而,決策樹並非毫無缺點,倘決策過程中選擇之問題錯誤,將導致整體分析出現明顯之偏差,影響分析品質。 (五) 神經網絡(Neural Network ): 神經網絡係指藉由不同之變數設定,來訓練軟體做出較佳之決策分析與預測,其原理與人腦神經系統運作之原理
10、類似,因此稱之為神經網絡。 神經網絡對於資料分析與預測十分有效率,且其導入與使用十分簡易,然而其軟體內部隱含之模組(Model)十分複雜,即便統計學專家有時亦無法完全掌握其中的精要。其原理則為藉由不同資料變數之連結來推論出可能之結果。變數越多,產生之結果正確率越高,或藉由對於變數加權值之運作,可獲得更佳之分析結果。 (六) 規則演繹(Rule Induction): 規則演繹為資料採礦中最直接也最為一般使用者所瞭解之分析方式。藉由分析模組之設計,可以瞭解龐大資料庫中資料之特性規律,稱之為規則(Rule)。 例如零售業者可以瞭解百分之七十的顧客於購買真皮牛仔褲後,均購買塑膠皮帶,因此這二者間有其
11、一定之關連性,可稱之為規則。瞭解規則之存在,有助於知道顧客與產品之特質,然而並非每一項規則均有其實用價值,資料之實用性與否仍須視企業性質而定。 資料採礦於網路上之應用資料採礦在網路上之應用與一般利用資料庫中客戶資料所作的分析有所不同。目前的顧客關係管理軟體多利用網路來增加企業與顧客間之互動,當顧客或潛在的客戶到訪企業網址時,往往能藉由顧客關係管理之資訊軟體來進行資料蒐集,進而以資料採礦之分析工具來進行資料分析。 當顧客到訪網站時,顧客其實即已提供了許多寶貴的顧客資料,企業即可藉由這些資訊分析來瞭解顧客的行為模式。如顧客所提供的個人資料、顧客點選的網頁內容、於不同網頁所停留的時間長短、利用搜尋引
12、擎時所經常使用的關鍵字,以及顧客到訪網站的時間點等,藉由資料庫的設置可以將這些資料儲存起來供日後分析之用,藉以瞭解顧客網站乃至於公司所提供之產品與服務性質的滿意度。 大部份的網站或相關軟體均有上述的功能,惟其在實務應用上之困難存在於企業本身缺乏對資料進行分析之意願,以及缺乏對於資料分析解讀之人力資源。要利用資料採礦的技術來分析顧客於網站上之行為模式,首先企業必須建構一套可以記錄顧客對於網站產品及服務的機制,並先確認進行網路資料採礦之目標,配合整體營運策略來完整蒐集顧客資料。 一般而言,可用來區分及利用網站訪客的特質包括地理區隔、人格特質及訪客使用之資訊設備等方面。地理區隔包括訪客地址、收入、購
13、買能力等;人格特質則包括訪客之購買特性,如是否為衝動性或精打細算型消費者;而訪客所使用之資訊設備則包括訪客使用之網路頻寬、操作系統、瀏覽器或伺服器等。 而訪客於網頁中的點選順序與落點可以將顧客群依照產品來加以分類,以瞭解產品與服務對於顧客所提供之吸引力。 上述各項特質均可利用不同的軟體與網站內容促使訪客提供相關資料。當網站訪客與網站產生互動時,即有機會產生資料,而這些資料的累積可以針對企業銷售及整體策略加以分析。如顧客之購買歷史、點選廣告之次數、網站上所提供之資訊以及網頁點選之落點與頻率以及訪客於網站停留時間等,均為極為珍貴之顧客資料。 在採取網路資料採礦之前,由於可供擷取之資料過多,考量成本
14、效益後,企業必須界定採取網路資料採礦之目標,以作為整體策略之準則。多數企業採取網路資料採礦多為支援公司整體行銷策略,亦有部份企業僅將網路作為其行銷管道之一,並將其與傳統行銷管道區隔。 然而顧客愈加有效利用網站資源,表示網站的設立有助於企業整體行銷策略之推展,因此在規劃網路資料採礦整體策略前,最好能夠有一個十分明確的目標。如:增加顧客平均瀏覽網頁之頁數、增加顧客於網路購買之數量與銷售金額、減少產品退回、增加品牌知名度、增加顧客到訪網站之頻率,或減少顧客購買產品之流程等,均可為企業提昇營運效率之目標,並將方案內容整合企業整體營運計畫之內。 除了確認計畫目標外,企業尚須瞭解自身問題之所在。以網路行銷(Web Marketing)為例,網路行銷者通常面對的問題有,如何強化廣告訴求、如何創造訪客個人化網頁、如何將關聯性較高的產品置於同一網頁上、如何將相關文章(以資訊為主)加以分類條列、區分不同特質的訪客、統計忽略之資料,以及預測顧客未來之行為模式等等。不同部門間有其不同的業務與資料需求,因此在資料蒐集與分析後,不同部門間即可針對原先設定之計畫方向調整各項行銷策略。