资料探勘 -4 资料精简.ppt-道客多多

资源描述

1、1,資料精簡 (Data Reduction),2,內容概要,簡介資料精簡所包含之觀點資料維度精簡(Dimension Reduction) 資料記錄精簡(Record Reduction) 資料數值精簡(Value Reduction),3,簡介(1),資料精簡在資料探勘過程中所扮演的角色應用在資料的前置處理階段 (pre-processing phase) 從資料集合中挑選、過濾出具代表性的資料，進而r減少整個資料探勘的時間和成本整個資料探勘過程都可以應用資料精簡的技術前置處理階段(pre-processing phase) 探勘階段(mining phase) 後置處理階段(p

2、ost-processing phase),4,簡介(2),前置處理階段之資料精簡選取使用者感興趣的資料集合濾掉一些無關、偏差、重複的資料探勘階段之資料精簡去除不具代表性的中介資訊或法則，進而縮小探勘過程中所需花費的時間，減少產生重複、不重要的知識後置處理階段之資料精簡由探勘結果中選取其感興趣和相關的知識,5,資料精簡之優點,提高準確性降低錯誤資料之影響挑選少量資料,大幅縮減資料探勘所需的時間助於高價值知識的取得提升知識可讀性降低儲存的成本,6,資料精簡所包含之觀點,資料精簡：資料維度精簡、資料記錄精簡與資料數值精簡會員資料集合,資料維度,資料記錄,資料數值,7,資料維

3、度精簡(Dimension Reduction),資料維度利用年齡、教育程度、平均月收入和會員等級等資料維度來描述一個會員資料維度精簡在企業決策上的應用企業在決策支援與線上分析處理 (OLAP) 上，通常根據決策制定目標與應用目地的不同，會由日常線上交易處理(OLTP)資料集合中，挑選、轉換、乃至新增跟決策相關的資料維度來描述資料集合，並進行分析探勘,8,資料維度的評估(1),需要衡量標準來挑選較好的資料維度以會員資料表為例，“平均月收入” 應該比 “教育程度” 和 “年齡” 這兩個資料維度更適合做為 “會員等級” 評比的依據。(因為大部分收入低的會員，同常會員等級也會低),9,資料維

4、度的評估(2),測量方法一致性測量法(consistency measurement) 關連性測量法(association measurement) 鑑別能力測量法(discrimination measurement) 資訊量測量法(information measurement) 準確性測量法 (accuracy measurement),10,資料維度的評估(3),闡述測量方法的整合範例,目標資料維度,其他待評估之資料維度,11,一致性測量法(1),概念在使用者給定之標的資料維度下，一致性測量法的概念是利用最少的其他的資料維度，來描述資料表中每一筆記錄時，不會造成矛盾與衝突任兩筆

5、資料記錄可以透過所選擇的資料維度來描述，但不會產生不一致(inconsistency)的情況範例以”會員等級”是標的資料維度，則單以 “平均月收入” 此資料維度來描述原來的會員資料表，將使得資料記錄一與資料記錄二會產生不一致同樣“平均月收入”等級一但是會員一與會員二之會員等級卻不同,12,一致性測量法(2),“平均月收入” 對 “會員等級” 所產生的不一致數量I (平均月收入, 會員等級) = I (平均月收入(1), 會員等級) + I (平均月收入(2), 會員等級) + I (平均月收入(3), 會員等級) = 1 + 0 + 0 = 1 “教育程度” 對 “會員等級” 所產生的

6、不一致數量 I (教育程度, 會員等級) = I (教育程度(大學), 會員等級) + I (教育程度(高中), 會員等級) + I (教育程度(國中), 會員等級) = 0 + 1 + 1 = 2 “年齡” 對 “會員等級” 所產生的不一致數量 I (年齡, 會員等級) = I (年齡(1), 會員等級) + I (年齡(2), 會員等級) = 0 + 2 = 2“平均月收入”比其他資料維度重要,13,關連性測量法(1),概念當兩個資料維度A、B關連度愈高，由A中的資料數值可以判斷B中的資料數值的可能性愈高範例以”會員等級”是標的資料維度，則“平均月收入” 與其關連度可以概略計算為2/

7、3 * 1 * 1 = 2/3 平均月收入等級一時，有2/3的機會可以由此判斷為會員等級低平均月收入等級二時，有百分之百的機會判斷為會員等級高平均月收入等級三時，有百分之百的機會判斷為會員等級低,14,關連性測量法(2),“平均月收入” 與 “會員等級” 的關連度R (平均月收入, 會員等級) = R (平均月收入(1), 會員等級) * R (平均月收入(2), 會員等級) * R (平均月收入(3), 會員等級) = 2/3 * 1 * 1 = 2/3 “教育程度” 與 “會員等級”的關連度 R (教育程度, 會員等級) = R (教育程度(大學), 會員等級) * R (教育程度(高

8、中), 會員等級) * R (教育程度(國中), 會員等級) = 1 * 2/3 * 1/2 = 1/3 “年齡” 與 “會員等級”的關連度 R (年齡, 會員等級) = R (年齡(1), 會員等級) * R (年齡(2), 會員等級) = 1 * 3/5 = 3/5 “平均月收入”比其他資料維度重要,15,鑑別能力測量法(1),概念測量資料表中的其它資料維度，對於標的資料維度中的資料數值之鑑別能力(discriminating power) 鑑別能力愈高的資料維度對於標的資料維度愈具有重要性和影響力範例以”會員等級”是標的資料維度，則“平均月收入” 對其鑑別能力可以概略計算Min (

9、2/3, 3/4) = 2/3 (Min此函數為取最小值) 會員等級低的資料記錄而言，其中有2/3的部分是可以由平均月收入等級一來決定會員等級高的資料記錄而言，其中有3/4的部分是可以由平均月收入等級二來決定,16,鑑別能力測量法(2),“平均月收入” 對 “會員等級” 的鑑別能力D (會員等級, 平均月收入) = Min (D (會員等級(低), 平均月收入), D (會員等級(高), 平均月收入) = Min(2/3, 3/4) = 2/3 “教育程度” 對 “會員等級”的鑑別能力 R (教育程度, 會員等級) = R (教育程度(大學), 會員等級) * R D (會員等級, 教育程度

10、) = Min (D (會員等級(低), 教育程度), D (會員等級(高), 教育程度) = Min (2/3, 2/4) = 1/2 “年齡” 對 “會員等級”的鑑別能力 D (會員等級, 年齡) = Min (D (會員等級(低), 年齡), D (會員等級(高), 年齡) = Min (3/3, 2/4) = Min (3/3, 2/4) = 1/2“平均月收入”比其他資料維度重要,17,資訊量測量法(1),概念測量資料集合中的其他資料維度對於標的資料維度的資訊獲利(information gain)，而所提供的資訊主要是用來幫助決定資料記錄中標的資料維度之資料數值資料維度所提供的

11、資訊量愈多者，其重要性愈高,18,資訊量測量法(2),未考慮其它資料維度下，亂度值(Entropy)=PD(ci) 表示標的資料維度中資料數值ci的機率，而d表示標的資料維度的值域 (domain) 大小在考慮資料維度組合X下，標的資料維度的亂度值 PDj(ci) 表示當資料維度X為資料數值j時，標的資料維度中資料數值ci的機率，而d表示標的資料維度的值域大小計算資料維度組合X對標的資料維度的資訊獲利IGp表示資料維度組合X的值域大小 ,19,資訊量測量法(3),標的資料維度”會員等級”的亂度值 = = 0.9852 PD (會員等級一) = 3/7和PD (會員等級二) = 4/7 考慮

12、 “平均月收入” 後 “會員等級” 的亂度值 P (會員等級低|平均月收入等級一) = 2/3和P (會員等級高|平均月收入等級一) = 1/3 = 0.92 P (會員等級低|平均月收入等級二) = 0和P (會員等級高|平均月收入等級二) = 1 = = 0 P (會員等級低|平均月收入等級三) = 1和P (會員等級高|平均月收入等級三) = 0 = = 0,(,),20,資訊量測量法(4),計算“平均月收入” 對 ”會員等級”的資訊獲利= 0.9852= 0.98520.394= 0.591 當被考量的資料維度中的資料數值愈能將標的資料維度中的資料數值區分開來，則所求得之亂度值愈小；反

13、之則愈大考慮其它資料維度後，標的資料維度所表現出來的亂度值愈小者，所得到的資訊獲利愈大,21,準確性測量法,概念根據所產生的知識的優劣來挑選適合的資料維度用實驗結果決定當初挑的是否正確,資料維度挑選與產生,探勘過程,結果評估,22,資料維度之組合策略,資料維度組合策略的考量進行資料維度精簡時，使用者通常會設定一終止條件，例如：資料維度組合之長度至多為五等等完全列舉策略 (exhaustive strategy) 經驗法則列舉策略 (heuristic strategy) 隨機列舉策略 (random strategy),23,完全列舉策略(1),概念根據選擇之測量法計算任一個維度、

14、任兩個維度、依此類推至所有可能之資料維度組合，最後挑選測量值最高的資料組合優缺點優點：可以保證能在所有可能之挑選組合中，找到最佳 (測量值最高) 的組合缺點：當資料維度數量多時，完全列舉策略將不切實際,24,完全列舉策略(2),所有可能資料維度組合都需考慮,25,經驗法則列舉策略(1),概念經驗法則列舉策略是一種貪婪式方法 (greedy approach)，只關注於眼前最好的選擇從單一資料維度中挑選出最好的維度出來；從其餘未挑選之資料維度，產生可能之兩個資料維度之組合；以此類推，直到滿足使用者設定之終止條件為止優缺點優點：執行上較有效率缺點：最後所挑選之資料維度組合並不保證是

15、最佳的,26,經驗法則列舉策略(2),以 “平均月收入” 為基礎之資料維度組合,27,隨機列舉策略,概念隨機列舉策略則以單一資料維度為種子 (seed)，隨機產生可能之資料維度組合或以目前所產生之資料維度為基礎，隨機進行加入其他資料維度或去除舊有的資料維度，而加入或去除之維度數量也可以是隨機決定的優缺點優點：執行上有效率，可能可以跳脫區域最佳解(local optimal) 缺點：無法保證挑選結果的品質,28,資料記錄精簡(Record Reduction),資料記錄精簡的需求資料記錄愈來愈多，整個資料探勘所需的時間將跟著拉長利用少量具代表性的資料記錄，將可以加速資料維度精簡上的處

16、理資料記錄精簡對所獲得的知識影響求得之知識可能多少有些誤差當資料集合中存在無關的資料記錄時，將資料記錄作適當的精簡，將能獲得更準確有效的知識,29,資料記錄精簡的方法,統計方法中抽樣(sampling)的作法資料集合中抽取部分的資料記錄樣本來代表整個資料集合母體隨機抽樣(random sampling) 分層抽樣(stratified sampling) 群集抽樣(cluster sampling) 系統抽樣(systematic sampling) 兩階段式抽樣(two-phase sampling),30,隨機抽樣(random sampling),假設資料集合中的資料記錄數量為

17、N，則每一筆被選擇的機率為1/N 取回式隨機抽樣每一筆被挑選的資料記錄，仍可以重覆再被挑選不取回式隨機抽樣每一資料記錄僅能被挑選一次，不可重覆被挑選,資料集合(N=6),取回式隨機抽樣(n=4),不取回式隨機抽樣(n=4),31,分層抽樣(stratified sampling),概念步驟一：針對資料集合中同質性高且互不重疊的分層，各自進行隨機抽樣步驟二：將各分層的抽樣結果結合成一個樣本,資料集合(N=6),分層一,分層二,分層三,樣本(n=3),分層抽樣,32,群集抽樣(cluster sampling),概念步驟一：利用群集分析技術，將整個資料集合區分成數個群集，使得每個群集中

18、的資料記錄相似度很高，不同群集間的資料記錄相似度很低步驟二：隨機由這些群集中選取數個群集形成一個樣本,資料集合(N=6),群集一,群集二,群集三,樣本(n=3),群集一,群集二,群集抽樣,33,系統抽樣(systematic sampling),概念步驟一：假設資料集合中的資料記錄筆數為N，而所需之樣本資料記錄筆數為n，則系統抽樣的方式首先隨機由1N/n之間選取一個數字；假設所選取的數字為k 步驟二：以k開始，每N/n個間隔 (interval)，將相對應的資料記錄選取進樣本之中,資料集合(N=6),1 2 3 4 5 6,樣本(n=3),系統抽樣 k=2,34,兩階段式抽樣(two-ph

19、ase sampling),概念第一階段首先由資料集合中隨機抽樣出一個較大的樣本接著將第一階段中所得到的樣本當成資料集合,進行第二階段抽取,35,抽樣方法設計考量,一般抽樣或特定領域抽樣機率抽樣或非機率抽樣一次處理抽樣或多次處理抽樣取回式抽樣或不取回式抽樣動態抽樣或非動態抽樣,36,資料數值精簡(Value Reduction),資料記錄精簡的需求原始資料中存在太細、過於底層的資料數值，對於許多資料探勘方法而言，將無法從中找出層次較高、趨勢導向的知識連續性資料數值精簡資料數值分離技術(discretization technique) 類別性資料數值精簡概念階層(conce

20、pt hierarchy),37,資料數值分離技術(1),利用分離技術(discretization)，切割出數個區間來取代值域上眾多的資料數值人工分離法依據特定連續性資料維度的認知、專家的建議、普遍存在的現象，將資料數值的值域分離出數個區間 “年齡”此資料維度可以分離出下列三個區間，(0, 30、(30,60、(60,120，並分別對應到青年、中年和老年等三個資料數值,38,資料數值分離技術(2),裝箱法(binning method) 主要利用資料集合中資料數值的分佈情形來進行區間分離，而每一個區間稱為箱子 (bin) 相等寬度 (equal-width-interval)裝箱

21、法相等深度 (equal-frequency-interval)裝箱法,39,等寬裝箱法,在使用者所給定之箱子個數n下，依據排序過後資料數值之最大值與最小值切割成n個等寬箱子以 “年齡” 此資料維度而言，在使用者所給定之箱子個數為3下，每一個箱子的寬度為 (36-28) /3 = 2.67，經四捨五入後為3 箱子一：28, 29, 30 箱子二：31, 32 箱子三：35, 36,40,等深裝箱法,此做法為在使用者所給定之箱子個數n下，依據資料數值的數量切割成n個數量相等箱子會員資料表中總共有7筆資料記錄，在使用者所給定之箱子個數為3下，每一個箱子可裝載之資料筆數為為7/3 = 2.33

22、，經四捨五入後為2 箱子一：28, 29 箱子二：30, 31 箱子三：32, 35, 36,41,概念階層(1),概念階層的概念對於某一領域中各個概念(concept) 給定適當之階層關係，透過這些階層關係，了解此領域的範圍和組成元素，幫助釐清與了解領域愈往上層的概念所涵蓋的範圍愈廣泛，愈往底層之概念所涵蓋範圍愈特定而狹隘,42,概念階層(2),43,總結(1),前置處理階段適當的資料精簡減少整個探勘過程中所花費的時間和成本提高所獲取知識的準確性、利用性和可讀性資料維度的精簡給定標的資料維度，利用測量法、組合產生策略與組合產生順序，選出具有代表性的資料維度，縮短每一資料記錄的長度資料記錄的精簡利用統計抽樣的方法，挑選出部分具代表性的資料記錄，減少資料記錄的數量,44,總結(2),資料數值的精簡利用資料數值分離技術與概念階層，將分別縮小連續性資料數值與類別性資料數值的值域範圍資料維度、資料記錄與資料數值在進行精簡上，彼此互相關連和影響,

展开阅读全文