收藏 分享(赏)

资料采矿介绍.ppt

上传人:fmgc7290 文档编号:7950685 上传时间:2019-05-31 格式:PPT 页数:74 大小:5.33MB
下载 相关 举报
资料采矿介绍.ppt_第1页
第1页 / 共74页
资料采矿介绍.ppt_第2页
第2页 / 共74页
资料采矿介绍.ppt_第3页
第3页 / 共74页
资料采矿介绍.ppt_第4页
第4页 / 共74页
资料采矿介绍.ppt_第5页
第5页 / 共74页
点击查看更多>>
资源描述

1、PolyAnalyst 6.0 資料採礦介紹,皮托科技股份有限公司 黃家祚,公司背景,成立於民國八十一年 本公司佈局於中台灣的彰化市,憑藉地理位置之優勢,可提供北、中、南的客戶服務,以達到Quick Response。 公司主旨:提供學術界、業界最新的科技知識與尖端之產品,並提供最好的教育傳遞及服務品質。 本公司的服務項目包括: 軟硬體研究設備銷售與導入 軟硬體專業訓練 軟硬體諮詢服務 系統專案整合等服務等。,公司經歷,聯電12吋晶圓廠規劃案 中華汽車機器人模擬軟體導入規劃案 中華汽車全廠系統模擬導入專案 中華汽車數位工廠導入案 華邦晶圓廠系統模擬專案 大眾電腦林口廠設施佈置評估專案 宏碁匈牙

2、利廠設施佈置案 緯創資通中山廠設施佈置案 日月光設施佈置專案-與成大楊大和老師合作 奇美系統模擬設施佈置案,公司經歷,世界宗教博物館華嚴世界規劃案 力晶半導體系統模擬 台灣DELL可靠度導入專案 格蘭富系統模擬專案導入 台灣高鐵可靠度導入專案 智邦可靠度導入專案 中國國家衛星氣象中心 台灣電力股份有限公司 台北翡翠水庫管理局 勞工安全衛生研究所 另外還有羅技、訊舟、怡利、正文、立碟、啟碁、台灣視訊、冠訊、普立爾、研華、國威、欣技、維熹、佳必琪、技嘉等等不勝枚舉,公司產品介紹 The Advanced Knowledge Provider,XLSTAT資料處理及統計分析,XLSTAT-3DPLO

3、T : 將資料以以視覺化之三維(3D)呈現。 XLSTAT-TIME : 時間數列分析、光譜分析、傅立葉變換, 變數轉換、描述統計、 ARIMA 模型。 XLSTAT-PLS : 此模組提供運算路徑係數(PLS)回歸解答。 XLSTAT-MX : 市場行銷認知偏好映射分析(感官資料分析) 以及 GPA。,XLSTAT資料處理及統計分析,XLSTAT-LIFE : 生存資料分析 (生命表及Kaplan-Meier估計法)。 XLSTAT-ADA : 進階資料分析(ADA),提供多重運算表格,可應用到心理學領域到生態學 XLSTAT-PIVOT : 樞紐分析表(pivot table) XLSTA

4、T-Dose : 醫藥和化學劑量影響分析。,Controller,Neurosolutions物件導向類神經軟體,Object Oriented Graphical user interface NeuralWizard、NeuralExpert、TestingWizard NeuroSolutions for Excel Code generation, custom components, OLE automation,TanhAxon,NeuroSolutions can be used to design neural networks to solve many different

5、types of real-world problems. These summaries are just a sample of the wide variety of fields to which NeuroSolutions can be applied.,Psychology,Marketing,Management,Image Processing,Medicine,Finance,Theory Generation,Social Sciences,Flow Control,Signals,Instrumentation,Education,類神經網路的應用 NeuroSolut

6、ions Applications,Sample Customer Applications,類神經網路的應用,神經網路在自動控制中的應用 應用類神經於颱風降雨量分析預測(預測) 翡翠水庫壩體負荷偏移量估算 應用類神經網路於風力預測(預測) 運用類神經於螺旋槳設計之輸出推力估算分析(函數逼近) 運用類神經在衛星照片進行地表偵測與搜尋辨識(分類),SVMs in NeuroSolutions,PolyAnalyst,多策略的資料採礦套裝軟體 含有最多的機器學習演算法,分有資料分析及文字採礦等多種演算法 結構化的規則處理工具 易於使用 豐富的資料處理工具與和善的視覺化介面 深度整合 經由 OLE

7、DB 可將模型應用到外部資料庫 可將報表直接輸出成 HTML 檔案,In-Place Data Mining / On Line,嵌入式類神經網路即時影像/訊號處理開發晶片,可協助評估和排序複雜的方案 多屬性決策分析 多屬性價值效用理論(Multi Attribute Utility Theory) 多目標決策分析(Multi-objective decision analysis) 價值焦點思考(Value-Focused Thinking) 方案評估法之分析 - 提供五種方案的權重評估 權重法評估之分析 - 提供六種複雜的權重評估 機率 - 提供六種不同的機率描述 成果顯示 - 提供多樣的

8、圖示報表及排序來確認最佳方案的選擇,決策分析-Logical Decisions,PolyAnalyst軟體介紹,什麼是資料採礦?,資料採礦為透過電腦,運用資料分析的技術,破解在大量且隱藏在資料中之前未知,可能有用,或不明顯的資訊 目的:用來作為商業目標之預測或商業行為分析,藉以讓企業達到存活的目的。 如:破解消費者行為模式,藉此得到先機,以贏得市場 目的: 分析市場型態及規則,並建立出決策模型 根據過去歷史資料來預測未來的行為,大量資料,大量的資料,型態或規則,裏面要有礦!,信用卡消費資料:假設每人平均有1.5張信用卡, 每月平均消費10筆,該行約有150萬的客戶。就 資料量而言,每月約有2

9、,250萬筆消費記錄,每年 約有2億7千萬筆消費記錄,客戶的消費型態或規則,引用銘傳資工系李御璽老師投影片,資料前處理,PolyAnalyst提供資料前處理功能 資料前處理是一個資料採礦的關鍵,因為GIGO。 所謂的資料倉儲亦即是資料前處理 資料選擇,資料清理,欄位擴充, 編碼資料前處理在整個知識發堀過程中,是最重要的,也最花的時間,資料前處理,欄位選擇 資料分割 資料整合 資料清理 Null Value闕漏值 資料錯誤 Outlier 欄位擴充(Enrichment) 內/外部資料,資料編碼 資料轉換(0/1No/Yes) 欄位轉換 資料精簡 記錄精簡(Record Reduction) 欄

10、位精簡(Attribute Reduction),PolyAnalyst 6.0演算法,節點資料庫-提供更多資料分析機械學習演算法 提供文字採礦分析節點,並改善文字檢索方式,演算法介紹,PolyAnalyst演算法參考,分類,Decision Tree Node,This tree is used to help make a decision, otherwise referred to as a prediction or classification. During analysis which requires classification the Decision Tree is a

11、 good candidate algorithm to start exploration of the data. 決策樹無法處理連續性數值,因此必要時,須先轉換成類別型態 演算法由ID3改良而成,Decision Tree介紹,Decision Tree介紹,Decision Tree介紹,執行Decision Tree之結果,貝氏分類法,貝氏分類法主要是採用機率方式進行分類 以右邊的範例來說明,例用Age36以上來區分成兩類,因為我們可以看到當Age=36時,大都沒有使用Notebook。 因此建立貝氏網路,並設定機率 總共有23筆資料 Age=36共有9筆,小36有14筆 所以抽出一

12、個人,他年齡大於等於36以上的機率為9/23 當抽到一個人,年齡=36且已經購買筆記型電腦Yes)的機率為0,未購買的機率為1 當抽到一個人年齡小於36,且已購買的機率為6/7,未購買的機率為1/7。,貝氏網路介紹,建立貝氏網路 設定Age=37,(No)的資料有9筆,(Yes)的資料有0筆。,貝氏定理,根據計算後,可以設定查詢根據貝氏所作之分類之正確率及錯誤率,Neural Network,載入資料,並將資料分成訓練資料及跟測試資料集 建立資料處理流程,並開啟類神經網路,設定目標屬性跟輸入資料屬性,Neural Network,網路設定 Number of Layer:隱藏層數量設定為1層

13、第一層隱藏層之神經元數量:5個 轉換函數為雙曲函數Sigmoid 訓練之演算法:RPROP,Neural Network,訓練次數:300次(內定,可以調整) 誤差值:當均方差小於設定值則停止 (以上誤差值若在訓練次數內就達到,系統就會自動停止),Neural Network,訓練結果,測試結果,SVM支持向量機,支持向量机是一種監督式學習網路,此神經網路廣泛應用在統統計分類及回歸分析中。此演算法在分類、文字識別,圖形分類有較好的應用。優點是分類效果佳,缺點是訓練時間久。 SVM is a multi-dimensional classification algorithm that can

14、use Boolean, String, and Numerical values as input.,SVM,載入一個分類問題,為北美帝王蟹分公母之範例 設定性別為分析預測之目標變數,SVM,分類結果可以透過觀看模糊矩陣,查看分類正確率,SVM測試結果,點選開啟Score,可以觀察SVM之測試結果,關聯分析介紹,關聯分析,在PolyAnalyst的關聯分析演算法包含了: Link Chart Link Analysis 購物籃分析 交易購物籃分析,關聯分析Link Chart,點選載入職業與工具關聯分析案例 運用Link Chart進行2種類別間之關聯分析,關聯分析Link Analysis

15、,點選載入職業與工具關聯分析案例 運用Link Analysis進行項目間之關聯分析,案例介紹展示,影響汽車耗油量因素分析,案例介紹: 在這個案例中,PolyAnalyst 被用來尋找與一輛車子的每加侖行駛英哩數 MPG (miles per gallon) 有關聯的經驗法則特徵 內如:描述一輛車子使用一加侖的汽油能夠行駛多少英哩,與這台車子其它的技術參數。被尋找出來的經驗法則能讓人以此預測的數值來比較一台給定車子的 MPG。 經過探測並且歸納總結出一些重要的因子關係和不同群組車輛的特徵。 資料中包含有下列屬性:MPG 數值、引擎汽缸數(cyl)、排氣量(displ)、加速到每小時一百英哩所需

16、的秒數(accel)、車子出廠年度(year)、車子的出廠國度(origin:USA,Europe,or Japan),車型的名稱(model)。,案例介紹展示,影響汽車耗油量因素分析,案例介紹: 在這個案例中,PolyAnalyst 被用來尋找與一輛車子的每加侖行駛英哩數 MPG (miles per gallon) 有關聯的經驗法則特徵 內如:描述一輛車子使用一加侖的汽油能夠行駛多少英哩,與這台車子其它的技術參數。被尋找出來的經驗法則能讓人以此預測的數值來比較一台給定車子的 MPG。 經過探測並且歸納總結出一些重要的因子關係和不同群組車輛的特徵。 資料中包含有下列屬性:MPG 數值、引擎汽

17、缸數(cyl)、排氣量(displ)、加速到每小時一百英哩所需的秒數(accel)、車子出廠年度(year)、車子的出廠國度(origin:USA,Europe,or Japan),車型的名稱(model)。,建立新專案,點選File中,選擇New Project功能,或者點選圖示工具列中之New Project,啟動建立新專案。,建立新專案,點選到Study資料夾下,選擇Create,建立新的研究,並設設定名稱為MPG Forecasting。,建立新專案,建立之後,會開啟新的專案作業畫面,資料匯入物件,物件使用方式介紹,點選CSV物件,將該物件用滑鼠左鍵壓住,拖拉至作業區,再將該物件放下,

18、1,2,3,設定CSV物件,點選開啟CSV物件屬性頁 選擇Browser,開啟C:Program FilesMegaputer IntelligencePolyAnalyst 6.0Examples CarData.csv,載入資料檔,找尋時,會從C槽開始搜尋 找到該物件之後,點選該物件並開啟檔案,則系統會將該 資料載入至CSV物件之中。,資料路徑搜尋,資料載入CSV物件中,資料放大瀏覽,在載入資料之後,關掉該物件屬性頁 在畫面中連點CSV 2下,則畫面會以大畫面呈現。,Driver物件使用,Derive物件主要是透過SRL運算式衍伸出新欄位 在以前4.6版或5.0版,會透過Create Ru

19、le建立一個新欄位,但是在此處卻是透過Derive物件新增欄位。 放入Derive物件之後,拖拉CSV Source物件的箭號至Derive物件,系統會將兩物件連結起來。,1,2,3,放入Derive物件,拖拉CSV Source箭號,自動連結,Derive物件設定,進入Derive物件之後,選擇Add功能 將Column 1修改為Age 選擇Columns分頁,並著手建立該方程式82-Year+1 注意: Year請用滑鼠點選Columns中之該項目變數,以避免錯誤發生 點選Execute,1,2,3,4,5,新增欄位Age,在執行之後,我門開啟該Derive物件時,則會顯示該物件所產生出之

20、資料 從資料欄位中,我們可以清楚看到新增了一個Age欄位,基礎統計分析,點選開啟Modify Columns物件瀏覽(View) 點選Statistics分頁,即可以瀏覽資料中之摘要統計資訊,Modify Column物件之使用,加入一個Modify Column物件,並連結Derive物件 開啟Modify Column物件屬性頁 將Year、Model打勾移除(因為車子出廠年度及型號在此對我們沒有用到) 設定完畢後,點選Execute,註解:亦可以用 Filter Columns物件,Modify Column物件執行,執行之後,點選開啟該物件View 從欄位判讀中,我們可以發現Year跟

21、Model的欄位不在裡頭。,加入一個Snake Chart,點選加入一個Snake Chart物件,並與Modify Columns物件連結 設定觀察的屬性為Orign(產地),來觀察彼此間各屬性之差異 設定Option,將圖形設定為Line Chart,1,2,3,4,5,6,執行Snake Chart,執行分析之後,可以看到MPG的屬性以日本較佳、歐洲車次之,美國的MPG值最差,加入一個Polt物件,加入一個Plot物件,並連結Modify Columns物件 點選開啟Plot屬性頁設定 Attributes:針對 X、Y、Z軸之屬性分別設定為Power、Acceleration、MPG

22、針對Overlay屬性:設定Color為Orign,1,2,3,4,5,6,7,Polt 3D圖選擇,再來針對Option屬性,設定為3D瀏覽,設定完畢點選Execute鈕,並離開。 連點2下滑鼠左鍵,啟動Polt物件,則可以看到繪製之3D圖。,Cluster 資料群集,加入一個Clutering物件,並連結Modify Colums物件 點選進入Clustering屬性頁,選擇要作資料群集之參考屬性,在此將全部資料匯入作資料群集篩選。 設定所要分出之群組,在此設定分成3群,並且採用較嚴格之篩選方法。設定完畢,點選Execute執行。,瀏覽Clustering群集結果,在執行之後,系統會自動開

23、始作群集,其結果將列出Setting值,以及Clustering結果,分群之後,系統會將資料分成3筆,並且個別摘要出屬性平均值。,3筆資料 群集集合,群集集合描述,該群集資料描述,應用Polt瀏覽Clustering結果,加入一個Polt物件,並連結Clustering物件 設定X軸為Age ; Y軸為MPG ; Z軸為Weight,應用Polt瀏覽Clustering結果,再來設定Overlay分頁 設定Color之屬性值為Cluster No 設定Shape為Orign 之後點選Execute,並瀏覽群集1, 2, 3之結果。,瀏覽群組1、2、3之結果,如果只有放入2個變數,並修改Poly

24、之Option參數為2維,則系統會以二維方式來進行瀏覽。,Q&A,中文文件載入問題,在PolyAnalyst中的setting Option 啟動選項功能設定Preference對話框,1,2,3,中文文件載入問題,從Preference中的選項,選擇Regional settings 將ANSI code page 設定為:950 將OEM code page 設定為:950,載入CSV檔,從Data Source中將CSV Source檔拉入作業圖中。 點選開啟CSV物件。,設定CSV物件屬性,點選Browser,將含有中文字的文件載入 將中文檔案匯入系統,中文載入,中文匯入完成,FAQ,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报