收藏 分享(赏)

资料提炼技术在虚拟商店之应用.doc

上传人:fmgc7290 文档编号:6953957 上传时间:2019-04-28 格式:DOC 页数:20 大小:2.95MB
下载 相关 举报
资料提炼技术在虚拟商店之应用.doc_第1页
第1页 / 共20页
资料提炼技术在虚拟商店之应用.doc_第2页
第2页 / 共20页
资料提炼技术在虚拟商店之应用.doc_第3页
第3页 / 共20页
资料提炼技术在虚拟商店之应用.doc_第4页
第4页 / 共20页
资料提炼技术在虚拟商店之应用.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、600資料提煉技術在虛擬商店之應用劉慧瑜 黃國峰 廖宜恩國立中興大學應用數學系資訊組摘 要隨著網際網路的興起,電子商務的熱潮也逐漸展現,目前電子商務網站數量成幾何級數地急遽增加,此時的網站若如同以往地只是單純的增加產品種類或採取低價策略,則再也無法吸引更多消費者駐足了,現在我們需要的是一個能滿足消費者需求的以服務為導向的網站。 由於近年來網際網路呈現多元化的發展,網路上的資料量愈來愈多,我們如何從中找出符合消費者需求的資訊便成了目前最主要的挑戰,而資料提煉(Data Mining)的技術則適時地為此議題提供了一線曙光。在本論文中,我們採用電腦零售商作為網路虛擬商店的應用探討對象,透過 Data

2、 Mining 技術的 Association Rules 分析,為一般使用者提供具有個人化的動態行銷網頁建議,並希望可以進一步地運用 Association Rules 為使用者提供電腦配備升級建議。此外,我們也以 CORBA 的物件分散式環境架構標準為網站帶來平衡負載的功能,進而提昇網站整體的競爭優勢。壹、簡介近年來網際網路為科技發展帶來一股嶄新的風潮,而目前網際網路上最令眾人趨之若鶩的應用就屬電子商務了,現代的電子商務網際網路伺服器(Web Server)上累積了大量的資料,但是資訊量的超載與無結構化,使得企業決策單位無法有效利用現存的資訊,甚至使決策行為產生混亂與誤用。如何透過資料提煉

3、技術,從巨量的資料庫中,發掘出不同的資訊與知識出來,將資料轉變成市場情報和市場智能,作為決策支援之用,將成為未來的主要挑戰,而企業電子商務型態網站的競爭優勢也將由此而生。在網際網路於每個人的生活中逐漸變成了不可或缺的同時,電子商務的市場將會漸漸地被開發,除了買賣的行為之外,售後服務及買賣所產生的附加價值也將會601有更迫切的需求,如強調一對一 (One-to-One) ,以及動態行銷 (Dynamic Marketing)的概念等。我們以此觀點來延伸,希望能將資料提煉(Data Mining)技術應用在電子商務的情境中,並透過網際網路上資料的分析(含 server 和 web 的資訊,還有市場

4、資料和市場知識訊息等) ,進而來發現市場情報及訊息。在本論文中,我們採用 Data Mining 的技術應用在使用者最需要的硬體、電腦及週邊產品上,希望為使用者提供不同於大量行銷模式的適時個人化建議服務。在本論文中,我們運用了統一化模型語言(Unified Modeling Language,UML)來為系統進行整體的物件導向分析與設計,在這之中透過資料提煉(Data Mining )的技術,規劃了一個架構於 Association Rules 上的資料分析系統,並且根據 CORBA 的分散式物件架構標準將其設計成可以重複使用的元件,最後則希望可以利用那些藉由分析所得到的 Associatio

5、n Rules 來為網路上的虛擬商店提供服務導向之應用,在此我們採用網路電腦零售店為主要的對象,為其提供Association Rules 的應用,讓網路電腦零售店的顧客可以因而擁有個人化的服務。本論文的架構如下:第一節簡介本論文的研究動機與成果;第二節則針對Electronic Commerce、Data Mining 等領域之相關研究的介紹;第三節就我們在論文中所提出的系統架構進行解說;第四節介紹系統實作時的物件分析與設計,並進一步說明程式的架構及運作流程;最後,在第五節中,我們除了對本系統作結論外,並且提出了未來的研究方向。貳、相關研究2.1 Electronic Commerce電子商

6、務(Electronic Commerce,EC)是今日資訊業、商業、等眾多行業的尖端潮流,Kalakota 和 Whinston 曾提出四個方向來說明電子商務的意義 1:通訊技術、企業流程、服務品質、線上服務。此外,Vladimir Zwass 解釋 EC 的意義是分享商業資訊、維護商業關係、並藉由電信網路的方式產生商業交易行為2;Michael Bloch、 Yves Pigneur 和 Arie Segev 則認為電子商務是經由數位電子設備,支援企業進行商業上之任何交易活動3。廣義而言,電子商務指的其實是一種現代的商業行為方式,目的在因應公司組織與商家之需求,達到不僅降低成本,又能增進商

7、品及服務的品質,加強服務提供效率的目的。6022.2 Data MiningData Mining 4是從資料庫( Database) 、資料倉儲(Data Warehouse) 、或其他資訊儲存體的大量資料中,將以前未發現,但是卻非常有用的資料的發掘出來之過程,而這些讓人感興趣的知識有:模式(Patterns) 、關聯性(Associations) 、變化(Changes) 、不規則且重要的架構(Anomalies and Significant Structures)等等。由於現在的技術已經可以容易地得到大量電子形式的資料,所以把這樣的資料變成有用的資訊則變成了目前最迫切的需要,而其廣泛應

8、用有:市場分析(market analysis) 、經營管理(business management) 、和決策支援(decision support)等。一般而言,我們可以把資料提煉(Data Mining)的任務分類為兩個範疇:一個是描述性資料提煉(Descriptive Data Mining),另一個是預測性資料提煉(Predictive Data Mining)。前者以簡潔和概括的方式描述資料集合,並呈現令人感興趣的資料特性;而後者則構築一個或一套模型,在可獲得的資料集合上完成推理,並試圖藉以預測未來新資料集合的可能行為。參、系統架構在此系統中,主要是針對網路電腦零售店的推薦系統5做

9、一應用,以購物者的瀏覽行為、個人資訊、購物性質等相關資料做為後續服務的基石,而如何運用這些大量的資料來擷取出有利用價值的訊息呢?我們採用了 Data Mining 技術為此議題做一探討,詳述如下。3.1 Data Mining 技術的應用我們希望藉由 Data Mining 技術,透過對網站日誌檔(Web log)、顧客註冊資料、顧客購買記錄、顧客的需求等種種資料進行交叉分析,為前端(網站)與後端(資料庫)的資訊產生連貫性,以找出那些隱藏在資料背後最有價值的寶藏。對買方而言,提供了一對一的個人化售後服務;對賣方而言,亦提供了動態行銷的好處,方能為彼此創造出雙贏的局面。那要如何才能提供個人化的服

10、務呢?主要可分成下列幾個步驟:首先要知道顧客是誰?需要什麼?並且設法給客戶他們所要的東西,最後,則是知道客戶的反應,作為日後改進的參考,此系統的基本概念即在於此。我們可將本系統的應用層面大致上分成兩類:一為動態行銷網頁,為顧客提供同好與族群化的個人建議,二603為電腦零組件及週邊升級建議,為購買後的客群提供升級建議的服務,並加強再度購物的機會。接下來,先描述本系統中最重要的基本概念-Association Rules。3.1.1 Association Rule 演算法為了探討 Association Rules 在本系統中的應用,首先我們必須先針對 Data Mining 領域中所定義的 A

11、ssociation Rules6,7,8做一番簡單的描述。其實 Association Rule 指的就是下述形式的規則:A = B Support,Confidence其中,Support = Probability (A B)Confidence = Probability(B|A)A 和 B 都是項目(items)的集合;support(支持度)是(the number of transactions containing AB)/(the number of transactions)的值;confidence (信心度)是一個條件機率的值,即(the number of trans

12、actions containing AB)/(the number of transactions containing A) 。而整個 A=B s, c式子的意義是:當 A 集合中的項目存在某一個交易中時,則 B 集合中的項目也會存在此交易中,且具有 s 的支持度與c 的信心度。在本系統中我們選擇了一個最常為大家所引用的,可稱做是找出 Association Rules 的代表作演算法:Apriori 演算法9,10 。而 Apriori 演算法主要的運算流程如下圖,詳細敘述如下: AsociationRules LargeItemstRulesGenrationCandiateGerti

13、onCountigSport JoinStepPruneStp圖 3.1.1 Apriori Algorithm參考如圖 3.1.2 的交易資料庫範例,在每一個重複動作(iteration)中,透過Apriori 演算法可以建構出一個 Large Itemsets(Lk)之候選集合(Candidate set ,Ck) ,並統計每個候選集合在資料庫中出現的次數,然後再藉由先前所預先設定的最小支援值來決定下一個 Large Itemsets (Lk) 。604Database DTID Items100 A C D200 B C E300 A B C E400 B E圖 3.1.2 Data M

14、ining 的交易資料庫範例在第一個 iteration 中,Apriori 簡單地瀏覽過資料庫中所有的交易,並計算出每個項目發生的次數,從圖 3.1.3 中可看到候選的 1-itemsets 集合-C1,接著,若Count 的下限設定為 2,則可決定出候選 1-itemsets-L1。接著要找出 Large 2-itemsets-L2,L2 的任一子集合都必須要滿足 Count 的下限,我們採用 L1 自身與自身的 JOIN 動作 (L1L1)來產生 C2 的候選集合, (一般化的式子:LkLk = XY | X、Y belongs to Lk,|XY| = k-1 ) ,C2 由數個 2-

15、itemsets 所構成,2-itemsets 的個數共有|L1|* ( |L1|-1)/2 個;接下來,瀏覽資料庫以決定出 C2 的候選集合,圖 3.1.4中間的表格即為 C2 的候選集合;最後,L2 便 可由 Count 的下限所決定出來。 C1 L1ItemsetCount ItemsetCountA 2 A 2Scan D B 3 B 3C 3 C 3D 1 E 3E 3605C2 C2 L2ItemsetItemsetCountItemsetCountA B A B 1 A C 2A CScan DA C 2 B C 2A E A E 1 B E 3B C B C 2 C E 2B

16、E B E 3C E C E 2C3 C3 L3ItemsetScan DItemsetCountItemsetCountB C EB C E 2 B C E 2圖 3.1.3 候選的項目集合 Ck 和大的項目集合 Lk 之產生流程接著,如何再藉由 L2 來產生 C3 的候選集合呢?簡述如下:在 L2 之中有兩個Large 2-itemsets(BC 和 BE) 具有相同的第一個項目(B) ,我們可以發現CE也存在於 L2 中,由此可得知BCE的所有子集合皆屬於 Large Itemsets 中,因此BCE即為一候選的 3-itemsets;之後再藉由 Count 的下限來決定出 L3。而因為

17、此範例的L3 只有一候選的 3-itemsets,所以無法再產生 C4, Apriori 至此則終止了 Large Itemsets 之搜尋。目前為止,我們已經完成尋找 Association Rules 的第一步驟。而本系統的 items並不僅僅只是客戶的購買資料而已,實際上它包含了網站的日誌檔(web logs) 、顧客的註冊資料、顧客的需求記錄、顧客的購買記錄等等,進行多方觀點、角度的交叉分析,才能為使用者帶來更多元化的選擇與服務。Data Mining 的第二步驟即是根據 Large Itemsets 與資料庫中的記錄來產生606Association Rules,其實,使用 Larg

18、e Itemsets 產生 Association Rules 是一個很直觀的演算法:對於每一個 Large Itemsets,L ,找出所有 L 的非空子集合 S,若Count( L)/ Count(S)= minconf,則針對於每一個子集合 S,輸出一個形式為 S =(L - S)的 Association Rule。到這裡為止終於找到 Association Rules 了,但是這並不表示所有的 Rules 皆能正確地提供有效的決策資訊,例如下面的規則:A = B 40%, 66.7%其中,Probability(B)=75%上述的 Rule 看似無誤,實際上卻隱含了錯誤的判斷訊息,因

19、為在不設任何條件的限制下,B 發生的機率有 75% 比 Association Rule 找出來的 66.7%還要來得高,這也就是說,事實上 A 與 B 是具有消極關聯性的( negatively associated) 。為了過濾掉這種會誤導判斷的 Association Rules,我們必須將 confidence 作限制:只有當 confidence(即 P(AB)/ P(A) )大於 P(B)時的 Association Rules才會被採用,此即所謂的 Interesting Association Rules。如此一來可以減少導致錯誤決策的機會。3.1.2 系統架構與流程回顧之前提

20、過的,本系統 Association Rules 的產生是透過對網站的日誌檔(web log files) 、顧客的註冊資料、顧客的購買記錄、顧客的需求等資料進行交錯分析而來的。那麼在進行 Data Mining 的分析之前,我們又是如何取得這四種資料的呢?顧客的註冊資料、顧客的購買記錄、以及顧客的需求等資料是由 Web Server 的資料庫所提供,因此我們可以直接獲得,但是在取得後還必須要與 Web Log 檔的資料進行整合,轉換成 Data Mining 分析器所要求的格式。那網站的日誌檔要如何獲得呢?大多數的網站伺服器(Web Server)都會擁有自動記錄網站活動相關資訊的能力,所謂

21、的 web logs 指的就是這些記錄,本系統所採用的 Microsoft IIS11也是如此。透過 IIS 的 web logs,我們可以記錄 Web 站台的活動,以便收集統計使用者活動的資訊,這些資訊包括了網站的訪客資料、訪客瀏覽過的網頁資訊、訪客瀏覽網頁資訊的時間等。IIS 4.0 提供了四種 log 格式,我們選擇其中的 W3C12擴充日誌檔格式,因為它是一個可以由網站管理者自己設計的 ASCII 格式,藉由手動設定可以選擇哪些資源需要作記錄(如圖 3.1.4) ,減少記607錄的檔案大小,以增進執行的效率並容易分析記錄。圖 3.1.4 自訂 W3C 擴充記錄在選取了想要記錄的欄位後,

22、接著必須對日誌記錄檔進行解讀,在此,我們使用一個例子來加以說明,下圖 3.1.5 為一 W3C 擴充日誌檔的案例:#Software:Microsoft Internet Information Server 4.0#Version:1.0#Date:2000-03-01 15:16:24#Fields:date time c-ip s-sitename cs-method cs-uri-stem cs-uri-query sc-status cs(Referer)2000-03-01 15:16:24 140.120.7.8 W3SVC1 GET /default.asp - 200 -圖

23、3.1.5 W3C 擴充日誌檔的例子其中 cs 表示用戶端對伺服器的動作,sc 表示伺服器對用戶端的動作,c 代表用戶端的動作,s 代表伺服器的動作,若欄位中沒有資訊則會以虛線( -)表示。所以,其日誌記錄的意義如圖 3.1.6 所示。608在 2000 年 3 月 1 號下午 3 點 16 分,IP 位址為 140.120.7.8 的使用者,使用 HTTP 1.0 通訊協定,發出 GET 指令,瀏覽了 default.asp 檔案,沒有錯誤訊息。圖 3.1.6 解譯 W3C 擴充日誌檔目前我們從 web logs file 中擷取的資料是使用者曾經到本網站瀏覽過的網頁,並且藉由 web lo

24、gs file 中的 IP 位址來猜測哪些瀏覽記錄是隸屬於同一個 transaction,最後才再將其存入資料庫中,以利之後 Association Rules 的分析。將從 web logs file 擷取出的資料,依序存入資料庫的表格中,而表格的格式如圖3.1.7 所示:TID Item123瀏覽網頁:cpu1.html123瀏覽網頁:dvd4.html697瀏覽網頁:cpu1.html圖 3.1.7 將 web logs file 存入資料庫表格中的 TID 欄位表示 transaction 的辨識碼,Item 欄位表示瀏覽的網頁,例如其中 TID 為 123 的 transaction

25、 曾經瀏覽過 cpu1.html 以及 dvd4.html,而 TID 為 697的 transaction 曾經瀏覽過 cpu1.html。之前曾提及的另三種資料也要一併整合成如下圖 3.1.8 的形式:TID Item123 瀏覽網頁:cpu1.html123 瀏覽網頁:dvd4.html609123 職業:醫生123 學歷:碩士123 購買:AMD K7 800123 用途:上網圖 3.1.8 將 4 種分析資料存入資料庫圖 3.1.8 的意義是:其中 TID 為 123 的 transaction 曾經瀏覽過 cpu1.html 以及dvd4.html 兩個網頁,並且此位使用者的職業是

26、醫生,學歷是碩士,曾經購買過AMD K7 800 處理器,而購買電腦的主要用途是上網。Transaction Table 的欄位設計,主要是因實際上每個 Transaction 中所包含的資料項目個數並非固定,因此,在我們所設計的表格中,每一筆記錄皆會由一對 所組成。而將 Item 欄中的資料型態存為類別:資料 ,用以辨別 Item中儲存的值是屬於哪一種性質的資料。接著我們就可以使用 Data Mining 的分析器來分析已經整合好的資料,進而產生Association Rules。如下圖 3.1.9_1 所示,在啟動分析器之前,必須要先確定本系統所提供的 Mining Server 已經事先

27、開啟,再來便是執行 Timer 程式(圖 3.1.9_2) ,藉著設定 Timer 的開始時間、結束時間、以及間隔時間,Timer 會在此設定的時間範圍內,週期性地定期呼叫 Mining Server 去執行分析的任務,找出 Association Rules,並將結果再存入資料庫中,提供給 Web Server 作應用。HTMLE-Mail Web Servr Ming ServrDBTimer圖 3.1.9_1 Timer 示意圖圖 3.1.9_2 Timer Interface610分析出 Association Rules 之後,我們將之存入資料庫中的兩個表格內,本系統目前為這兩個表格

28、預設的名稱分別為 RuleItem 及 RuleSC。在 RuleItem 中的記錄為 三個欄位所構成,如圖 3.1.10 所示:圖 3.1.10 表格 RuleItem 的例子其中,ID 表示 Association Rule 的辨識碼,item 表示資料,LR 表示此 item 屬於Rule 的左邊集合或右邊集合,若將上圖表示成 Association Rule 的形式則得:瀏覽網頁 :cpu1.html,瀏覽網頁 :cpu3.html =瀏覽網頁: dvd4.html相對地,在 RuleSC 表格中的記錄為 三個欄位所組成,如下圖 3.1.11 所示:ID support confide

29、nce1 0.25 0.333333342 0.25 0.53 0.5 0.6666667圖 3.1.11 表格 RuleSC 的例子其中,ID 表示 Association Rule 的辨識碼,support 表示此 Association Rule 的support,confidence 表示此 Association Rule 的 confidence。ID item LR1瀏覽網頁:cpu1.htmlLeft1瀏覽網頁:cpu3.htmlLeft1瀏覽網頁:dvd4.htmlRight6113.1.3動態行銷網頁本系統所提供的的動態行銷網頁會依照使用者登入此電腦網站時所填寫的身分認證資

30、料而變動,在網頁中產生不同的建議連結,在系統中,我們利用 Data Mining的相關技術:Association Rules,來為顧客產生連結的建議。我們藉由使用者登入本網站時所輸入的帳號及密碼來確定使用者的身分,並同時取得關於使用者的個人資料記錄、瀏覽資料記錄、購買資料記錄、以及需求資料記錄等,接著利用這 4 種資料找出其所有的子集合,進一步再找出這些子集合所對應的 Association Rules,如果這些 Association Rules 的右邊集合中的項目有包含網頁資料時,我們便將這些資料當成未來瀏覽的建議,轉成可以連結的形式,提供給使用者作為連結的參考。3.1.4電腦零組件及週

31、邊升級建議當我們設計這個應用時,可以將整個問題分成兩個子問題來進行討論:(一)系統如何知道何時才是消費者需要更新電腦零組件或週邊配備的適當時機、(二)系統要如 何透過 Data Mining 技術的應用來提供使用者關於個人零組件或週邊升級的建議。關於第一個子問題的設計重點而言,我們設計了一個方法,希望可以用來模擬使用者在不同的時間點,對先前所購買的電腦產品之滿意度。當其中有某一個產品的滿意度低於一特定值(經統計後所獲得的產品滿意度下限)時,系統便會根據後續的 Data Mining 運算所產生之 Association Rules,來自動地為使用者提供產品升級建議。因此,在網路商店的資料庫中,

32、不僅要有一個表格(table)用來儲存每一位顧客所購買物品的資料,同時在表格中也要有一個欄位可以將顧客對每一個曾購買過的零件之滿意度紀錄下來。當顧客使用其購買的產品一段時間後(大約一、二週),系統則會自動的發送出電子郵件,向其詢問對於之前購買的每個元件之個別滿意度。由於使用者對於產品的滿意度應該會隨著時間而逐漸遞減,所以在本系統中設計了一個計時器,每隔一段時間後,系統會自動地對其資料庫中消費者購買記錄的產品滿意度值進行例行衰減,直至當產品滿意度低於一般人可以接受的滿意度時,我們便可以馬上利用 email 對消費者提出透過 Data Mining 的應用所獲得的產品升級建議,以爭取第一時間的商機

33、。由於每一類產品的特性並不相同,因此,在這個子問題中的另外一個設計重點,612便是如何決定出每一項商品個別的衰變率及滿意度的最低標準,在此議題上有下列兩種解決的方式:(1)藉由問卷調查的方式長時間地收集大量的使用者購買記錄以及事後使用者自行升級的記錄,並加以統計分析,來為每一類型的產品找出其個別的衰變率及滿意度的最低標準。(2)對每一類商品而言,我們猜測應該會存在著一個 x = f(time, price, capacity, speed, .)之類的函數,其中 x 代表商品的滿意度,藉著探討時間對 x 的關係,價格對 x 的關係,容量對 x 的關係,速度對 x 的關係,對 x 的關係等等,來

34、找出不同時間點的滿意度之值。對於第二個子問題的設計重點而言,由於要對使用者提出升級的建議,我們當然希望能夠推薦出在大眾心目中評價較高、較受歡迎的產品,所以,在資料庫中的每類商品的每一個商品記錄,都會伴隨著一個評價值的欄位來為其記錄眾人對此產品的評價程度為何,一般而言,我們可以藉由購買者的滿意度之平均值來得到這個評價值。當有了評價值之後,我們又要如何決定出商品來推薦給使用者升級呢?整體來說,當系統發現消費者有升級的需要時,系統便會將使用者的個人資料、瀏覽資料記錄、需求資料記錄、購買資料記錄等四種資料,透過 Data Mining 的 Association Rules 分析找出相關的電腦產品,換

35、句話說,就是依照使用著的特性,如職業、年齡、用途等資料,找出適合使用者的零件,再從中挑出評價較高,並且符合其需要之類別的產品以推薦給使用者作為升級參考。3.2 CORBA 的應用由於網站伺服器的負荷量有限,再加上 Data Mining 會使用到大量的資源來進行分析運算,如果 Web Server 與 Mining Server 同時存在一機器上時,會影響到網站的整體效能,因此我們希望藉著 CORBA 分散式環境所具有的分散式優點,將負責 Data Mining 的軟體元件與網站伺服器獨立分開在不同的伺服器上,藉此不僅是可以減輕網站伺服器的負荷量,在另一方面,將 Data Mining 的處理

36、過程封裝成一元件,也可以達到元件能重複使用(reuse )的效益。IntertDBTier3DBMS ver DriverJDBCriverMangTier2Aplication ServTier1Clint servrobjctWeb ServrTimer nalyzerORB ORBMing Servr613圖 3.2.1 系統架構圖由於上述原因,我們將 Web Server 與 Mining Server 獨立分開來,並且採用了 3-Tier 的架構,由上圖中左端的 Timer 透過 CORBA 的 ORB 去啟動分析器進行分析,而分析器透過 JDBC13去對使用者個人資料記錄、購買記錄

37、、瀏覽記錄、需求記錄等資料做整合、分析,最後將結果存回資料庫中,供動態行銷網頁及電腦零組件及週邊升級建議使用。HTMLE-Mail Web Servr 1 Ming ServrDB1Web Servr 2DB2圖 3.2.2 Mining Server 提供了 reuse 的功能上圖 3.2.2 主要是用來說明 Mining Server 提供了支援元件 reuse 的功能,在圖中我們可以清楚地看到右邊的 Mining Server 可以提供服務給不同的 Web Servers (Web Server 1 與 Web Server 2) ,由於 Mining Server 是採用 CORBA

38、的架構來封包成元件,所以,我們可以藉由參數的設定來決定 Mining Server 應該去存取的資料庫與輸出輸入的表格名稱,如此一來,Mining Server 便可以提供服務給不同的 Web Servers,因而擁有重複使用(reuse)的特性。肆、系統實作本章把此系統的實作部分分成四小節來做進一步的說明。首先,我們引入物件導向分析與設計(Object-Oriented Analysis and Design,OOAD)的技術,運用視覺化的模型來為本系統做軟體元件的整體規劃,以利於未來的維護、擴充修改、重複使用等;第二,主要執行 Data Mining 分析器的架構及實作說明;最後,再將 D

39、ata Mining 分析器應用於本計劃的電腦購物網站上,並為使用者提供智慧型的個人化服務。6144.1 系統的物件導向分析與設計一直以來,提昇軟體開發的生產力和軟體品質都是眾人追求的目標,隨著Internet/Intranet 應用、N-Tier 架構、元件化系統的開發趨勢,使得軟體開發工作越來越複雜,面臨越來越多的挑戰和開發上的風險。有鑑於這些問題和挑戰,在開發本系統的過程中,我們運用新一代的軟體開發技術-Unified Modeling Language(UML)14,15,16-來解決。我們利用 UML 所定義的使用案例圖(Use Case)及合作圖( Collaboration di

40、agrams) 、來說明本系統的整體架構。Use Case 圖敘述了一個系統的功能及使用者。如圖 4.1.1 所示,人型圖示表示行為者(Actor) ,橢圓圖示表示使用案例( Use Case) ,若 actor 與 Use Case 之間有連接線(Association) ,則表示此 Actor 參與了此 Use Case 所提供的功能。Actor 是系統外部的實體,以某種方式參與 Use Case,通常 Actor 由人所扮演,但有時也可能是某種系統;Use Case 是系統的敘述或案例。在圖 4.1.1 中有兩個 Actors:user 及管理者, 分別參與了數個 Use Cases,而

41、本論文主要是著眼於設定分析器及設定發送最新元件的消息兩個 Use Case 上。圖 4.1.1 Use Case Diagram接著,我們以 Collaboration diagram 進一步地解說系統的物件之互動關係(如圖4.1.2 所示)一一一一一一一一一一一一一一一一一一一一一一一一一 user一一一一一一(from 一一一)一一datbase一一(from 一一datbase)一一datbase一一(from 一一datbase)一一一一datbase(from 一一datbase)login一一一 一一615圖 4.1.2 Collaboration diagram一開始先由管理者啟

42、動 Timer 程式,透過 interface 設定 Timer 呼叫分析器的起始時間、間隔時間、以及終止時間,當 Timer 要呼叫分析器之前會先去抓取 web logs file 的資料,接著便是啟動分析器,而在 Analyzer 程式一開始之時會先去讀取資料庫中要進行分析的相關資料以進行分析,在分析後則將分析出來的結果存入資料庫中,至此 Association Rules 的分析已完成,接下來便是 Web Server 如何應用的問題了。當有使用者進入本網站時,Web Server 便會去讀取資料庫中的 Association Rules 資料,並提供出動態行銷網頁來建議給此使用者,接著

43、, Update Manager 會去設定產品滿意度的區間,此時 Timer 會定期地為產品進行滿意度的衰減,直到產品的滿意度不滿足滿意度最低值時,會再去資料庫中讀取 Association Rules 已獲得產品升級建議,並將此建議以 email 方式提供給使用者作為參考。4.2 電腦購物網站前端的應用結果將本論文的 Data Mining 系統應用於實際上的電腦網站,而呈現在網站前端的情形如下面兩張圖所示。當使用者剛進入網站時,系統會跳出一個對話方塊要求使用者輸入身分辨認資料,如圖 4.2.1 所示。若此時使用者想要以 guest 的身分進入瀏覽,則只要在使用者名稱欄位中輸入 guest

44、帳號即可進入本網站的首頁,但在此同時也將因此而喪失了獲得個人化的服務的機會。圖 4.2.1 身分認證畫面616若通過身分認證後,即可立即獲得如圖 4.2.2 之個人化建議資料畫面,其中除了有建議網頁的連結外,也在表格上附上了 support 與 confidence 的值提供使用者作為參考。圖 4.2.2 動態行銷網頁User 首 頁身 分 認 證 個 人 化 網 頁 個 人 化 資 訊直 接 找 到辛 苦 地 瀏 覽 需 要 的 資 訊圖 4.2.3 由建議網頁快速連結藉由系統建議的網頁連結資訊,使用者不必再輸入任何查詢關鍵字,便可以迅速地由系統所產生的 Association Rules

45、中獲得建議,不僅省時又省力。伍、結論及未來展望Data Mining、CORBA、Java、3-Tier、UML 等領域的相關技術在資訊科技邁向多元化的將來有著它們的不可忽視的重要性存在,在本論文中,我們採用了這些技術來為系統進行分析與設計的整體規劃,並應用於電子商務環境中的電腦硬體週邊產品上,為使用者帶來更具特性的服務。本系統的特點有:617(1)將資料變成資訊:我們從不同的觀點有效地分析大量看似無關但實際上卻有著相互關聯的資料,經由交叉綜合分析,獲得具有參考價值的訊息資訊。(2)提供個人化服務:我們透過資料提煉的技術,可以快速地為使用者提供較符合他所想要的產品資訊之個人化建議,甚至是售後的

46、升級建議也包含在內。(3)保持網站的運作正常:本系統採用 3-Tier 的架構,將資料庫管理系統與網站伺服器的應用程式分離開以減輕網站伺服器的負荷量,使每一筆交易都能擁有最佳化的運作環境。(4)Component Reuse 的特性:本系統運用 CORBA 分散式架構的優勢,將負責執行Mining 的元件放在遠端 Mining Server 機器上,並且藉由 OOA/D 的規劃,讓於此架構下的 Analyzer 程式便具有了 Component Reuse 的特性。此外,在系統物件導向的分析設計與實作的過程中,我們發現了本論文有幾個可以再做進一步改進或探討的議題:(1)Data Mining

47、其實是 Data Warehousing 中最重要的一種應用,在強而有力的資料倉儲背景下,透過 Data Mining 技術可以獲得許多有價值的知識,而本系統目前缺乏大量的資料來源以搜尋實際應用中的 Association Rules。(2)若我們能用 Parallel algorithm 來替換目前的 Sequential algorithm,亦或是用平行處理系統應可以獲得較高的效率。(3)由於 Web Server 必須將 web log files 經由網路傳給 Mining Server,需要大量頻寬並費時,此時要考慮如何運用壓縮的技術壓縮 logs files 來減少頻寬與時間的浪費

48、。(4)為了提供使用者關於產品升級的建議,我們可以進一步地運用統計學來為產品的滿意度與衰變率進行探討。(5)系統目前的資料庫處理的資料只有網頁與文件資料,未來可考慮加入多媒體影音資料。(6)目前使用的是關聯式資料庫(RDB),而 Data Mining 對於物件導向資料庫(OODB)與物件關聯式資料庫(ORDB)的適用情形也值得再做探討。(7)隨著 WAP 手機的推出,無線( wireless)應用的需求逐漸浮現,在精巧迷你的WAP 手機上所能接收的資訊量有限,如果能透過 Data Mining 的技術,為網站統合巨大的資料量,產生真正具有價值的資訊情報後,再傳送給使用者,如此一來,618在增

49、加主客雙方交流的機會情境下,不僅為使用者帶來便利,也相對地提高了網站的整體競爭力。陸、參考文獻1. R. Kalakota, and A. B. Whinston, Frontiers of Electronic Commerce, Addison- Wesley, Reading, Mass., 1996.2. V. Zwass, “Structure and Macro-Level Impacts of Electronic Commerce: FromTechnological Infrastructure to Electronic Marketplace”, E-commerce paper, 1999.3. M. Bichler, A. Segev, J. L. Zhao, “Component-based E-Commerce: Assessment of Current Practices and Future Directions”, SIGMOD, Vol.27, No. 4, December 19984. J. Han, “Data Mining, in J.

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报