1、以資料探勘技術發掘旅遊景點最適性之消費者Using Data Mining Techniques for Discovering the Most Adaptive Consumers of Journey摘要隨著國人愈來愈重視休閒旅遊活動、及旅遊業者提供活動的多樣性,因此,如何提供消費者一個最適性的行銷資訊,已成為旅遊業者急於解決的問題之一。在本篇論文中,我們分別使用分類分析及關聯規則,來發掘出旅遊景點最適性的消費者,在旅遊業者搜尋最適性的消費群組時,可提供非常有用的參考資訊,消費者可以得到最適合的旅遊資訊,而旅遊業者可以藉由最適性的行銷策略,提昇經營的競爭優勢。關鍵詞:資料探勘、分類、關聯
2、規則、適性化ABSTRACTData mining is an useful technique how to extract information and knowledge hidden among the transactional data. In this paper, we present two methods to discover the most adaptive consumers of journey. One is ID3 decision tree which is used to classify the individual characteristic da
3、ta and traveled data. The other is association rule which is used to analysis the orientation of consumers journey.Keywords: Data mining, Classify, Association rules, AdaptiveF-42 2002 年管理創新與新願景研討會壹、簡介隨著國人所得提高,週休二日的實施,大家愈來愈重視生活品質,因此休閒旅遊已經成為生活的必需品之一。雖然旅遊業者常會推出許多旅遊方案,但是業者往往不容易找到真正適合某旅遊行程的消費者。因此,如何發掘一旅
4、遊景點最適性的消費者,以提供業者鎖定消費組群,擬訂最適合的行銷策略,已成為業者急欲解決的問題之一。所謂的適性化的推薦,就是一種加強客戶關係(customer relationship)的方法,我們將最適合的旅遊資訊、行程與服務推薦給消費者,許多業者都希望朝著個目標發展,以提昇業者本身的行銷競爭優勢。在本篇論文中,我們利用資料探勘(data mining)技術,來發掘出旅遊景點最適性的消費者,以達到最有效的適性化行銷。資料探勘是一種常被用來發掘隱藏在資料間之特徵與關係的技術,資料探勘技術目前已經相當成熟,也常被運用在各個領域當中。因此,本篇論文便採用了分類(classification) 及關聯
5、規則(association rules)兩個方法,來對消費者的個人資料及旅遊資料進行探勘,經過探勘所得到的資訊,我們便可對消費者做最適性的景點推薦。本篇論文的架構如下:在第二節中,我們介紹相關的研究;在第三節中,我們將詳細的介紹分類法,利用分類法中的 ID3 演算法來進行分類的工作,並舉一實例來說明;在第四節中,我們利用關聯規則,來發掘出旅遊景點最適性的消費者,並舉一實例說明;最後,我們在第五節中做一結論。貳、相關研究資料探勘一種在大量的資料中,找出隱藏在項目之間有用資訊的技術,其可完成以下任務或是更多:分群(clustering analysis)、分類(classification)、關
6、聯規則(association rules)、次序相關分析(sequential pattern analysis)3, 4等,可做為企業在從事行銷組合及市場預測等活動時,提供企業非常有價值的參考資訊。5說明如何利用資料探勘技術來從事行銷決策及銷售,1 利用資料探勘技術建構適性化資訊網站的研究,2利用資料探勘技術來安排旅遊行程。分類分析法可分為兩類,一為決策樹(decision tree)另一為決策法則(decision rules) ,目前常見的分類技術包括 ID36、CN27、倒傳遞類神經網路(backpropagation)8 等,分類的精神是從已知的類別物件中依據其屬性去建立類別的過程
7、,經過分類後,我們可以很清楚的看出消費者對於某見事物的意願高低,一個優良的分類技術應該具有產生精簡且預測利佳的分類模式特性。而找出項目之間的關聯性,並以關聯規則表示,則由 Agrawal 等人首先提出9。接下來,我們說明關聯規則的定義;假設 I 是交易資料庫中所有項目的集合, T 是全部交易資料的集合,一筆交易資料Tj,T jT, 是由一些項目所形成的集合,稱之為項目組(itemsets),項目組的項目個數 Tj 1。在項目組 X 與 Y 之間有一關聯規則被表示 XY,X、Y I 且 XY=。有兩個參數 s 與 c 分別為支持度(support)與信賴度(confidence),用來決定關聯規
8、則是否為有效規則(strong rules);關聯規則 XY 的支持度 s 表示為:在所有的交易集合中,同時包含有 X 與 Y 的比率值,即 s=(同時包含有 X、 Y 的交易數量)/( 總交易數量);而關聯規則 XY 的信賴度 c 表示為:在包含有 X 的交易集合中,也同時包括有 Y 的比率值,即c=(同時包含有 X、Y 的交易數量)/(包含有 X 的交易數量)。擷取出來的關聯規則,其支持度與信賴度必須大於或等於所指定的最小支持度與最小信賴度,這樣的關聯規則才有意義。擷取關聯規則最具代表性的方法為 Apriori 演算法10,其探勘過程主要分成兩個階段:第一階段先找出滿足最小支持度的所有項目
9、組,也就是在交易資料庫中包含此項目組的交易數量必須大於或等於所指定的最小支持數量。然後,這些滿足最小支持數量的項目組就稱之為高頻項目組(frequent itemsets),若一個項目組包含有 k 個項目,稱之為 k 項目組( k-itemsets);若某 k-項目組滿足最小支持數量,即稱之為高頻 k 項目組(frequent k-itemsets)。第二階段就根據前階段所找出的高頻項目組及以最小信賴度為條件,計算出所有符合的關聯規則;例如 ABC 為高頻 3 項目組,A、B、C I,假如關聯規則 AB C 滿足最小信賴度,則此關聯規則成立。其相關研究可參考11-12。參、應用分類分析法發掘最
10、適性消費者應用在搜尋旅遊景點最適性的消費者,我們必須利用客戶的基本資料來做分類,我們把消費者所填的各項個人資料當作各種屬性,並配合消費著的旅遊紀錄來進行分類的工作,經過分析之後我們便能了解各種屬性下的消費者,對於各景點的旅遊意願高低。在這一章節中,我們利用決策樹中的 ID3 分類技術,來發掘旅遊景點最適性之消費者,將在第 3.1節中詳細介紹此演算法;於第 3.2 節中舉一實例說明。3.1 ID3 分類法ID33, 6是一種決策樹分類技術,以決策樹分類法最重要的原則就是選擇最佳的屬性來當成節點,因為最佳的節點將導致決策樹為一最簡單的狀態或最接近簡單狀態,所謂最佳節點,我們是依據其節點所產生的子決
11、策樹之熵值(entropy)與物件集合之熵值所決定,其計算方式如下 E(c)=- Pi log2 Pi .(a)C物件集合;i類別數;Pi=(屬於類別 i 的物件總數)/( C 的物件總數)。接下來我們選擇某一屬性 Xj 為決策樹的節點,每個節點下在依其功能之分成 m 個子節點,接著我們計算以屬性 Xj 所產生的熵值,其計算方法如下E(Xj)= (nk/n)*E(Ck) .(b)Ck物件集合 C 中其 Xj 屬性相同的物件子集合 k;E(Ck) 為物件 Ck 的熵值;n物件集合 C 的總物件數;nk物件子集合 Ck 的物件數;接下來我們要計算資訊收益(information gain),也就是
12、原來物件集合的熵值與 Xj 為決策樹子節點的熵值間得差距,其公式如下G(Xj)=E(C)- E(Xj) .(c)最後我們詳列其演算法,其演算法如下(1) 首先我麼設立根節點為目前節點 C,所有物件都屬於 C 的物件組合。(2) 如果 C 中皆屬同一類別則停止,否則執行步驟(3)。(3) 對 C 的物件集合計算熵值。(4) 對所有未出現出現在從根節點到目的節點的屬性 Xj,以 Xj 分別對 C 的物件進行分割,並計算其所導致之部分決策樹的熵值 E(Xj)與資訊收益 G(Xj)(5) 選擇資訊收益最大的屬性,將其當成 C 的分類屬性。F-44 2002 年管理創新與新願景研討會(6) 在節點 C
13、下建立子節點 C1、C 2、 、C m(假設有 m 個屬性值),依據分類屬性質將 C 中的所有物件分派至適當的子節點中。(7) 對每一個子節點 Ci 當成目前節點 C,並分別跳至(2)執行。3.2 實例說明這次我們所要找出的是消費者對於日本行程的意願高低,我們這次是隨機挑選 15 筆消費者的基本資料為例,如表 1,我們利用決策樹分類方法可產生許多種的決策樹,我們看到圖 1 及圖 2 皆是利用表一所產生的決策樹,但我們可以很明顯的看到圖二比圖一精簡許多,而且於圖一當中甚至出現“未知” 的情形,也就是我們無法得知那種消費者的意願高低,這種情形是分類分析中我們最不願見到的。表 1、消費者旅遊資料屬性
14、編號 年齡 性別 工作 學歷 興趣 收入(月薪) 意願1 20 M 學生 高中 看書 20000 高2 20 F 學生 大學 購物 10000020000 高3 40 M 工 大專 水上活動 10000020000 低4 20 40 M 商 大學 看書 10000020000 低5 20 40 M 學生 大學 購物 10000020000 低6 40 F 商 大專 看書 100000 高7 20 40 F 工 高中 戶外活動 100000 高8 20 40 F 服 大專 購物 10000020000 高9 40 M 服 高中 看書 100000 高10 40 F 工 高中 戶外活動 10000
15、020000 低11 20 M 工 大學 水上活動 10000020000 高12 20 F 服 國中 看書 20000 高13 40 F 服 國中 看書 20000 低14 20 40 M 商 大專 購物 100000 低15 40 M 服 大學 看書 100000 高侧 约 约 亷 亷 亷 亷 亷 亷 亷 亷 亷 亷 亷 殨 殤 0 0 0 İ 0 0 0 - 0 - İ 0 圖 1约 侧 亷 亷 亷 亷 亷 亷 0 0 0 - 殨 殤 圖 2圖 2 所要表示的意義是,只要年齡小於 20 歲對於日本行程的意願都很高,而年齡介於 40-20 歲的消費者則是要看他的性別,如果是男性他們的意願就
16、很低,而如果是女性其意願則很高,最後我們看見年齡高於 40 歲的消費者當其收入低於 100000 則其意願很低,相反的高於 100000 則意願高。圖 2 的產生是因為我們利用了 ID3 演算法,其算法如下;首先我們利用 3.1 節公式(a)計算出物件集合的熵值,因為其包含了 9 筆一遠高的消費者與 6 筆意願低的消費者所以其熵值為:E(C)=-(9/15)log2(9/15)- (6/15)log2(6/15)=0.971接著利用公式(b)計算出各個屬性下其子節點的熵值,以屬性“年齡” 為例,其子節點分別為,40 歲、40 歲20 歲、20 歲下,計算如下:E(40)= -(3/6)log2
17、(3/6)-(3/6)log2(3/6)=1E(40-20)= -(2/5)log2(2/5)- (3/5)log2(3/5)=0.971E(20)= -(4/4)log2(4/4)- (0/4)log2(0/4)=0E(年齡)=(6/15 )*E(40)+(5/15)*E(40-20)+(4/15)*E(20)=0.723F-46 2002 年管理創新與新願景研討會最後我們利用公式(c)計算資訊收益 G:G(年齡)= E(C) -E(年齡)=0.248我們依此類推可算出其他屬性的的資訊收益,我們最後選擇資訊收益最高的屬性作為 C 的分類屬性,依照此方法一直做到所有節點下的會員都屬同類為止,例
18、如在圖 2 中屬性年齡為“20” 的子節點的會員皆為意願高,所以我們將停止分類運算,而屬性年齡“40-20”及“40” 下的子節點,則還需要繼續做分類,直到所有的子節點的會員都為同類為止。肆、應用關聯規則分析發掘最適性消費者應用在發掘旅遊景點最適性之消費者中,我們必須經由過往的消費者的旅遊紀錄來進行分析,同樣先找出高頻項目組再經由判斷最小信賴度看其關聯規則是否成立,如果成立我們就利用這些關聯規則來消費者推薦,在第 4.1 節中,我們介紹 Apripri 演算法來擷取關聯規則;於第 4.2 節中,提出一實例來說整個分析過程。4.1 擷取關聯規Apriori 演算法10的執行步驟為:首先找出所有的
19、高頻項目組,之後再依照最小信賴度來判定符合的關聯規則,其擷取高頻項目組的過程說明如下:(1) 找出高頻(k-1)項目組(2) 由(1)中找出任兩個有 k-2 項目相同的 (k-1)項目組,組成 k 項目組。(3) 檢查由(2)找出的高頻 k 項目組,其所有包含的 k 項目組之子集合,是否都出現在(1)中,假如有便保留,否則刪除。(4) 檢查(3)所擷取的 k 項目組是否滿足最小支持度,符合便保留否則便刪除。(5) 跳至(1)繼續找高頻 k+1 項目組,直到無法產生新的高頻項目組為止。找到高頻項目組之後,我們再判斷其是否符合最小信賴度。4.2 實例說明本節將以六筆旅遊資料為進行分析,找出其間的關
20、聯規則,們訂定最小支持度為 30最小信賴度70,其旅遊資料如表 2:表 2、旅遊資料旅遊資料編號 旅遊景點1 歐洲、美國、日本2 歐洲、美國、日本、泰國3 歐洲、美國、中國4 澳洲、美國5 歐洲、日本、巴里島6 美國、日本、南非、巴里島我們利用表 2 產生高頻 1 項目組,如圖 3,其中旅遊行程澳洲、南非和中國並不滿足我們所訂定的最小支持度 30,所以無法成為高頻 1 項目組,所以我們在產生高頻 2 項目時,也將不考慮這幾項。因為項目組的子項目都不能符合高頻項目組,所以本身當然也不可能成為高頻項目組。1-項目組 支持率 是否為高頻 1 項目組歐洲 66 是美國 83 是日本 66 是澳洲 17
21、 否南非 17 否巴里島 34 是中國 17 否圖 3、高頻 1 項目組接著我們對高頻一項目組的項目做結合,便能產生 2 項目組同理我們再依照最小支持度來判斷其是否能成為高頻 2 項目組,如圖 4。2-項目組 支持率 是否為高頻 2 項目組歐洲、美國 50 是美國、日本 66 是電腦、日本 66 是歐洲、巴里島 16 否歐洲、美國 16 否巴里島、日本 34 是圖 4、高頻 2 項目組對高頻二項目同樣做結合的動作判段出高頻三項目組,如圖 5。3-項目組 支持率 否為高頻 3 項目組歐洲、美國、日本 34 是美國、日本、巴里島 17 否巴里島、日本、歐洲 17 否歐洲、巴里島、美國 0 否圖 5
22、、高頻 3 項目組經過以上合併與判斷,我們發現符合高頻 3 項目組的只剩一組,也就是說,我們無法在進行合併,也就不可能產生高頻 4 項目組,因此我們尋找高頻項目組的工作也就完成了。最後,我們對於所有的高頻項目組來判斷其是否符合最小信賴度如圖 6。F-48 2002 年管理創新與新願景研討會項目 信賴度 關聯規則是否成立歐洲美國 75 是美國歐洲 60 否美國日本 60 否日本美國 75 是歐洲日本 75 是日本歐洲 75 是巴里島日本 100 是日本巴里島 50 否歐洲 日本美國 75 是歐洲 美國日本 66 否美國 日本歐洲 66 否圖 6、關聯規則我們對於分析出的關聯規則可以做以下的推論,
23、以“歐洲、日本美國”這組為例,我們可對已經去過日本和歐洲的消費者推薦去美國,同理我們對於其他消費者可依照其他關聯規則進行推薦。伍、結論適性化行銷已經成為現在行銷的趨勢,要達到適性化的行銷服務,必須仰賴於一種優良的資料分析工具。而本篇論文提到的兩種不同的資料探勘方法,對於資料分析與預測有莫大的助益,其中分類分析主要是對消費者的基本資料當做屬性,了解各種屬性下的消費者對於各景點的意願高低;而關聯分析則是透過消費者曾經旅遊過的景點資料進行分析,找出各種旅遊行程的關聯性。參考文獻 1 .董惟鳳,應用資料探勘方法建構適性化資訊網站,輔仁大學資訊管理研究所,碩士論文,民國89。 2 .陳肇男,旅遊行程安排
24、及探勘分析之實作,國立雲林科技大學電子工程與資訊工程技術研究所,碩士論文,民國 89。 3 .魏志平、董和昇,電子商務與實務,2000,華泰文化事業有限公司,第 147-184 頁。 4 .M. S. Chen, J. Han, and P. S. Yu, Data Mining: An Overview from a Database Perspective, IEEE Trans. on Knowledge and Data Engineering, pp. 866-883, 1996. 5 .M. J. A. Berry and G. Linoff, Data Mining Techni
25、ques for Marketing, Sales, and Customer Support, New York: John Wiley. 6 .C. L. Sabharwal, K. R. Hacke and D. C. St. Clair, “Formation of clusters and resolution of ordinal attributes in ID3 classification trees,”Proc. of ACM/SIGAPP Symposium on Applied Computing: Technological Challenges of the 199
26、0s, pp. 590-597 (1992). 7 .P. Clark and T. Niblett, “The CN2 induction algorithm,” Machine Learning, Vol. 3, pp. 261-283 (1989). 8 .E. Rich and K. Knight, “Learning in neural network,” 2nd Ed., McGraw-Hill, New York, 1991. 9 .R. Agrawal, T. Imielinski, and A. Swami, “Database mining: a performance p
27、erspective,” IEEE Tran. Knowledge and Data Engineering, Vol. 5, No. 6, pp. 914-925 (1993). 10 .R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules,” Proceedings of the 20th International Conference on Very Large Databases, Santiago. Chile, September, pp.487-499 (1994). 11 .R. Sr
28、ikant and R. Agrawal, 1995, Mining Generalized Association Rules, Proceedings of the 21th International Conference on Very Large Data Bases, pp. 407-419. 12 .J. S. Park, M. S. Chen, and P. S. Yu, 1997, Using a Hash-Based Method with Transaction Trimming for Mining Association Rules, IEEE Transactions on Knowledge and Data Engineering, Vol. 9, No. 5, pp. 813-825.