1、Data Mining: Concepts and Techniques,数据挖掘Data Mining,Data Mining: Concepts and Techniques,第1章. 引言,什么是数据挖掘?数据挖掘的功能数据挖掘系统的分类有关的几个问题总结,Data Mining: Concepts and Techniques,什么是数据挖掘?,数据挖掘 (数据库中的知识发现KDD): 从存放在数据库、数据仓库或其它类型信息库中的大量数据中提取或挖掘有趣知识的过程。(重要的,暗含的, 预先未知的以及潜在有用的)其它相关术语Data mining: 用词不当?Knowledge disc
2、overy(mining) in databases (KDD), 知识提取(knowledge extraction),模式分析( data/pattern analysis),数据考古( data archeology),数据捕捞( data dredging),信息收割( information harvesting), 商业智能(business intelligence), 等等,Data Mining: Concepts and Techniques,为什么进行数据挖掘? 潜在的应用,数据库分析以及决策支持市场分析和管理目标市场, 客户关系管理(customer relation
3、management), 菜篮子分析,交叉销售,市场划分风险分析和管理预测,客户保持,改善保险业务,质量控制,竞争分析欺诈行为探查及管理,异常监测其它应用文本挖掘 (新闻组, email, documents) and Web 分析.智能查询应答,Data Mining: Concepts and Techniques,市场分析和管理 (1),哪些数据需要分析?信用卡事务,优惠券,客户投诉,生活方式研究等等目标市场发现具有相同特征(兴趣,收入水平,消费习惯等)的客户群。.确定客户购买模式随时间变化情况交叉市场分析不同产品销售间的关联基于关联信息的预测,Data Mining: Concepts
4、 and Techniques,市场分析和管理(2),客户分析数据挖掘能指出哪种类型的客户灰购买什么产品(分类,聚类)确定客户需求为不同客户确定最好产品利用预测技术发现能够吸引新客户的因素。提供概要信息各种多维综合报告统计汇总信息(主要的数据的趋势和变化),Data Mining: Concepts and Techniques,风险分析和管理,财政计划和资产评估现金流分析和预测时间序列分析 (financial-ratio, trend analysis, etc.)资源计划:资源与耗费汇总及比较竞争:竞争监控和市场方向各户分类及基于类别的定价在高竞争力市场设置价格策略,Data Minin
5、g: Concepts and Techniques,欺诈检测与管理 (1),应用广泛应用于 医疗保险, 零售业, 信用卡服务, 电信领域 (phone card fraud), etc.方法利用历史数据建立欺诈行为模型,使用data mining技术来确定相关实例。例子汽车保险: detect a group of people who stage(策划) accidents to collect on insurance(骗保)洗钱: 监测可疑现金交易医疗保险: detect professional patients and ring of doctors and ring of ref
6、erences,Data Mining: Concepts and Techniques,欺诈检测与管理(2),监测不适当医学检查电话欺诈Telephone call model: 接受方, 持续时间, 每周或天的次数. 分析与期望标准相偏离的模式.British Telecom identified discrete groups of callers with frequent intra-group calls, 特别是移动电话,经常有打破数百万美元的欺诈。零售估计有 38% 的零售亏损来自不诚实的雇员.,Data Mining: Concepts and Techniques,Othe
7、r Applications,运动IBM Advanced Scout analyzed NBA game statistics (shots blocked, assists, and fouls) to gain competitive advantage for New York Knicks and Miami Heat天文学 类星体Web应用通过分析web访问日志,发现客户的偏好和行为模式,分析网上市场的效果,改进网站的组织。,Data Mining: Concepts and Techniques,一些具体例子,Data Mining: Concepts and Technique
8、s,一些具体例子,例1:医生给一个病人看病(模式识别的完整过程)。 测量病人的体温和血压,化验血沉,询问临床表现; 通过综合分析,抓住主要病症; 医生运用自己的知识,根据主要病症,作出正确的诊断。,Data Mining: Concepts and Techniques,一些具体例子,选取做家具的松木。怎样区分它的类型?观察:颜色、花纹、亮度、密度(样本测量值),得到样本模式综合分析:提取、选择主要特征根据主要区别:区分各单一样本(松木、桦木),Data Mining: Concepts and Techniques,具体过程,Data Mining: Concepts and Techniq
9、ues,常见的模式识别系统,Data Mining: Concepts and Techniques,知识发现的步骤:,学习应用领域:相关先验知识和应用目标创建目标数据集:数据选择数据清理和预处理: (may take 60% of effort!)数据约简和转化:发现有用特征, 维和变量约简.转化成适合挖掘的形式数据挖掘功能选择 摘要, 分类, regression(回归), 关联, 聚类.选择挖掘算法数据挖掘: 查找感兴趣的模式模式评估及知识表达可视化, 转化, 删除冗余模式等等发现知识的使用,Data Mining: Concepts and Techniques,有些人将数据挖掘视为数
10、据库中知识发现的一个基本步骤,如图,Data mining: 知识发现过程的核心过程.,Data Cleaning,Data Integration,Databases,Data Warehouse,Knowledge,Task-relevant Data,Selection,Data Mining,Pattern Evaluation,Data Mining: Concepts and Techniques,典型数据挖掘系统的结构,Data Warehouse,Data cleaning & data integration,Filtering,Databases,Database or d
11、ata warehouse server,Data mining engine,Pattern evaluation,Graphical user interface,Knowledge-base,Data Mining: Concepts and Techniques,1. 预处理模式空间里,针对具体的研究对象,往往需要进行适当的预处理。去噪声,提取有用信息,并对输入测量仪器或其它因素所造成的退化现象进行复原具体地说,预处理的功能包括: 清除或减少模式采集中的噪声及其它干扰,提高信噪比。 消除或减少数据图像的模糊及几何失真,提高清晰度。 转变模式的结构,以便后续处理(如非线性模式转为线性模式
12、)。预处理的方法:滤波、变换、编码、标准化等。(这些内容在“数字信号处理”、“数字图像处理”等课程中学过)为了便于计算机处理,往往需要将模拟量转化为数字量,也就是进行A/D转换。在此过程中必须考虑2个问题,采样间隔与量化等级。 采样间隔(采样频率),表示单位时间内(秒),要求多少个采样值。 量化级,表示每个采样值要有多少个量化级,才能满足要求。2. 特征提取/选择特征提取/选择的必要性和原则。一般的情况,人们对客观世界里的具体物体或事件进行模式采集时,总是尽可能多的采集测量数据,造成样本在模式空间里的维数很大。模式维数很大首先带来的问题是处理的困难,处理时间很长,费用很高,有时甚至直接用于分类
13、是不可能的,即所谓“维数灾难”。另外,在过多的数据坐标中,有些对刻划事物的本质贡献不大,甚至很小。因此,特征提取/选择十分必要。特征提取/选择的目的目标:就是要压缩模式的维数,使之便于处理,减少消耗。特征提取往往以在分类中使用的某种判决规则为准则,所提取的特征使在某种准则下的分类错误最小。为此,必须考虑特征之间的统计关系,选用适当的正交变换,才能提取最有效的特征。特征提取的分类准则:在该准则下,选择对分类贡献较大的特征,删除贡献甚微的特征。3. 分类分类目标: 把特征空间划分成类型空间。 把未知类别属性的样本确定为类型空间的某一个类型。 在给定条件下,可以否定样本属于某种类型。实际分类过程中,
14、对于预先给定的条件,分类中出现错误是不可避免的。因此,分类过程只能以某种错误率来完成。显然,错误率越小越好。但是,分类错误率又受很多条件的制约:分类方法、分类器设计、选用的样本及提取的特征等。因此,分类错误率不能任意小。此外,分类错误率的分析、计算也很困难,只有在较简单的情况下才能有解析的解。分类错误率是分类过程中的重要问题。,Data Mining: Concepts and Techniques,数据挖掘和商务智能,Increasing potentialto supportbusiness decisions,End User,Business Analyst,DataAnalyst,D
15、BA,MakingDecisions,Data Presentation,Visualization Techniques,Data Mining,Information Discovery,Data Exploration,OLAP, MDA,Statistical Analysis, Querying and Reporting,Data Warehouses / Data Marts,Data Sources,Paper, Files, Information Providers, Database Systems, OLTP,Data Mining: Concepts and Tech
16、niques,数据挖掘功能 (1),概念描述: 特征化和区分 特征化:汇总相应概念的数据,描述这些数据的特征 例如:研究上一年销售增加10%的软件产品的特征。 产生一年内在AllElectronics花费$1000以上顾客特征描述。结果可能是:年龄在40-50,有工作,有很好的信用等级。 数据区分:将目标概念数据的特征与其它概念数据的特征进行比较。 例如:上年销售增加10%的软件与同时期销售至少下降30%的软件进行比较。 比较两组AllElectronics顾客,如定期购买计算机产品的顾客和偶(每年少于3次)购买这种产品的顾客。可能结果是常购买者80%在20-40岁之间,受过大学教育。 偶尔购
17、买者60%太老或太年轻,没有大学学位。,Data Mining: Concepts and Techniques,数据挖掘功能 (1),关联 (相关和因果关系 )关联规则:形如X=Y,满足X中条件的记录多半也满足Y中条件。多维和单维关联age(X, “20.29”) income(X, “20.29K”) =buys(X, “PC”) support = 2%, confidence = 60% 所有顾客的2%在20-29岁,年收入20K-29K,并且在AllElectronics购买PC。 而这个年龄和收入组的顾客购买PC的可能性为60%contains(T, “computer”) =co
18、ntains(x, “software”) 1%, 75%,Data Mining: Concepts and Techniques,数据挖掘功能 (2),分类和预测 找出描述并区分数据类或概念的模型,以便能够使用模型预测类标记未知的对象。例如:按气候分类国家,按油耗分类汽车。分类模式的表示方法: 决策树, 分类规则, 神经网络预测: 预测某些未知或空缺数据值。聚类分析类标记未知: 产生类标记。聚类原则:最大化类内相似性,最小化类间相似性。例1.8 P17,Data Mining: Concepts and Techniques,数据挖掘功能 (3),孤立点分析孤立点: 数据库中可能包含一些对
19、象,它们与数据的一般行为或模型不一致,这些数据对象是孤立点。孤立点经常被作为噪声或异常丢弃,但在欺诈检测、罕见事件分析中却是十分有用的。趋势分析 趋势分析描述随时间变化的对象的规律或趋势衰退分析序列模式挖掘,周期分析基于相似性的分析 例如:股票市场数据,Data Mining: Concepts and Techniques,所有模式都是有趣的吗?,数据挖掘系统可能产生数以千计的模式或规则。而并不是所有模式和规则都是有趣的。Suggested approach: Human-centered, query-based, focused mining兴趣度度量: A pattern is int
20、eresting if it is easily understood by humans, valid on new or test data with some degree of certainty, potentially useful, novel, or validates some hypothesis that a user seeks to confirm 客观兴趣度与主观兴趣度客观: 基于模式的统计和结构 -仅与数据本身有关 例: support, confidence, etc.主观: 基于用户对数据的确信。-往往因人而异 例:意外性,新颖性,可操作性,有用性etc.,D
21、ata Mining: Concepts and Techniques,能发现所有有趣模式吗?能够仅产生有趣模式吗?,发现所有有趣模式: 挖掘算法的完全性Can a data mining system find all the interesting patterns?Association vs. classification vs. clustering是完全的。仅产生有趣模式: 挖掘算法的优化问题Can a data mining system find only the interesting patterns?方法First general all the patterns and
22、 then filter out the uninteresting ones.Generate only the interesting patternsmining query optimization,Data Mining: Concepts and Techniques,Data Mining: 多学科交叉,Data Mining,Database Technology,Statistics,OtherDisciplines,InformationScience,MachineLearning,Visualization,Data Mining: Concepts and Techn
23、iques,Data Mining分类,Different views, different classifications挖掘各种类型数据库:关系,文本,多媒体,空间所挖掘的知识类型不同: 特征化,区分,关联,分类聚类。孤立点分析,趋势分析,偏差分析,所使用的技术不同:如数据库技术,机器学习方法,统计学,可视化技术,模式识别所应用的场合:如金融,电信,DNA,股票市场,e-mail,,Data Mining: Concepts and Techniques,在何种数据库上进行挖掘?,关系数据库数据仓库事务数据库高级数据库系统面向对象和对象-关系数据库空间数据库时间序列数据库和临时数据文本数据
24、库和多媒体数据库异类及遗产数据库WWW,Data Mining: Concepts and Techniques,关系数据库: 是关系表的集合。每个表含有一组属性(字段),大量元组(记录)组成。 例1.1 AllElectronics公司数据库由以下关系表组成:customer, item, employee, branch PP7常用操作:增删改查。 数据库查询 例如:“显示上季度销售的商品列表” 统计汇总 “汇总上季度总销售额”数据挖掘用于关系数据库: (1)分析customer表,根据客户收入、年龄和以前客户的信用信息预测新客户的信用等级。 (2)检测偏差,与以前年分相比哪种商品销售出人
25、意料。,Data Mining: Concepts and Techniques,数据仓库 AllElectronics有许多分公司,每个分公司有自己的数据库,要获得整个公司的销售情况该如何做呢? 从各分公司数据库获得数据,整理汇总,一致化,去除重复,得到结果。 若经常需要这种操作-重复,费时 建立数据仓库-将这些数据整理、汇总后集中存放。 见图1-7 P9 例1.2 P9 汇总销售的数据立方 返回,Data Mining: Concepts and Techniques,事务数据库 由一个文件组成,文件中每个记录代表一个事务。一个事务包含一个唯一的事务ID,和组成事务的项的列表。 例如:Sa
26、les事务表 trans_ID list of item_IDs T100 I1,I2,I5,I6 T200 I2,I3,I4,I7 T300 I5,I6 T400 I2,I6,I8 数据挖掘问题:哪些商品适合一起销售 ?返回,Data Mining: Concepts and Techniques,空间数据库: 数据挖掘问题: “坐落在特定类型地点(如公园)的房屋特征。” “根据城市离主要公路的距离描述都市贫困率的变化趋势” 返回,Data Mining: Concepts and Techniques,WWW: 数据挖掘问题: 挖掘用户访问模式 网页特征和网页间关联 挖掘特定主题的权威网页
27、 对网页进行分类 返回,Data Mining: Concepts and Techniques,总结,Data mining: discovering interesting patterns from large amounts of dataA KDD process includes data cleaning, data integration, data selection, transformation, data mining, pattern evaluation, and knowledge presentationData mining functionalities:
28、characterization, discrimination, association, classification, clustering, outlier and trend analysis, etc.Classification of data mining systems,Data Mining: Concepts and Techniques,A Brief History of Data Mining Society,1989 IJCAI Workshop on Knowledge Discovery in Databases (Piatetsky-Shapiro)Know
29、ledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)1991-1994 Workshops on Knowledge Discovery in DatabasesAdvances in Knowledge Discovery and Data Mining (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)1995-1998 International Conferences on Knowledge Discover
30、y in Databases and Data Mining (KDD95-98)Journal of Data Mining and Knowledge Discovery (1997)1998 ACM SIGKDD, SIGKDD1999-2001 conferences, and SIGKDD ExplorationsMore conferences on data miningPAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, etc.,Data Mining: Concepts and Techniques,Where to Find Refere
31、nces?,Data mining and KDD (SIGKDD member CDROM):Conference proceedings: KDD, and others, such as PKDD, PAKDD, etc.Journal: Data Mining and Knowledge DiscoveryDatabase field (SIGMOD member CD ROM):Conference proceedings: ACM-SIGMOD, ACM-PODS, VLDB, ICDE, EDBT, DASFAAJournals: ACM-TODS, J. ACM, IEEE-T
32、KDE, JIIS, etc.AI and Machine Learning:Conference proceedings: Machine learning, AAAI, IJCAI, etc.Journals: Machine Learning, Artificial Intelligence, etc.Statistics:Conference proceedings: Joint Stat. Meeting, etc.Journals: Annals of statistics, etc.Visualization:Conference proceedings: CHI, etc.Jo
33、urnals: IEEE Trans. visualization and computer graphics, etc.,第一节数据挖掘概念( 应用举例,功能认识)数据挖掘过程介绍(举例,医生看病,木材识别,还是数据挖掘的概念)数据挖掘系统,机器学习过程数据挖掘功能分类第二节数据预处理(数据平滑),Data Mining: Concepts and Techniques,数计学院 陈晓云,Data Mining: Concepts and Techniques,39,Chapter 3: 数据预处理,目的?数据清洁数据集成和转换数据约减离散化和概念分层小结,数计学院 陈晓云,Data Min
34、ing: Concepts and Techniques,40,Why Data Preprocessing?,实际数据经常含有”脏”数据不完全:缺少属性值,其少某些该兴趣的属性,或仅包含聚集数据。噪声: 包含错误或存在孤立点不一致: 编码或命名的矛盾没有高质量的数据,就没有高质量的挖掘结果。高质量决策必须有高质量数据数据仓库需要一致的高质量的集成数据。,数计学院 陈晓云,Data Mining: Concepts and Techniques,41,数据质量的多维度量,多维视图好坏的评价标准:Accuracy准确性Completeness完整性Consistency一致性Timeliness
35、线性时间Believability可信的Value added附加值的Interpretability可判断的Accessibility可访问的Broad categories:本质的, 内容相关的, 代表性的, 可访问的,数计学院 陈晓云,Data Mining: Concepts and Techniques,42,数据预处理的主要任务,数据清洁填写缺失值,平滑噪声数据,识别、删除孤立点,解决不一致来”清理”数据。数据集成多个数据库,数据立方或文件的集成数据转化标准化和聚合如年龄和薪金属性取值范围差距很大。数据归约压缩数据集,而又不损害数据挖掘结果提高挖掘过程的速度数据聚集、维规约(去掉不
36、相关属性)、数据压缩(最短编码)、概化(较高概念替换较低概念)数据离散化数据离散化是数据归约的一种,但特别重要。尤其对数值数据,数计学院 陈晓云,Data Mining: Concepts and Techniques,43,数据预处理的形式,数计学院 陈晓云,Data Mining: Concepts and Techniques,44,Chapter 3: 数据预处理,目的?数据清洁数据集成和转换数据约减离散化和概念分层小结,数计学院 陈晓云,Data Mining: Concepts and Techniques,45,数据清洁,数据清洁任务填写缺失值识别和删除孤立点平滑噪声数据纠正不一
37、致数据,数计学院 陈晓云,Data Mining: Concepts and Techniques,46,缺失数据,数据并非总是有用的例如在许多记录中有些属性值因为不重要而被忽略,如 customer income in sales data(忽略元组)缺失数据是因为设备故障与其它数据不一致,被删除因为不能理解数据导致数据未被选中(加载时认为是不重要的)记录历史或修改的数据可能被忽空缺数据的补充需要推导,数计学院 陈晓云,Data Mining: Concepts and Techniques,47,如何处理缺失数据?,忽略元组: 当类标号缺少时这样处理。 (假设挖掘任务涉及分类或描述)不是很
38、有效,每个属性缺少值得百分比变化很大时,它的性能差。手工输入缺失数据 : 费时 + 不可靠?使用全局常量填充空缺值: 例如, “unknown”, a new class?! 会误认为形成一个新概念使用属性的平均值填充缺失值:例如,假定客户的平均收入为28000元,则使用该值替换income中的空缺值。使用与给定元组属于同一类的所有样本的平均值。 (好),同一类元组属性平均值使用最可能的值填充空缺值: 基于统计方法预测Bayesian 公式或决策树,数计学院 陈晓云,Data Mining: Concepts and Techniques,48,噪声数据,噪声: 测量变量中的随机错误或偏差 噪
39、声数据产生的原因错误的数据集收集手段数据登陆问题数据传输问题技术局限命名约定时的不一致其他需要数据清洁的数据问题重复记录不完全数据不一致数据,数计学院 陈晓云,Data Mining: Concepts and Techniques,49,如何处理噪声数据?,分箱法:通过考查邻居局部平滑数据首先排序数据并将其存入等深的箱中。然后可以分别按箱均值、箱中值和箱边界平滑数据。 例P73,数计学院 陈晓云,Data Mining: Concepts and Techniques,50,数据平滑的分箱方法,* Price排序后的数据 (in dollars): 4, 8, 9, 15, 21, 21,
40、24, 25, 26, 28, 29, 34* 划分为等深的箱: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25 - Bin 3: 26, 28, 29, 34* 用箱平均值平滑: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29* 用箱边界平滑: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34,数计学院 陈晓云,Data Mining: Concepts and Techniq
41、ues,51,聚类检测并移去孤立点 P74图计算机+人工检测计算机检测出可疑值并且由人工检测是否噪声数据。回归 让数据适合一个函数(回归函数)来平滑数据,如何处理噪声数据?,数计学院 陈晓云,Data Mining: Concepts and Techniques,52,聚类分析,数计学院 陈晓云,Data Mining: Concepts and Techniques,53,回归,x,y,y = x + 1,X1,Y1,Y1,数计学院 陈晓云,Data Mining: Concepts and Techniques,54,简单的离散方法:分箱,等宽(距离)划分:将数据划分成N个等距离的区间。
42、如果A 和B是属性最小和最大值,那么区间宽度为 W = (B-A)/N.最直接简单孤立点容易占优势倾斜数据不易处理等深(频率)划分:将数据划分成N个区间,每个包含大致相等样本数量。数据缩放比例好.易于管理分类属性.,数计学院 陈晓云,Data Mining: Concepts and Techniques,55,作业:实现等深分箱、等宽分箱的箱均值、箱中值、箱边界数据平滑。,数计学院 陈晓云,Data Mining: Concepts and Techniques,56,Chapter 3: 数据预处理,目的?数据清洁数据集成和转换数据约减离散化和概念分层小结,数计学院 陈晓云,Data Mi
43、ning: Concepts and Techniques,57,数据集成,数据集成: 将多个数据源中数据结合起来存放在一个一致的数据存储中集成计划从不同的源集成源数据实体识别: 识别来自多数据源的现实实体,例如A.cust-id B.cust-number探测和解决数据值冲突现实世界的同一实体其来自不同源的属性值可能不同可能原因: 表达不同,比例不同或编码不同,e.g., 公制单位 vs.英制单位,数计学院 陈晓云,Data Mining: Concepts and Techniques,58,处理冗余数据,数据冗余问题属性能由另一表导出则是冗余的。如年薪属性或维命名不一致导致冗余相关分析检
44、测冗余。P57 3.1将多个数据源中数据集成起来可以减少/避免冗余和矛盾,能够提高挖掘速度和质量。,数计学院 陈晓云,Data Mining: Concepts and Techniques,59,卡方检验,卡方检验由统计学家皮尔逊推导。理论证明,实际观察次数(fo)与理论次数(fe),又称期望次数)之差的平方再除以理论次数所得的统计量,近似服从卡方分布,可表示为:这是卡方检验的原始公式,其中当fe越大(fe5),近似得越好。显然fo与fe相差越大,卡方值就越大;fo与fe相差越小,卡方值就越小;因此它能够用来表示fo与fe相差的程度。根据这个公式,可认为卡方检验的一般问题是要检验名义型变量的
45、实际观测次数和理论次数分布之间是否存在显著差异(假设检验)。,数计学院 陈晓云,Data Mining: Concepts and Techniques,60,Correlation Analysis (Categorical Data),2 (chi-square) test 2 值越大, 变量之间的相关性越强。实际计数与期望值相差最大的,对2 值的贡献越大。相关并不意味着因果关系# of hospitals and # of car-theft in a city are correlatedBoth are causally linked to the third variable: p
46、opulation,设属性A有c个不同值,B有r个不同值。A 和B描述的数据元组可以用一个相依表显示,其中A的c个值构成列,B的r个值构成行。令(Ai,Bj)表示属性A取值ai,B取值bj,.每个可能的(Ai,Bj) 联合事件都在表中有自己的单元。 值可以用下式计算其中期望观测次数可以用下式计算卡方统计检验假设A和B是统计独立的。检验基于显著水平,具有(r-1)*(c-1)自由度。,数计学院 陈晓云,Data Mining: Concepts and Techniques,61,数计学院 陈晓云,Data Mining: Concepts and Techniques,62,Chi-Square Calculation: An Example,2 (chi-square) calculation (numbers in parenthesis are expected counts calculated based on the data distribution in the two categories)It shows that like_science_fiction and play_chess are correlated in the group,