1、Beijing Minesage Co.Ltd 数据准备的 重要性数据 准备技术数据导入数据的过滤和采样清洗数据派生数据将数据准备应用 到产品中数据准备的重要性数据挖掘和预测分析在已有的数据中找到数据间的模式和关系利用找到的模式和关系进行预测垃圾进 / 垃圾出分析的结果是基于数据质量的不可能发现数据中没有的内容我们需要的是高质量的正确的数据数据质量四要素完整性准确性实时性典型性数据准备技术 Transact-SQL (T-SQL) 利用高性能的 T-SQL语句在数据源处进行数据准备工作 SQL Server 2005 Integration Services (SSIS) 连接多种不同的数据源
2、获取数据 Microsoft Office Excel 2007 友好、通俗易懂,尤其适合非专业人员 第三方工具数据导入 数据挖掘引擎中使用 OLE DB 和 ADO.NET 根据具体情况配置数据导入环境 使用 Business Intelligence Development Studio (BIDS) 使用 Data Mining Client for Excel add-in for Excel 2007插件BIDS中的数据导入 数据源 OLE DB 或 ADO.NET 数据源视图 源数据的元数据视图 计算列 命名查询 虚拟关系Excel中的数据导入 Excel 表 使用 Excel a
3、dd-in插件中的分析工具 Excel ranges 导入数据 Microsoft Query Add-ins 不适用于动态的数据透视视图 外部数据源 创建新数据源 使用来自 SQL Server 2005 Analysis Services中一个实例的数据源过滤和采样 (1) 过滤或移除没有用的数据 例如,只有男性或女性两种性别的顾客 对案例采样以减少案例数据的数量 减少训练时间 注意使用正确的键进行采样 例如 : customers, transactions, or line items 过采样保证采样数据的平衡 例如:使用更大的采样范围来平衡采样中的男女比例 当一些案例的数据很少的时候时用此方法过滤和采样 (2) 在 SQL Server 2005 数据挖掘中 在数据源视图中进行过滤工作 在数据源视图中进行采样工作 在 SQL Server 2008 数据挖掘中 在挖掘结构中进行过滤工作 在 Excel Add-in插件中 准备样本 Preparing samples 过采样 Oversampling 过滤表