1、数 据 库 及 信 息 管 理本 栏 目 责 任 编 辑 : 闻 翔 军网 上 报 税 是 指 纳 税 人 通 过 I n t e r n e t 网 络 , 借 助 W e b 浏 览 技 术填 写 纳 税 申 报 表 格 , 并 向 特 定 的 税 务 主 管 部 门 提 交 纳 税 申 报 资 料的 一 种 报 税 方 法 。 当 用 户 在 网 上 申 报 结 束 后 , 若 要 实 现 网 上 缴 税 ,需 要 税 务 、 银 行 、 国 库 系 统 协 同 工 作 , 现 阶 段 技 术 上 还 有 一 定 的 困难 。 因 此 用 户 需 要 到 税 务 大 厅 窗 口 进 行
2、缴 税 。 当 用 户 到 税 务 大 厅进 行 申 报 时 , 工 作 人 员 根 据 这 个 用 户 的 单 位 名 称 , 对 申 报 单 上 的销 售 商 品 明 细 进 行 人 工 判 断 , 判 断 销 售 的 商 品 是 否 与 这 个 单 位 的经 营 范 围 匹 配 。 如 果 发 现 与 经 营 范 围 不 匹 配 , 则 应 令 申 报 用 户 进行 改 正 。 这 个 判 断 过 程 是 靠 税 务 工 作 人 员 根 据 经 验 判 断 的 , 有 时可 能 会 有 疏 漏 。 因 此 考 虑 是 否 能 够 通 过 计 算 机 技 术 进 行 判 断 。 当积 累
3、了 海 量 的 申 报 数 据 后 , 可 以 对 申 报 用 户 的 经 营 范 围 和 申 报 单明 细 项 目 进 行 关 联 分 析 , 挖 掘 出 一 定 经 营 范 围 内 销 售 的 商 品 集合 。1 系 统 结 构本 系 统 采 用 C / S 架 构 , 使 用 V B . N E T + S Q L S E R V E R 2 0 0 5 作 为开 发 工 具 , 使 用 A D O . N E T 进 行 各 项 数 据 库 操 作 。 本 系 统 中 使 用 的数 据 库 表 及 表 间 联 系 如 图 1 所 示 。图 1 数 据 库 表 间 联 系 示 意 图(
4、1 ) 申 报 用 户 信 息 表 : 记 录 申 报 用 户 企 业 的 各 项 信 息 ; ( 2 ) 申 报单 递 交 表 : 记 录 正 式 递 交 的 每 张 税 务 申 报 单 的 信 息 ; ( 3 ) 申 报 明 细递 交 表 : 记 录 正 式 递 交 的 每 张 税 务 申 报 单 里 各 项 销 售 商 品 明 细 信息 ; ( 4 ) 经 营 范 围 同 义 词 库 表 : 记 录 经 营 范 围 同 义 词 ; ( 5 ) 销 售 商 品 同义 词 库 表 : 记 录 销 售 商 品 同 义 词 ; ( 6 ) 关 联 分 析 结 果 表 : 记 录 关 联 分析 的
5、 结 果 , 经 营 范 围 + 销 售 商 品 作 为 主 键 。2 关 联 分 析 算 法 设 计2 . 1 构 建 “ 经 营 范 围 ” 同 义 词 库因 为 “ 经 营 范 围 ” 在 登 记 入 库 时 并 无 分 门 别 类 的 科 目 , 所 以 这列 数 据 里 存 在 含 义 相 同 但 名 称 不 同 的 词 组 , 若 使 用 完 全 匹 配 , 则会 存 在 许 多 实 际 重 复 的 条 目 , 因 此 需 要 构 建 同 义 词 库 表 。 经 营 范围 同 义 词 库 表 的 构 建 步 骤 如 下 :( 1 ) 取 出 申 报 用 户 信 息 表 的 第 一
6、条 记 录 , 取 出 经 营 范 围 字 段 的值 。( 2 ) 经 营 范 围 字 段 的 值 是 一 个 字 符 串 , 可 能 有 若 干 项 , 项 与 项之 间 用 逗 号 隔 开 。 取 出 末 尾 的 第 一 项 A 。( 3 ) 从 上 到 下 依 次 扫 描 经 营 范 围 同 义 词 库 表 中 的 记 录 , 把 项 A与 每 条 记 录 中 的 关 键 词 字 段 的 值 B 进 行 模 糊 匹 配 。 模 糊 匹 配 算 法是 : A 和 B 中 长 度 较 短 的 字 符 串 的 长 度 值 是 N , 如 果 A 和 B 中 有N / 2 个 字 是 相 同 的
7、 , 则 认 为 A 就 是 关 键 词 B 的 同 义 词 , 把 A 添 加到 B 的 同 义 词 字 段 中 。 如 果 A 和 关 键 词 不 模 糊 匹 配 , 则 把 A 与 这条 记 录 中 的 同 义 词 字 段 值 中 的 各 项 进 行 模 糊 匹 配 , 如 果 匹 配 成功 , 则 仍 把 A 添 加 到 B 的 同 义 词 字 段 中 。( 4 ) 如 果 A 与 经 营 范 围 同 义 词 库 表 中 所 有 记 录 都 不 模 糊 匹 配 ,则 在 经 营 范 围 同 义 词 库 表 中 新 增 一 条 记 录 。( 5 ) 经 营 范 围 字 符 串 进 行 取
8、 子 字 符 串 运 算 , 去 掉 自 最 后 一 个 逗号 起 的 内 容 , 然 后 返 回 到 步 骤 ( 2 ) , 直 到 本 经 营 范 围 字 符 串 不 能 取子 字 符 串 运 算 。( 6 ) 取 出 申 报 用 户 信 息 表 的 下 一 条 记 录 , 返 回 到 步 骤 ( 1 ) , 直 到取 尽 申 报 用 户 信 息 表 的 所 有 记 录 。2 . 2 构 建 “ 销 售 商 品 ” 同 义 词 库构 建 “ 销 售 商 品 ” 同 义 词 库 表 的 算 法 与 构 建 “ 经 营 范 围 ” 同 义词 库 表 的 算 法 相 同 , 是 对 申 报 明
9、细 递 交 表 中 的 货 物 名 称 字 段 进 行构 建 。2 . 3 关 联 分 析关 联 分 析 的 结 果 需 要 保 存 在 关 联 分 析 结 果 表 里 , 关 联 分 析 的步 骤 如 下 :( 1 ) 取 出 申 报 单 递 交 表 中 的 第 一 条 记 录 , 取 得 申 报 单 号 码 A 和购 方 税 务 号 码 B , 在 申 报 用 户 信 息 表 中 根 据 购 方 税 务 号 码 B 找 到匹 配 的 用 户 , 取 出 这 个 用 户 的 经 营 范 围 集 合 C , 然 后 把 集 合 C 中的 值 与 经 营 范 围 同 义 词 库 表 中 的 关
10、键 词 列 进 行 模 糊 匹 配 , 把 集 合C 中 的 值 都 置 换 成 关 键 词 。( 2 ) 根 据 申 报 单 号 码 A , 到 申 报 明 细 递 交 表 中 找 到 匹 配 的 明 细记 录 集 合 , 取 得 货 物 名 称 集 合 D 。( 3 ) 把 货 物 名 称 集 合 D 中 的 值 与 经 营 范 围 同 义 词 库 表 中 的 关键 词 列 进 行 模 糊 匹 配 , 把 集 合 D 中 的 值 都 置 换 成 关 键 词 。收 稿 日 期 : 2 0 0 6 - 1 1 - 1 2作 者 简 介 : 张 嘉 凝 ( 1 9 7 5 - ) , 男 ( 满
11、 族 ) , 苏 州 市 人 , 苏 州 大 学 计 算 机 科 学 与 技 术 学 院 在 职 在 读 工 程 硕 士 , 研 究 方 向 : 计 算 机 应 用 技 术 。关 联 分 析 数 据 挖 掘 算 法 在 税 务 网 上 申 报 系 统 中 的 应 用张 嘉 凝( 苏 州 大 学 计 算 机 科 学 与 技 术 学 院 , 江 苏 苏 州 2 1 5 0 0 6 )摘 要 : 税 务 网 上 报 税 是 顺 应 信 息 化 时 代 发 展 要 求 而 推 出 的 一 项 服 务 举 措 , 本 文 介 绍 关 联 分 析 数 据 挖 掘 算 法 在 该 系 统 中 的 应 用 。
12、关 键 词 : 关 联 分 析 ; 数 据 挖 掘中 图 分 类 号 : T P 3 9 9 文 献 标 识 码 : A 文 章 编 号 : 1 0 0 9 - 3 0 4 4 ( 2 0 0 7 ) 0 2 - 1 0 2 9 9 - 0 2T h e A p p l i c a t i o n o f A s s o c i a t e A n a l y s e D a t a M i n i n g A l g o r i t h m f o r T a x N e t w o r k D e c l a r e S y s t e mZ H A N G J i a - n i n g
13、( S c h o o l o f C o m p u t e r S c i e n c e D a t a M i n i n g2 9 9电 脑 知 识 技 术数 据 库 及 信 息 管 理本 栏 目 责 任 编 辑 : 闻 翔 军( 上 接 第 2 9 8 页 )d w _ 2 . S e t I t e m ( l c u r r o w , c o l d n a m e , l c o l n a m e )查 询 按 键 的 c l i c k 事 件 负 责 根 据 查 询 数 据 窗 口 中 的 内 容 计 算符 合 S Q L 语 法 的 查 询 条 件 字 符 , 并
14、最 后 更 新 数 据 窗 口 , 其 部 分 代码 如 下 :s t r i n g l w h e r e , l o l d s q l , l n e w s q l , l c o l n a m e , l c o l t y p e , l o p e r , l v a l u e , l l o g i ci n t l r o wd w _ 1 . s e t t r a n s o b j e c t ( s q l c a )l w h e r e = “ “l o l d s q l = d w _ 1 . g e t s q l s e l e c t ( )d w
15、 _ 2 . A c c e p t T e x t ( )F o r l r o w = 1 T o d w _ 2 . r o w c o u n t ( )l c o l n a m e = d w _ 2 . G e t I t e m S t r i n g ( l r o w , c o l d n a m e )l c o l t y p e = d w _ 2 . G e t I t e m S t r i n g ( l r o w , c o l t y p e )l o p e r = d w _ 2 . G e t I t e m S t r i n g ( l r o
16、 w , o p e r )l v a l u e = d w _ 2 . G e t I t e m S t r i n g ( l r o w , v a l u e )l l o g i c = d w _ 2 . G e t I t e m S t r i n g ( l r o w , l o g i c a l )I f L e n ( l c o l n a m e ) = 0 O r I s N u l l ( l c o l n a m e ) T h e n C o n t i n u e / / 没有 输 入 列 名I f l o p e r = L l i k e T
17、h e nl v a l u e = l v a l u e + % E l s e I f l o p e r = R l i k e T h e nl v a l u e = % + l v a l u eE l s e I f l o p e r = L i k e T h e nl v a l u e = % + l v a l u e + % E n d I fI f P o s ( l o p e r , L i k e ) 0 T h e nl o p e r = L i k e E n d I f/ / 连 接 查 询 条 件I f L e f t ( L o w e r (
18、l c o l t y p e ) , 4 ) = c h a r T h e nl w h e r e = l w h e r e + ( + l c o l n a m e + l o p e r + “ “ + l v a l u e + “ ) “ + l l o g i cE l s e I f L e f t ( L o w e r ( l c o l t y p e ) , 4 ) = d a t e T h e nl w h e r e = l w h e r e + “ ( S t r i n g ( “ + l c o l n a m e + “ , y y y y - m
19、 m - d d ) “ + l o p e r + “ “ + l v a l u e + “ ) “ + l l o g i cE l s el w h e r e = l w h e r e + ( + l c o l n a m e + l o p e r + l v a l u e + ) + l l o g i cE n d I fN e x tI f R i g h t ( l w h e r e , 5 ) = a n d O r R i g h t ( l w h e r e , 5 ) = o r T h e nl w h e r e = L e f t ( l w h e
20、 r e , L e n ( l w h e r e ) - 6 )I f I s N u l l ( l w h e r e ) T h e nl w h e r e = l n e w s q l = l o l d s q le l s el n e w s q l = l o l d s q l + “ w h e r e “ + l w h e r ee n d i fi f d w _ 1 . S e t S Q L S e l e c t ( l n e w s q l ) = - 1 t h e nm e s s a g e b o x ( “ 提 示 “ , “ 条 件 有
21、误 , 请 检 查 ! “ , s t o p s i g n ! )e l s ed w _ 1 . r e t r i e v e ( )d w _ 1 . s e t s q l s e l e c t ( l o l d s q l )e n d i f在 P B 中 还 有 其 他 的 方 法 能 达 到 相 同 的 效 果 , 如 使 用 M o d i f y函 数 或 S y n t a x f r o m S Q L 与 C r e a t e 函 数 结 合 , 动 态 生 成 数 据 窗 口 , 而S e t S Q L S e l e c t 函 数 语 法 更 为 清
22、 晰 , 也 更 容 易 理 解 。 应 注 意 的 是S e t S Q L S e l e c t 函 数 无 法 为 数 据 窗 口 检 索 条 件 中 添 加 外 部 参 数 。5 结 束 语P o w e r B u i l d e r 作 为 一 种 专 业 数 据 库 开 发 工 具 , 其 数 据 窗 口 的功 能 十 分 强 大 , 结 合 各 种 函 数 可 以 实 现 多 种 复 杂 条 件 下 的 查 询 ,除 去 本 文 介 绍 的 方 法 , 还 可 以 使 用 f i n d 函 数 、 设 置 q u e r y m o d e 属性 、 用 c r e a t
23、 e 函 数 动 态 创 建 数 据 窗 口 等 其 他 方 法 实 现 数 据 查 询 。具 体 实 现 时 , 又 可 以 采 取 D a t a S t o r e 记 忆 查 询 条 件 方 便 用 户 下 次 查询 , 或 者 采 用 多 线 程 控 制 技 术 来 改 善 查 询 效 果 等 等 。 本 文 为 了 更明 了 的 介 绍 常 用 的 三 种 查 询 方 法 , 简 化 了 查 询 方 法 。 在 实 际 应 用时 面 对 的 用 户 可 能 并 不 具 有 专 业 的 计 算 机 知 识 , 利 用 图 1 这 种 清晰 明 了 的 查 询 界 面 可 以 使 用
24、户 更 迅 速 的 设 置 查 询 条 件 。 而 采 用 图2 方 式 的 设 计 则 更 为 灵 活 和 通 用 。本 文 介 绍 的 三 种 查 询 方 法 中 , 第 二 种 方 法 由 于 对 数 据 进 行 了两 次 处 理 , 因 此 查 询 效 率 在 某 些 情 况 中 可 能 比 另 两 种 方 法 较 低 。另 两 种 方 法 本 质 上 都 是 通 过 r e t r i e v e 函 数 检 索 数 据 。 相 比 之 下 , 第一 种 局 限 性 较 大 , 但 更 为 简 单 易 行 , 第 三 种 虽 然 加 多 了 代 码 量 和复 杂 程 度 , 但 更
25、为 灵 活 , 可 以 用 来 实 现 更 多 变 的 查 询 。本 文 认 为 , 以 上 的 三 种 种 查 询 方 法 都 各 有 优 缺 点 , 在 实 际 应用 的 时 候 可 以 根 据 需 求 及 软 硬 件 条 件 选 择 相 应 的 查 询 方 法 , 从 而实 现 更 为 快 速 、 高 效 的 查 询 。参 考 文 献 : 1 鲍 永 刚 , 王 德 高 . P o w e r B u i l d e r 8 . 0 核 心 技 术 及 开 发 实 例 M . 电 子 工 业 出 版 社 , 2 0 0 2 , 6 . 2 刘 云 洲 , 于 德 壹 . P o w e
26、r B u i l d e r 8 . 0 数 据 窗 口 实 用 编 程 技 术 M . 中 国 水 利 水 电 出 版 社 , 2 0 0 2 , 4 . 3 赵 斌 , 吉 根 林 . 用 P o w e r B u i l d e r 实 现 M I S 系 统 中 的 动 态 查询 J . 南 京 师 范 大 学 学 报 , 2 0 0 2 ( 3 ) : 3 8 - 4 1 . 4 李 宗 福 , 邓 琼 波 , 李 均 甫 . 基 于 P o w e r B u i l d e r 的 大 结 果 集 查询 优 化 技 术 J . 计 算 机 应 用 研 究 , 2 0 0 3
27、( 1 2 ) : 1 0 9 - 1 1 0 .经 营 范 围 集 合 C 与 货 物 名 称 集 合 D 进 行 笛 卡 儿 积 , 然 后 以 经营 范 围 + 货 物 名 称 到 关 联 分 析 结 果 表 中 进 行 匹 配 , 如 果 匹 配 成 功的 , 则 相 应 记 录 的 关 联 次 数 加 1 ; 如 果 匹 配 不 成 功 , 则 新 增 一 条 记录 , 关 联 次 数 值 初 始 置 为 1 。当 申 报 用 户 到 税 务 大 厅 进 行 申 报 时 , 窗 口 申 报 处 理 模 块 可 以根 据 用 户 的 经 营 范 围 和 申 报 明 细 到 关 联 分
28、析 结 果 表 中 进 行 查 找 ,如 果 某 些 关 联 次 数 值 较 低 的 话 , 可 以 弹 出 对 话 框 提 示 工 作 人 员 ,由 工 作 人 员 作 下 一 步 判 断 , 责 令 申 报 用 户 进 行 改 正 或 拒 绝 为 之 开具 发 票 。3 结 束 语数 据 挖 掘 技 术 的 应 用 是 一 个 热 门 研 究 课 题 , 本 文 总 结 税 务 系统 项 目 的 实 际 经 验 , 提 出 了 一 个 关 联 算 法 的 应 用 方 案 , 对 于 在 同类 系 统 中 的 开 发 具 有 一 定 的 参 考 价 值 。参 考 文 献 : 1 M a r g a r e t H . D u n h a m . D a t a M i n i n g I n t r o d u c t o r y a n d A d v a n c e dT o p i c s M . 北 京 : 清 华 大 学 出 版 社 , 2 0 0 5 . 2 R i c h a r d J . R o i g e r & M i c h a e l W . G e a t z . 数 据 挖 掘 教 程 M . 北京 : 清 华 大 学 出 版 社 , 2 0 0 3 .3 0 0