1、2007年度总结,陈翀 2008 01 13,主要内容,课题进展 资源自动分类方案 资源命名 毕业论文框架 投稿 项目进展 DIMCID(数字媒体内容集成与分发平台) SEWM2008数字资源分类评测,课题进展,概括:经历了前期调研,确定资源有序化几个关键研究点和论文框架。 寻找适于资源分类的方案,进行大量实验评价可行性 自顶向下,通过目录节点的语义匹配,合并不同的子树,达到同类资源的整合 用户有太多组织资源的角度,即便关于同类资源,其上层目录的语义也可能是正交的,无法判断整合点 整合点可能距离真正的资源边界很远,这种合并仅能粗略地“聚拢”资源,不能保证被整合内容是比较规范和纯净的。 目录名(
2、包括路径上提供的上下文)信息太欠缺,尝试词汇相似度的字面和语义匹配是困难的。 自底向上,通过寻找目录树底层成员的相似性,逐级向上合并 最大的问题是无法保证资源边界的完整或原子性 折中:假定资源边界已知,目光投向资源内部,课题进展,资源特征抽象,用名字片段、扩展名、文件大小这些共有特征刻画多种媒体格式、无穷组成结构的复杂数据对象 借用文本分类的方式完成复杂数据对象的分类(这里面有很多文章可作) Naive Bayes SVM 其他实验分析 完成基于Naive Bayes的资源自动分类工具 模拟人工标注CDAL的工作过程 对ftp或maze资源提取目录树所有路径、文件的名称、大小 按照上述信息,人
3、工确定资源粒度 自动收集被确定的资源,判定其类别,课题进展,围绕课题写了3份技术报告,分别关于CDAL资源统计、探讨资源分类的可能途径、资源分类具体方案及性能对比 形成一篇关于数字资源分类的英文论文,评审中 数字资源命名规律调查的相关实验,进行中 资源命名切分方法的研究 撰写毕业论文,进行中 4月中旬完成开题 体会: 李老师的思维很特别,提出一个问题的角度引发我一年的工作 越做发现越多可做的点,手脑不够用了 资源分类从思考到实验,尽力去画一个圆,这个过程对我锻炼很大。我觉得它还不太圆。,项目进展,“数字媒体集成与分发平台” 通过中期检查 每个月汇报进度,按时提交所要求的内容,保持所承担子任务的正常状态 和其他参与单位协作,提供内容管理平台所需要的资源元数据 启动SEWM2008提供数字资源分类评测,发动大家的智慧。 制作数据集 制定参赛规则 为SEWM的评测活动注入新的内容,项目进展,体会 学习到多单位共同完成一件比较大而庞杂的事时,在协调、计划、进度控制等方面的一些做法。 在闫宏飞老师的帮助下完成新的评测任务启动,其他感受,发现WBIA的内容组织越来越吸引人了,使用了新的教材IIR,平常看看很有收获 参加了一次难忘的素质拓展,感谢实验室,08年的计划,按时完成毕业论文 顺利答辩,