面向中文网络百科的属性和属性值抽取,汇报人:贾真2013 . 11 . 18,报告内容,报告内容,报告内容,算法1 k元模式提取算法 输入:k;句子序列集合Sset=S1, S2, ., Sn;窗口W;词性POS集;命名实体标注集ENE; 输出:k元模式集合Pkset,算法2 词语语义相似度计算 输入:经过细粒度分词后的种子Seed=seg1, seg2, segn ; 同义词词典Syndictionary ; 输出:扩充种子集合Seedsynset,算法3 触发词提取算法 输入:扩充种子词集合Seedsynset;属性值命名实体标注pos; k元模式集合Pkset与支持度计数;评分阈值min_score;相似度权重系数; 置信度权重系数; 匹配系数; 位置系数 输出:属性触发词集合Trigger.,算法4 模式聚类算法 输入:候选模式集合Pattern;相似度阈值min_sim;簇中模式最小个数min_count;模式最小支持度计数min_supp 输出:聚类后得到的簇Cluster=cluster1, cluster2, ,报告内容,数据集,预处理工具,属性抽取,属性值抽取,属性值抽取,进一步提高属性值抽取的准确率和召回率,构建能够面向实际应用的中文网络百科知识获取系统。,今后努力方向,Thank You !,