1、国家语委语料库 高级检索 查询表达式 书写 规则郑艳群 2009-3-20,/ :词类标志,用来 标识 词类;( ) ! :不共现查询 的 标志符;:距离限制符号,分别 表示:小于 小于等于 等于 任意距离;+ :连接符;,1.查询表达式 中 出现 的 特殊符号,()距离限制项()共现项 ()不共现项()简单表达式:由 共现项 和 不共现项 组成。()复杂表达式:由 简单表达式 和 距离表达式 组成。,2. 查询表达式 的组成,()距离限制项一般 由 距离限制符号 后 跟 数字 组成,其中 任意距离 符号 “” 不 需要 后 跟 数字;距离限制项 中 的 数字 是 以 词 为 单位 的,如 词
2、A 与 词B 的 距离 为 “ ; 以 词 为 单位,举例:吃/v+3+亏/n (结果:吃了亏,吃鞑子 的亏,等等) ()共现项 共现项 可以 为 三 种 形式,即: 单独 的 词;举例:吃 词 和 词类,中间 用 “/” 隔开;举例:吃/ 单独 的 词类,用 “/” 开头;举例:/v()不共现项 不共现项 由 不共现查询 标志符 “() !” 和 连接符 “+” 共同 构成,有 两 种 形式: (!共现项+距离限制项) ;举例: (!不+3)或(!不/d+3) 或 (!/d+3) (距离限制项+!共现项) ;举例:(3+!不/d),2. 查询表达式 的组成,注意: 表达式 中 没有 空格;
3、表达式 结束 处 没有 回车; 表达式 中 所有 的 非 汉字 符号 都 是 英文 半角 符号; 请 不要 在 表达式 中 随意 插入空格 或者 换行符 或 使用 全角 英文 符号 ;注意: 共现词 之间 必须 有 距离限制项,至少 是 “”(表示 不 限制 距离),如果 不 写 距离限制项(如:“吃+亏”) 将 导致 表达式 书写 错误,无法查询。,2. 查询表达式 的组成,()简单表达式 : 由 共现项 和 不共现项 组成 共现项;(!共现项+距离限制项)共现项;共现项(距离限制项+!共现项);(!共现项+距离限制项)共现项(距离限制项+!共现项);简单表达式 可以 表示 单一 共现项 或
4、者 有 前后 不共现 关系 限制 的 单一 共现项;,2. 查询表达式 的组成,()简单表达式 : 由 共现项 和 不共现项 组成共现项;吃/ (!共现项+距离限制项)共现项;(!不/d+3)吃/ 共现项(距离限制项+!共现项);吃/(3+!不/d) (!共现项+距离限制项)共现项(距离限制项+!共现项);(!不/d+3)吃/(3+!不/d) 简单表达式 可以 表示 单一 共现项 或者 有 前后 不共现 关系 限制 的 单一 共现项;,2. 查询表达式 的组成,()简单表达式 : 由 共现项 和 不共现项 组成共现项;吃/ 动词 词类 的 “吃” 要 在 检索 出 的 例句 中 出现。 (!共
5、现项+距离限制项)共现项;(!不/d+3)吃/ 动词 词类 的 “吃” 要 在 检索 出 的 例句 中 出现 , 同时 “吃” 前 3 个 词 之 内 有 副词 词类 的 “不” 的 例句 不 包括 在 检索 出 的 例句 中。 共现项(距离限制项+!共现项);吃/(3+!不/d) (!共现项+距离限制项)共现项(距离限制项+!共现项);(!不/d+3)吃/(3+!不/d) 用户 需要 检索 出 所有 含有 动词 “吃” ,而且 前 后 各 3 个 词 之 内 不 出现 副词 “不” 的 例句; 简单表达式 可以 表示 单一 共现项 或者 有 前后 不共现 关系 限制 的 单一 共现项;,2.
6、 查询表达式 的组成,()复杂表达式:复杂表达式 可以 表示 多 个 简单表达式 共现 的 先后关系 和 距离关系; 复杂表达式 可 由 简单表达式 和 距离表达式 组成,形式 如下: 简单表达式;简单表达式+距离限制项+简单表达式;简单表达式+距离限制项+简单表达式+距离限制项+简单表达式;,2. 查询表达式 的组成,举例: (!不+)知道/v 表示 查询 所有 动词 “知道” 的 出现 但是 “知道” 前 任意距离 内 不 出现 “不”,且 “不” 可以 是 任何 词类; 科研+机构/n 表示 查询 任意 词类 的 “科研” 和 名词 “机构” 共现 的 例句,两 词 之间 距离 为 任意距离; /m+!了)+)亏 表示 查询 任意 词类 的 “吃” 与 任意 词类 的 “亏” 共现 的 例句,且 两 词 之间 距离 小于 10 个 词,同时 “亏” 前 任意距离 内 不 出现 任意 词类 的 “大”; 就+吃+)亏 表示 查询 任意 词类 的 “就” 与 任意 词类 的 “吃” 及 任意 词类 的 “亏” 共现 的 例句,且 “就” “吃” 两 词 之间 距离 为 任意距离,“吃” “亏”两词 之间 的 距离 小于 10 个 词,同时 “亏” 前 任意距离 内 不 出现 任意 词类 的 “大”;,