1、 1 多语种在线语料库检索平台 BFSU CQPweb 使用简明手册 许家金 中国外语教育研究中心 1 、访问及登 录 访问 124.193.83.252/cqp/(用户名:test 和密码:test) ,可点击使用相应的语料库。目 前 BFSU CQPweb 平台上已安装英语、汉语、德语、日语、俄语、阿拉伯语、冰岛语等 7 个 语种 35 个语料库。 图 1:BFSU CQPweb 主界面 2 、CQPweb 功能概要 按 McEnery & Hardie(2012)对语料库分析工具的时代划分,CQPweb 属于第四代语料 库工具,即在线语料库分析工具。四代工具的突出代表是美国杨百翰(Bri
2、gham Young)大 学 Mark Davies教授创建的 BYU系列语料库检索界面(http:/corpus.byu.edu/) 。类似的在线 语料库检索系统还有 SketchEngine、CWB、BNCweb、Phrase in English 等。而当前主流的 语料库工具属于第三代,其中以 WordSmith、AntConc 和 PowerConc 等为代表。 第四代语料库工具,将语料库与分析工具合二为一,越来越受到普通用户的青睐。在线 语料库工具通常将语料库文本按特定格式建成索引(index) ,存储在服务器上。用户检索响 应速度要远高于三代软件在本地电脑上的检索速度。其操作也较三
3、代语料库软件简便得多。 四代语料库工具可完成三代语料库几乎所有的功能,其中又以 CQPweb 所能实现的功 能最多最全。更重的是,CQPweb 是开源软件。概括说来,CQPweb 可以实现以下功能。 (1)在线生成语料库的词频表(frequency list) ; (2)查询(query)字词、语言结构等,以获取大量语言实例或相应结构的出现频次 (frequency) ,并可以按语体、年代、章节、学生语言水平级别、写作题材等分别呈现查询 结果; (3)计算特定词语在语料库中的典型搭配(collocation) ; 2 (4)计算语料库中的核心关键词(keywords) ,等。 3、CQPweb
4、 使用实例 3.1 标准查询模式 在简单查询模式(Simple query mode)下,可输入单词、短语等进行检索。 图 2:BFSU CQPweb 语料库查询界面 图 3:BFSU CQPweb 查询结果界面 3点击查询结果页面右上角下拉菜单,显示 New Query(新查询)时,按 Go 键,即可重 新回到语料库检索界面。相当于“返回”按钮。 表 1:查询结果后续操作分项功能表 New query 新查询,返回语料库检索首页 Thin 查询结果随机抽样 Frequency breakdown 频数分解、分解频数 Distribution 查询结果的分布展示 Sort 查询结果排序设定 C
5、ollocations 搭配计算 Download 下载保存查询结果 Thin(随机取样) ,比如,可从 5 万行结果中,随机抽取 100 行。 Frequency breakdown(频数分解)表示在进行复杂查询时,对命中的不同词项分别计算 频数。比如,查询“am“|“is“|“are“|“was“|“were“|“be“|“being“|“been“时,会按这 7 个词项分别报 告命中频数和频率。 图 4:be 动词查询 Frequency breakdown(频数分解)结果示例 Distribution:按语体、年代、章节、学生语言水平、写作题材等分别呈现查询结果 图 5:Crown语料
6、库中“lov.*“的分布情况(Distribution table) 4图 6:Crown语料库中“lov.*“的分布情况(Bar chart) Collocations:计算特定词语在语料库中的典型搭配 图 7:Crown语料库中“lov.*“的典型搭配词(以 log likelihood value排序) 3.2 限定条件查询 限定条件查询,指在任务一开始,即选定一个或多个限制条件(如,语体、年代、章节、 写作题材等)进行查询。限定条件的有无、多寡,源自语料库文本的元信息(metadata) 。 因此,在创建语料库时,应尽可能详细记录语料文本产生的社会语言学信息。丰富的社会语 言学信息,可
7、以大大丰富研究的层面和深度。这样的元信息可以存储在文本的头部,也可以 在文本之外单独存储。 5图 8:限定在 Crown 语料库的学术语体中查询情态动词 3.3 生成词频表 图 9: Cr ow n语料库的词频表 6 3.4 生成主题词表 比如以红楼梦与 Crown 语料库进行对比,可能得到红楼梦的主题性词汇。 附录 1 :CQPweb 平台中 英文术语 对 照表(表 2 ) (word) token 词次 (word) type 词种 Collocation 词语搭配 Corpus documentation 语料库说明文档 Corpus metadata 语料库元信息 CQP syntax
8、 CQP 复杂检索语法 Distribution 分布(按语体等分类条件分别呈现结果) Frequency 频数、频率 Frequency breakdown 频数分解、分解频数 Frequency list 词频表、词表 Frequency list 词频表 Keywords 主题词 Log likelihood (ratio) 对数似然率(典型词语搭配的统计方法) Maximum window span 最大跨距(计算搭配时中心词和左右语境词 之间的距离) No. of occurrences 出现次数 Node 检索词、中心词、节点词 Number of hits per page 查询
9、结果每页显示的行数 Query 查询、检索 Restricted query 限定条件查询 returned 35,607 matches in 743 different texts 直译:在 743 个不同文本中返回 35,607 个匹 配项 意译:在 743 个文本中查到 35,607 例子 7 Show hits sorted by node 查询结果按中心词排序 Simple query (ignore case) 简单查询(不区分大小写) Word lookup 词语相关查询 附录 2 :复杂检索举例(查询时,选择 CQP Syntax) 单词检索:“lov.*“、“.*ment“
10、、“am“|“is“|“are“|“was“|“were“|“be“|“being“|“been“ 词码混合检索: “good“ pos=“N.*“、 “happy“ pos=“N.*“、 pos=“J.*“ “love“、 pos=“J.*“ pos=“J.*“ pos=“N.*“、“something“ pos=“J.*“ 近义词批量检索:“little“|“small“、/color 语料天涯:http:/www.bfsu-corpus.org/static/worldcorpora.htm Please cite BFSU CQPweb as: 许家金、吴良平,2014,基于网络的第四代语料库分析工具 CQPweb及应用实例, 外语电 化教学 (5) :10-15,56。 Jiajin Xu & Liangping Wu. 2014. Web-based fourth generation corpus analysis tools and the BFSU CQPweb case, Waiyu Dianhua Jiaoxue Computer-assisted Foreing Language Education (5)10-15, 56.