收藏 分享(赏)

语料库常用术语.doc

上传人:精品资料 文档编号:8278473 上传时间:2019-06-18 格式:DOC 页数:1 大小:25KB
下载 相关 举报
语料库常用术语.doc_第1页
第1页 / 共1页
亲,该文档总共1页,全部预览完了,如果喜欢就下载吧!
资源描述

1、语料库常用术语Type 类符Tokens 形符例如“I see a cat and a dog”类符 6 个,形符 7 个Type/token ratio =TTR TTR 是衡量文本中词汇密度的常用方法,可以辅助说明文本的词汇难度。但是,文本中有大量功能词出现,文本每增加一个词,形符就会增加一个,但类符却未必随之增加。这样文本越长,功能词重复次数越多,TTR 会越低。因此用 TTR 衡量词汇密度不合理,于是,出现了标准化类符/形符比,即 STTR。例如,计算每个文本 1000 词的 TTR,均值处理,得出 STTR。Frequency(频率)例如每百万词、十万词中,某单词出现次数。常常将某个

2、单词在两个语料库中出现的频率参照两个语料库的容量,用卡方检验或对数似然率进行对比,来确定两个库中该单词的使用是否有差异。Wordlist 词表根据单词或词组在语篇中出现的频率大小而排列形成的列表。RanksLemma 词目,词元比如 go 是 lemma,对应各种屈折变化形式(inflections ) , go,goes,went,going,gone 共 5 种屈折变化形式。在分析语言时,需要将它们全部归到 go 名下,这个过程叫词形还原。Keywords 关键词、主题词 positive keywords 正关键词 negative keywords 负关键词Concordance 索引

3、(KWIC 语境中的关键词 key words in context)运用索引软件在语料库中查询某词或短语的使用实例,然后将所有符合条件的语言使用实例及其语境以清单的形式列出。通过前后语境,可以分析“collocation 词汇搭配”“colligation 类连接、语法搭配” “semantic preference 语义倾向” “semantic prosody 语义韵”Collocation 词汇搭配搭配强度 MI,T-score ,Z-score Colligation 类连接、语法搭配semantic prosody 语义韵词汇的语义韵大体可分为积极语义韵、中性语义韵、消极语义韵。POS tagging 词性赋码Regular expression regex 正则表达式

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报