1、国外手语语料库的基本标注 任媛媛 赵晓驰 南京特殊教育师范学院 摘 要: ELAN软件的出现进一步促进了可机读手语语料库的发展。一个完整的手语语料库由手语视频和越来越详细的相关标注文件等组成。手语语料库的简单标注指将手语视频分割为一个个最小意义单位并加以注释, 手语语料库最少应有三个标注层:即一个意译层和两个手的两个识别释义 (ID-gloss) 层。关键词: 手语语料库; 标注; 识别释义; 作者简介:任媛媛, 硕士, 副教授;研究方向:手语及聋人汉语习得等。E-mail:。作者简介:赵晓驰, 博士, 副教授, 硕导;研究方向:手语与聋人教育, 汉语史。E-mail:。基金:2016 年中残
2、联委托课题“基于聋人教师职业准入需求的手语能力评估研究” (合同编号:jc2016jj078) Annotation of Foreign Sign Language CorpusREN Yuanyuan ZHAO Xiaochi Nanjing Normal University for Special Education; Abstract: Video annotation software, such as ELAN, has promoted the development of the machine-readable corpora of Sign Language. A sig
3、n language corpus is composed of media linked to annotation files and metadata files. The basic level of corpus annotation involves segmenting and tokenising the sign language text into individual signed units and then glossing these units.Ideally, the absolute minimum number of tiers in an annotate
4、d file in the corpus is three: one tier for free translation and the other two ID-gloss tiers for each hand, Keyword: sign language corpus; annotation; ID-gloss; 一、手语语料库标注的重要性(一) 手语在书写系统上的局限手语作为一种视觉语言, 在书写系统上存在着很大的局限。借鉴有声语言的单信道来处理手语的多信道存在很大的困难, 尽管有些国外学者为手语设计了书写系统, 但这些书写系统的受众很少。1美国学者 Athitsos等人认为, 由于
5、美国手语缺乏书写系统, 这使得在词典里根据英语词汇来查找对应手语变得很困难, 除非查询者事前对相关手语较为熟悉。2我国学者倪兰在研究中国手语动词时所采用的“中国手语的汉语转写方案”, 涉及词性、构词法、方向性、句型以及非手控等方面的信息3, 相对易于阅读理解, 但缺少手形、具体的手掌方向、运动方向等信息, 而且同样存在着难以检索的问题。(二) 可机读手语语料库的发展要实现语料库的机读化, 其关键就在于语料的有效标注, 以便于计算机对特定语料进行识别和提取。4全世界可机读的手语语料库建设尚处于起步阶段, 但是发展很快。尽管手语缺少书写系统, 但并不妨碍欧美各国开展本国手语语料库的建设, 其手语语
6、料均为视频形式5, 后期再根据研究目的用本国书面语进行分析和标注处理。美国学者 Athitsos等人创建的美国手语词汇视频语料库, 采集了加劳德特手语词典里的 3000个手语词, 标注每个手语词的手和脸的位置等信息, 试图使手语更易于检索查询。6Neidle 等人创建的美国手语词汇视频数据库 (ASLLVD) , 包括 3300多个美国手语词视频, 每个手语词由 16个手语者打出来, 故最终共有 9800多个样本, 其语料标注包括标记每个手势开始和结束的时间编码、标记双手手形的开始和结束、词法分类等, 还对复合手语词的每一个词素都予以标注。7荷兰 ELAN软件的出现进一步促进了可机读手语语料库
7、的发展。英国学者Schembri等人认为, 虽然之前手语视频的标注对研究者来说是一个难题, 但随着音视频处理技术的发展, ELAN 标注软件的出现 (2006) 使手语视频的标注成为可能。8澳大利亚学者 Johnston指出, 使用 ELAN软件可对手语视频进行精确的标注, 它可以创建、编辑、可视化和搜索不同类型的视频数据标注, 可将标注导出为文本, 还可根据需要导入标注和受控词表 (controlled vocabularies, CVs, 用于减少语言的歧义和不一致) 文本。9标注是可机读手语语料库的重要组成部分, 它不同于以往手语研究者的转写。事实上, 大部分现代手语语料库的重要特点就是
8、标注而不是转写, 标注可将手语视频转为可机读的文本, 手语语料库的建立应将标注工作优先于转写工作。10例如, 英国学者 Fenlon等人为研究英国手语“1”手形和方向的变化, 使用 ELAN软件对 2084个视频样本进行了数据分析。11捷克手语语料库的预处理也使用了 ELAN软件。12陈晓燕在研究中国电视手语传译中的非手部策略时, 使用 ELAN软件为样本语料设置了 11个层 (tiers) :手语、中文、口动、嘴开合、唇位、嘴角、脸颊、气流、舌头、牙齿等。13二、手语语料库的基本标注过程一个完整的手语语料库由手语视频和越来越详细的相关标注文件等组成。一般来说, 手语语料库的标注过程可以大致分
9、为两个阶段:简单标注和详细标注。手语语料库的简单标注指将手语视频分割为一个个最小意义单位并加以注释, 手语语料库最少应有三个标注层:即一个意译层和两个手的两个识别释义 (ID-gloss) 层。而手语语料库的详细标注则涉及语言和交流活动的其他层面, 包括那些非手控动作, 例如复杂从句、身体、表情、头部动作、视线方向、眼眉动作、口型等等14, 此部分限于篇幅不再赘述。(一) 识别释义 (ID-gloss) 识别释义 (ID-gloss) 是手语语料库最基础的标注, 用于识别一个手语词的释义, 它的使用建立在手语语言学的词法和词汇研究的基础上15, 可以根据研究目的标注手语词的意思、手形、方向、运
10、动、位置等信息。同类型的手语单位的释义应一致且唯一, 以使不同类型的手语单位易于识别, 最后使计算机手语语料库的搜索和排序更加便捷。手语视频中的两个手需要各自建层并各自标注释义, 双手均参与表达时就需要标注两个手, 单手表达时则只需标注一个手。每一个独立的层都可以用来展示同一时间里打出来的手语, 或者双手表达的清晰度有异 (语言有意义) 。澳大利亚手语语料库为了在短时间内创建尽可能多的释义文本, 在最初几年 (20042008) 的标注工作中只做了识别释义层, 这项工作也需要以手语语言学的词法研究为基础, 澳大利亚手语语料库的词汇数据库在 Auslan Signbank网站上公开可见。16英国
11、手语语料库项目的建设便参照了澳大利亚手语语料库的经验, 该项目下所有的标注工作都跟特定相应研究有关, 例如, 音系变异研究标注了 211个手语者的 6330个手势的手形和方向;词汇变异研究则标注了 249个手语者的 7332个手势的释义;词频研究是使用英语书面语标注了约 25000个手势 (50 个参与者的各 500个手势) 。需要指出的是, 识别释义注释了手语词所有的音系和变体, 是所有其他后续标注工作的基础。例如由于现有的英国手语词典无法实现词形还原 (例如, 同形异义常常列在一个条目里, 而一个词条的音系变体常常另立条目) , 结果导致词频研究中的词形还原工作不得不实施全面的基础标注。1
12、7(二) 意译转写在语料库建设早期, 还需要一个书面语翻译, 与识别释义结合。例如, 英国手语语料库允许人们在 ELAN书写翻译中搜索一个特定的话题以迅速获取大量相关语料, 并指出在手语语料库建设时需要将标注和书面翻译结合起来, 因为标注只是标记手势本身的特征而不介绍其语法背景 (例如, “教”手势可能指“教师”或“教”) 或其特殊意义 (例如, “兴奋”手势可能指“兴奋”“令人兴奋”“感兴趣”“有趣”“激发”“热切”, 等等) , 这意味着只有标注不可能使使用者对手势有一个清晰的理解, 需要附以书面翻译。18三、手语语料库的标注层 (tier) Johnston (2016) 指出手语语料库
13、最少应有三个层:左、右手的释义层, 以及意译层。在使用 ELAN软件开展标注工作时可以先行设定一个模板文件, 指定可用的层类型, 可以反复使用, 为更多研究者提供便利, 例如澳大利亚手语语料库标注层的模板, 其中大量视频文件的大多数层的标注工作还在进行中。19可根据不同的研究目的标注相应的层, 例如希腊学者 Efthimiou等人在研究希腊手语词素的音系结构时, 使用 ELAN软件将其希腊手语语料库里的句子层面的手语样本进行标注和分析。20(一) 意译层在时间和资源允许时, 应利用 ELAN软件将手语语料文件进行书面语意译处理。Johnston建议最好在标注语料数据的最初阶段便开始意译工作,
14、不宜拖延, 将每个以时间顺序排列的手语单位赋以相应的英语意译。21手语表达中出现的停顿、点头或手势语调和节奏的变化, 都可能影响到意译的内容。需要注意的是, 意译和识别释义并不能完全一一对应, 例如一个书面语词可能对应几个手语从句, 也就是说, 书面语意译并不能把手语篇章分割成相应的语言句法和语法单位。(二) 释义层释义层一般需要为左、右手各建一个, 在进行释义标注之前, 应先根据手语词法和词汇学列一个手语词表或词典用于标注。有时需要同时进行词表制作和标注工作, 难度就会比较大。并非所有的手语词都适宜列入词表, 手语词可分为:全词手语 (Fully-lexical signs) 、部分词手语
15、(Partly-lexical signs) 、非词汇手语 (Non-lexical signs) 。22,231. 全词手语 (Fully-lexical signs) 全词手语是高度约定俗成的手语, 在语篇中的形式和意义这两个方面都相对稳定或一致, 很适宜列入词典, 包括一些变体、数字及其组合、否定合成、名字手语、英语手语和外语借用等。2. 部分词手语 (Partly-lexical signs) 部分词手语几乎没有约定俗成或特定的语言意义, 需要依靠上下文才能确定其释义, 大部分描述性 (也称为类标记或多语素) 手语和指示 (或指向) 手语都属于部分词手语, 它们不能直接列入词典, 也不
16、容易分配一个识别释义。例如, 浮标 (buoy) 手语就是一种部分词手语, 它通常是由一个非惯用手来表达静止不动的手形 (同时惯用手则表达移动的部分) , 24浮标手语的标注包括标注释义、标识其类型、标识其手形并简单描述所代表的内容。3. 非词汇手语 (Non-lexical signs) 非词汇手语也没有约定俗成或特定的语言意义, 包括一些手势、类型手势、非手控元素、指拼注释等, 例如澳大利亚手语里的“5”手形同时手掌向上的手势, 在不同的情境下可能意为“哦”“不知道”“吃惊的”, 这个手势就不属于澳大利亚手语词汇。254. 在确定手语词表后, 需要对手语视频进行基本释义通常情况下需要为双手
17、的手语都创建标注。但也应视具体情况来判断手语表达中的双手手势是否都需要标注。如果非惯用手只是无意识地跟随惯用手的手势, 没有明显的交际意图和明显的意义, 那么这个非惯用手的手势可不标注;非惯用手表达的是有实际意义的手语时才需要标注。如果在打手语之后有一个惯性持续的弱活动, 随后手才慢慢放松至一个中立手形或休息位置, 或者是一个手已经开始表达新的手语而另一个手的弱活动与其无关时, 通常都不需要加以标注 (在非惯用手的动作是无意义的情况下只需标注惯用手的信息) 。手语有时会有重复的现象, 有时手语的释义会因为重复而变动, 例如, 应将重复打“等”手势标注为“正在等”而不是“等”, 或标注为一个短语
18、“等很长时间”, 这种手语的重复和释义的变动是手语语法的体现。也有一些手语只是简单的重复, 可被标注为相应的重复的书面语单词 (如果不能确定, 则建议标注者在评论层加以说明) 。两个经常一起打的手语可能只是简单的组合, 也可能是多词词汇或约定俗成的手语组合词。组合词意味着两个手语词的习惯配对, 有着特定的次序, 这种组合应被各自标注。澳大利亚手语词汇数据库中的大多数手语词组合都已经各自被分配识别释义, 例如, “母亲父亲”是一个标准的澳大利亚手语组合词“父母”, “错思想”是一个组合词“有罪”。26多词词汇则是两个独立的手语的已有组合, 已成为特定的词汇单位, 例如, 英语中“现金+机器”或“
19、现金+分配”就是多词词汇 (指”自动柜员机”或”ATM”, 不能写作“钱+机器”等) , 而手语的“现金+机器”或“现金+分配”表达中这两个词的顺序可以倒过来 (可以打成“机器+现金”) 。如果标注者遇到两个手语的固定组合, 无法从其中一个手势元素中预测到整个手语词的完整意义, 不可能在两个手势元素之间再插入其他手势或者插入其他手势后不改变其意义, 这种情况下只需创建一个释义单位, 可以将该手语标注为 (多词) 词条。如果一个手语组合暂时无法定性, 则应各自标注并应在评论层加以说明它可能是一个潜在的组合词, 待日后确认它是组合词时再分配一个唯一的识别释义。在手语语篇中, 特别是在非正式场景中的
20、面对面交流中, 可能会出现一些错误:手语者已经开始表达一个单词或手语, 但却因各种原因没有完成这个表达, 随后迅速用一些单词或手语来修复这个表达。这种情况就要在这个单词的识别释义加“错误-开始”后缀, 这种标注可以帮助研究者日后从语料库中提取这些类型的错误以进一步分析研究。四、对我国手语语料库标注工作的启示我们应吸取发达国家在手语语料库标注方面的有益经验, 重视手语语料库的基本标注并力求规范化, 为以后相关标注工作的开展夯实基础。应当认识到手语词与汉语词并不能做到一一对应, 需要在已有的书面语意译的基础上27根据手语语言学的相关理论进一步细化到释义层的标注。参考文献15姚登峰, 江铭虎, 阿布
21、都克力木阿布力孜, 等.中国手语信息处理述评J.中文信息学报, 2015 (5) :216-227. 2Athistsos V, Neidle C, Sclaroff S, et al.The American Sign Language Lexicon Video DatasetC.Computer Vision and Pattern Recognition Workshops, 2008:1-8. 3倪兰.中国手语动词方向性研究D.上海:复旦大学, 2007. 4刘国兵.现代大型机读语料库的标注方法-以 CEC政府文件子语料库标注为例J.山东外语教学, 2008 (5) :53-59.
22、6Athistsos V, Neidle C, Sclaroff S, et al.Large Lexicon Project:American Sign Language Video Corpus and Sign Language Indexing/Retrieval AlgorithmsC.Proc.Workshop on the Representation and Processing of Sign Languages:Construction and Exploitation of Sign Language Corpora.Valletta, Malta:LREC, 2010:
23、11-14. 7Neidle C, Thangali A, Sclaroff S.Challenges in Development of the American Sign Language Lexicon Video Dataset (ASLLVD) CorpusC.Proc.5th Workshop on the Representation and Processing of Sign Languages:Interactions between Corpus and Lexicon.Citeseer, 2012. 817Schembri A, Fenlon J, Rentelis R
24、, et al.Building the British Sign Language CorpusJ.Language Documentation and Conservation, 2013 (7) :136-154. 914161921222526Johnston T.Auslan Corpus Annotation GuidelinesEB/OL.https:/www.academia.edu/12360442/Auslan_Corpus_Annotation_Guidelines_February_2016_version_, 2016-07-01. 101523Johnston T.
25、From Archive to Corpus:Transcription and Annotation in the Creation of Signed Language CorporaJ.International Journal of Corpus Linguistics, 2010 (1) :106-131. 11Fenlon J, Schembri A, Rentelis R, et al.Variation in Handshape and Orientation in British Sign Language:The Case of the1Hand Configuration
26、J.Language&Communication, 2013 (1) :69-91. 12Campr P, Hrzm, TrojanovJ.Collection and Preprocessing of Czech Sign Language Corpus for Sign Language RecognitionC.Proceedings of the Sixth International Conference on Language Resources and Evaluation, 2008. 13陈晓燕.中国电视手语传译中的非手部策略D.厦门:厦门大学, 2014. 18任媛媛, 赵
27、晓驰.国外手语语料库设计及启示J.现代特殊教育, 2016 (7) :77-80. 20Efthimiou E, Fotinea S-E.GSLC:Creation and Annotation of a Greek Sign Language Corpus for HCIG.Stephanidis C.Universal Acess in Human Computer Interaction.Coping with Diversity.Springer Berlin Heidelberg, 2007:657-666. 24Liddell S K.Grammar, Gesture, and Meaning in American Sign LanguageM.Cambridge University Press, 2003. 27赵晓驰, 任媛媛, 丁勇.国家手语词汇语料库的建设与使用J.中国特殊教育, 2017 (1) :43-47.