收藏 分享(赏)

公文语料库建设浅谈.doc

上传人:cjc2202537 文档编号:5026917 上传时间:2019-01-31 格式:DOC 页数:3 大小:86KB
下载 相关 举报
公文语料库建设浅谈.doc_第1页
第1页 / 共3页
公文语料库建设浅谈.doc_第2页
第2页 / 共3页
公文语料库建设浅谈.doc_第3页
第3页 / 共3页
亲,该文档总共3页,全部预览完了,如果喜欢就下载吧!
资源描述

1、公文语料库建设浅谈 语料库顾名思义就是存储语言材料的仓库,通常是指存放在计算机里的原始文本或经过加工后带有语言学信息标注的语料文本。我们平常所见的公文例文,或者网站上的公文,或者某些部门、单位、学者积累的公文材料,虽与语料库有一定的相似之处,但这些材料积累,往往只是局部的、较为随意的、难成体系的公文收集。我们要建立的公文语料库,是从词语到段落篇章、不同文种、不同层次,甚至不同国家的都有的,材料丰富全面、构造清晰、分类详细、用途多样的公文材料库。公文语料库建设是公文领域十分重要的、有创新性的新生事物,对公文语料库建设的探究既有理论意义又有实践价值。一、建设公文语料库的意义科学的研究往往需要以数据

2、和大量的事实材料为基础,公文语料库的建设将为公文研究解决这一问题并提供科学的理论和方法,为建构公文新理论提供依据。从具体的工作实践上说,建设公文语料库将有助于从词频的角度来比较词汇的运用、反映公文的内容及公文语言的变化;有助于从词汇、句式、篇章等角度为公文写作提供更科学、全面的指导;有助于为公文的各种比较研究提供材料和方法;有助于公文语体与修辞的研究;有助于促进公文写作的创新、提高工作效率;有助于公文的分类管理研究。以语料库为基础建立的公文词典,可以作为公文写作处理、学习研究的工具书。以公文语料库为基础,结合其他先进的科技成果,还可以开发出优质的软件和系统,为实际工作中公文写作与处理提供良好的

3、工具和平台。二、公文语料库的创建创建公文语料库,首先要搜集原始材料录入计算机。然后是进行语料处理,即利用软件进行自动分词、词语标注等,并可以根据需要建立一些子语料库。如果有进一步需要,还可以利用上面取得的信息进行第三步操作,通过随机抽样、检索、统计、分析对比、演绎推理、归纳总结等方法进行具体的研究。下面以党的十五大、十六大和十七大报告为原始材料建立一个小型的语料库,展示一下语料库的构成和具体操作方法。党的十五大、十六大、十七大报告,涉及领域之广,应用频率之高是其他公文难以比拟的。这里利用分词软件对三个报告内容逐个进行自动分词,然后利用数据库软件进行比较和处理,得出每一个报告的用词数量、词频等,

4、形成一个数据集,进而有选择地进行比较,得出一些结论。结论一,篇幅相当,适合对比。三个报告的词汇总量分别为:14185、14156、13621,用词数量分别为:2573、2427、2502,依此可看出三个报告的篇幅基本相当,非常具有可比性。结论二,相同用词,体现联系。通过语料库,很容易得到三个报告相同用词的量,如每两个报告之间相同的词汇量介于 1576 至 1709 之间,而三个报告相同的词汇为 1376 个。通过某些词语在不同大会报告的重复利用率高,还能体现出不同大会报告在内容上的联系;而十五大报告与十七大报告中相同的词汇较少,也可以看出大会内容的不断变化与发展。结论三,特有词汇,显现不同。三

5、次大会报告中特有词语的数量依次为 673、394、595,这可以看出:每次大会报告所用词汇都有相当数量的变化;大会时间相隔较远,不同词汇就更多一些。结论四,不同词频,便于研究。我们只从语料库中选择一部分典型的词语为例来对比其词频。某些重要词语在三次报告中出现的频率有着极大的不同,如在三次大会报告中, “邓小平理论”出现的频率依次为 42、13、9, “与时俱进”为 0、9、7, “小康”为0、23、23, “科学发展观”为 0、0、21, “和谐”为 0、6、34, “以人为本”为0、0、34。根据这些用词的异同,结合报告本身,可以做许多研究。如可以非常客观地从数据入手来研究各次大会的内容、主

6、题、政策等的相同和不同,比较容易就能够看出各次大会的不同之处及创新之举。同时,用数据说话,不仅一目了然、快捷高效,而且更具说服力。三、公文语料库建设的重点当前,从公文理论与实践的需要出发,公文语料库的建设方向应该是:利用现代设备,面向实际需要,方便公文写作,有利公文处理,提高办文效率,改善工作质量。重点应放在以下几个方面:一是整理公文材料,建立公文生语料库。生语料库就是没有经过加工和切分、没有信息标注的原始材料构成的语料库。这是建设公文语料库的基础工作。建设公文语料库需要选择具有规范性、完整性、代表性、比例合理的材料,因此搜集起来有一定的困难,需要花费大量的人力和时间,同时,因为公文材料具有政

7、治性、地域性等特点,有些公文虽然不是密级文件,但也没有公开发布,还需要相关部门和领导的理解与支持。公文可采用先搜集后整理,边搜集边整理的方式。在整理中可以分门别类,建立子语料库,如按照上行文、下行文、平行文的分类,或按照规范性、通用性、法规规章性公文、执法性公文的分类,或按照不同文种,来进行语料的收集和归类。这种分类的语料库,可以为需要者提供检索服务,还可以为不同文种公文的比较等提供可靠而全面的材料。二是全方位多层次地处理材料,生成公文熟语料库。熟语料库就是经过一定处理,进行了切分和标注的语料库。这种处理主要依靠先进的软件来完成,可以建成以词汇、句子、句式、篇章为成分的大型公文熟语料库。熟语料

8、库对公文的研究意义更为直接,如可以为党政公文的比较、中外公文的比较、古今公文的比较研究提供数据和材料,可以为公文的不断改革创新提供重要依据,还可以为公文语料词典的编纂以及公文处理软件的设计提供语料支撑。由于公文语料库的理论与技术尚处于起步阶段,目前还不是十分成熟,比如有些软件的分词会出现一些偏差,需要人工校对进行辅助,处理句式篇章的能力还有待于进一步提高,等等,这些都需要在实践中不断加以改进、完善和提高。三是利用公文语料库,编纂公文语料词典。公文语料词典是依靠公文语料库建立的,它在公文研究中的作用将不可忽视。目前所见的公文词典不仅是语言研究的成果之一,更成为语言研究或者公文写作不可或缺的工具。

9、公文语料词典主要包括两类。第一类是公文常用词词频词典,也就是根据所建的语料库统计,掌握公文词汇使用的频率以及所占的比例。这类词频词典可以通过注明词语在不同文种、不同类型的公文中的频率,而便于比较和操作;可以为从事公文写作与处理的文秘人员提供有益而有用的工具;可以为公文研究者提供查询服务。公文词频词典的编纂难度不大,主要依靠公文语料库的科学性和完整性。第二类是普通的公文词典,这是更常用的公文工具书。目前,公文的某些术语、规范,以及一些问题概念不是十分清晰,国家的相关文件解释也不够,因此标准不统一,规定自相矛盾的东西很多,这不利于公文的写作和处理,更不利于提高党政机关的办事效率和质量。公文理论与实践都迫切需要建立有专业术语解释、规范格式、重要注意事项的公文辞书,这些方面,许多专家学者已经做了大量的工作,取得了令人钦佩的成果,但这些成果多数是论著或参考资料的形式,而不具备词典作为工具书的特性。编纂公文词典需要成立相关的编写研究组,以公文语料库为基础,参照国家相关规定,经过讨论研究论证,对公文相关术语的概念定义等形成统一的、权威的看法或结论。公文词典不但可以为公文学习者、研究者、工作者提供有效、可靠的工具书,某些内容还可以成为国家公务员考试命题的重要参考资料和依据,因此意义重大。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 大学论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报