1、宝鸡市纸质文书档案数字化加工标准1 范围本标准规定了纸质档案数字化的主要技术要求,适用于采用各种设备对纸质档案的数字化加工处理及数字化成果的管理。市委和市级国家机关各部门,各人民团体,企事业单位档案室纸质档案数字化加工依据本标准,各区、县档案馆纸质档案数字化加工可参照执行。2 术语和定义2.1纸质档案数字化采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。2.2黑白二值图像只有黑白两级灰度的数字图像。它对应于黑和白的两种状态文字稿、线条图、指纹图等。2.3连续色调静态图像以多于两级灰度的不同浓淡层次或以不同
2、颜色通道组合成的静态数字图像。在纸质档案数字化过程中,通常表现为灰度扫描和彩色扫描两种模式。2.4分辨率单位长度内图像包含的点数或像素数,一般用每英寸点数(dpi)表示。2.5失真度对档案进行数字化转换后,数字图像与档案原件在色彩、几何等方面的偏离程度。2.6可懂度数字图像向人或机器提供信息的能力。2.7图像压缩消除图像冗余或对图像近似的任一种过程,其目的是对图像以更紧凑的形式表示。纸质档案数字化过程中,较常见的有TIFF(LZW)、JPG等压缩格式。2.8 JPG JPG全名是JPEG (Joint Photo graphic Experts Group)联合摄影专家组,一种丢失少量信息的压
3、缩格式,尤其适用于屏幕和打印显示,支持所有主要的计算机平台和Web浏览器。主要适用于灰度以及彩色模式下的图像存储。2.9 PDF PDF(Portable Document Format的简称,意为“便携式文件格式”)是由Adobe Systems在1993年用于文件交换所发展出的文件格式。它的优点在于跨平台、能保留文件原有格式(Layout)、开放标准,能自由授权(Royalty-free)自由开发PDF兼容软件,在今天的互联网上应用广泛。3 纸质档案数字化加工基本要求3.1数字化对象的确定属于归档范围且应永久、长期、30年保存、符合国家有关规定的档案应列入数字化加工的范围。3.2基本环节纸
4、质档案数字化的基本环节主要包括:档案整理、档案扫描、图像处理、图像存储、目录建库、数据挂接、数据验收、数据备份、成果管理等。3.3过程管理加强纸质档案数字化各环节的安全保密管理机制,将档案数字化工作文件收集齐全,并且管理规范,数字化工作文件包括:数字化工作方案、数字化审批书、数字化流程单、数据验收单、项目验收报告、数字化成果移交清单等,采取委托外部机构实施时,还应包括项目招标文件、投标文件、中标通知书、项目合同、保密协议等。4 档案整理在扫描之前,根据档案管理情况,按下列步骤对档案进行适当整理,确保档案数字化质量。4.1目录数据准备按照宝鸡市文书档案目录数据交换格式与著录项目细则(见附件2)的
5、要求,规范档案目录内容。包括确定档案目录的著录项、字段类型和长度,并对错误或不规范的目录数据进行修改。4.2编页号逐页对档案进行编号,编号过程中不能出现漏编或者重编。编号所使用的打码机、笔、墨等不应破坏档案原件或对档案长期保存造成影响。4.3拆除装订档案扫描前,应拆除装订物,拆除装订物时应注意保护档案不受损害。4.4页面修整破损严重、无法直接进行扫描的档案,应先进行技术修复,折皱不平影响扫描质量的原件应先进行压平处理后再进行扫描。4.5档案整理登记制作并填写纸质档案数字化加工过程交接登记表,详细记录档案整理前后每份文件的页数,并在备考表中注明页数的变化情况。4.6编制卷内文件目录在完成案卷的数
6、字化加工后,以每卷为单位编制卷内文件目录,在案卷装订时,将新的目录装订进卷内。4.7装订扫描工作完成后,档案应按档案保管的要求重新装订。装订时,应注意保持档案的排列顺序不变,做到安全、准确、无遗漏。案卷卷皮破损严重的,需要更换新的卷皮,装订时,要将原破损案卷的备考表部分裁剪下来装订在案卷的末页。5 档案扫描5.1扫描方式5.1.1根据档案幅面的大小(A4、A3、16K等)选择相应规格的扫描仪或专业扫描仪进行扫描。大幅面档案可采用专用数码平台进行扫描或者采用图像拼接方式处理。5.1.2纸张状况较差,以及过薄、过软或超厚的档案,应采用平板扫描方式;纸张状况好的档案可采用高速扫描方式以提高工作效率;
7、不适合拆分的档案可采用零边距扫描仪或是相机拍摄的方式。5.1.3档案中折子页、图纸、表格等应整页扫描,超大幅面的进行分页扫描后,要拼接成一页。5.2扫描色彩模式采用彩色模式进行扫描。5.3扫描分辨率5.3.1扫描分辨率参数大小的选择,原则上以扫描后的图像清晰、完整、不影响图像的利用效果为准。扫描图像缩放比应为100%。5.3.2对档案进行扫描时,其分辨率应选择200dpi。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。5.3.3需要进行OCR汉字识别的档案,扫描分辨率建议选择300dpi。5.4扫描登记认真填写纸质档案数字化转换过程交接登记表,登记扫描的页数,确保每份文件的实际
8、扫描页数与档案整理时填写的文件页数一致。6 图像处理6.1图像数据质量检验6.1.1对图像偏斜度、清晰度、失真度等进行检查。发现不符合图像质量要求时,应重新进行图像的处理。6.1.2发现文件漏扫时,应及时补扫并正确插入图像。6.1.3发现扫描图像的排列顺序与档案原件不一致时,应及时进行调整。6.2纠偏对出现偏斜的图像应进行纠偏处理,图像偏度不得大于3度。对方向不正确的图像应进行旋转还原,以符合阅读习惯。6.3去污去除数字图像中影响可懂度的杂质如黑点、黑线、黑框、装订孔等。档案数字化图像的去污,应遵循在不影响可懂度的前提下展现原貌的原则。6.4图像拼接或调整6.4.1对大幅面档案进行分区扫描形成
9、的多幅图像,应进行拼接处理,合并为一个完整的图像,以保证档案数字化图像的整体性。6.4.2图像要保证上下左右四边尺寸合理,不能有裁字现象。在图像原件中存在缺漏内容的边缘,在编辑时要预留一部分空间,以使读者能看出是原件的缺漏。6.4.3对于大小不规范的图像要进行调整,调整后的图像应是A3、A4等标准尺寸大小,对大于A3幅面的图像则保持原图像幅面的大小不变。7 图像存储7.1图像文件的存储格式用于代替原件保存和需要移交至市档案馆的档案,采用JPG格式和PDF格式存储。存储时的压缩模式的选择,应以保证画面质量无损的前提下,尽量减小存储容量为准则。档案原件扫描后的图像应保存两份。一份是以每一页为一个图
10、像的JPG格式的文件;另一份是以件为单位的,将JPG格式的图像合成后,存储为PDF格式的文件。7.2图像文件的命名7.2.1命名原则以纸质档案目录数据库为依据,将每一份图像文件命名为档案目录数据库中该份文件的档号。通过档号的一致性和唯一性,建立起一一对应的关联关系,为实现档案目录数据库与图像文件的批量挂接提供条件。7.2.2命名格式7.2.2.1命名格式一对以“卷”为单位的档案进行扫描时,其图像文件命名格式由全宗号、目录号、案卷号、页(张)号所组成,各字段间用“-”连接,即以xxx-x-xxxx-xxxx.jpg表示;JPG格式的图像合成后的PDF格式的文件命名格式由全宗号、目录号、案卷号、页
11、(张)号组成,各字段间用“-”连接,即以xxx-x-xxxx-xxxx.pdf表示。数据结构见下表:案卷级档号文件级档号字段名称字段类型字段长度全宗号字符3目录号字符1案卷号字符4页(张)号字符4如档号为“028-2-0011”的案卷档案有112页,卷内共有6份文件,6份文件的起始页号分别为1、18、32、66、83、102,则经扫描生成的112个数字图像的名称分别为:028-2-0011-0001.jpg;028-2-0011-0002.jpg;028-2-0011-0003.jpg;028-2-0011-0111.jpg;028-2-0011-0112.jpgJPG图像文件合成后的6份PD
12、F文件名称分别应为:028-2-0011-0001.pdf;028-2-0011-0018.pdf;028-2-0011-0032.pdf;028-2-0011-0066.pdf;028-2-0011-0083.pdf;028-2-0011-0102.pdf;7.2.2.2命名格式二对以“件”为单位的档案进行扫描时,其图像文件命名由全宗号、年度、保管期限、机构问题、件号、页号组成,各字段间用“-”连接,即以xxxx-xxxx-永久(30年)-机构问题-xxxx-xxxx.jpg表示;JPG格式的图像合成后的PDF格式的文件命名格式由全宗号、年度、保管期限、机构问题、件号组成,各字段间用“-”连
13、接,即以xxxx-xxxx-永久(30年)-机构问题-xxxx.pdf表示。数据结构见下表:字段名称字段类型字段长度归档文件档号全宗号字符4年度字符4保管期限字符4机构(问题)字符20 件号字符4页号字符4如一份档号为“0028-2008-永久-党组-0011”的文件有3页,则经扫描生成的三个数字图像的名称分别为:0028-2008-永久-党组-0011-0001.jpg0028-2008-永久-党组-0011-0002.jpg0028-2008-永久-党组-0011-0003.jpgJPG图像文件合成后的PDF文件名称应为:0028-2008-永久-党组-0011.pdf7.3图像文件的存储
14、路径7.3.1案卷档案扫描后形成的图像文件存储:JPG格式的图像存储的文件夹结构路径(根目录下):JPG全宗号目录号案卷号xxx-x-xxxx-xxxx.jpg。PDF文件存储的文件夹结构路径(根目录下):PDF全宗号目录号案卷号 xxx-x-xxxx-xxxx.pdf。7.3.2归档文件扫描后形成的图像文件存储:JPG格式的图像存储的文件夹结构路径(根目录下):JPG全宗号年度保管期限机构问题件号xxxx-xxxx-永久(30年)-机构问题-xxxx-xxxx.jpg。PDF文件存储的文件夹结构路径(根目录下):PDF全宗号年度保管期限机构问题xxxx-xxxx-永久(30年)-机构问题-x
15、xxx.pdf8 目录建库8.1数据格式选择目录建库应选择通用的数据格式,所选定的数据格式应能直接或间接通过XML文档进行数据交换,一般数据录入选择XLS格式的文档。8.2档案目录数据著录按照宝鸡市文书档案目录数据交换格式与著录项目细则的要求,规范档案的著录内容。包括确定档案目录的著录项、字段长度等,如有错误或不规范的档号、文件名、责任者、文件形成时间和页数等,应进行修改。数字化加工前已经建立了目录数据库的,应在数字化过程中核对、修改原有目录数据,确保目录数据准确无误并与实体档案、数字扫描副本一一对应。8.3目录数据质量检查核对著录项目是否完整、著录内容是否规范、准确,发现不合格的数据应要求进
16、行修改或重录。9 数据挂接档案数字化转换过程中形成的目录数据库与图像数据库,通过质检环节确认为“合格”后,通过在线或离线方式加载到数据服务器。通过编制程序或借助相应软件,可实现目录数据对相关联的数字图像的批量、快速挂接。10 数据验收10.1目录数据验收以全宗的一个或多个目录为单元,随机抽查20%的数据,对条目数量及其著录项目内容的准确性进行逐条检查。其中,档号的合格率要求达到100%,其他项目抽检合格率要求达到98%以上(含98%)。合格率抽检合格文件数/抽检文件总数100%10.2图像数据验收以全宗的一个或多个目录为单位,随机抽查20%的条目数据相对应的图像数据,对图像数量及其图像内容的准
17、确性进行检查。图像应符合本标准中所规定的分辨率、文件格式及色彩模式。图像文件的命名必须与条目档号相一致,一致率要100%;扫描图像完整性要求100%正确,完整性包括不准缺页、漏页。图像的倾斜度、清晰度、整洁度等技术指标,要求抽检合格率达到98%以上(含98%)。合格率=抽检合格的文件数/抽检文件总数100%10.3案卷质量验收对加工好并装订的档案实体进行质量检查、登记,对于整理装订不合格的档案要退回加工单位重新整理。出现以下情况的为整理不合格档案:(1)卷内、盒内文件前后顺序不正确。(2)卷内、盒内文件不完整,或者出现因对案卷加工引起的纸张残缺。(3)装订方式不符合档案装订规范。10.4验收审
18、核验收“通过”的结论,必须经分管领导审核、签字后方有效。10.5验收登记认真填写纸质档案数字化验收登记表。11 数据备份11.1备份范围经验收合格的完整数据应及时进行备份。11.2备份方式为保证数据安全,备份载体的选择应多样化,可采用在线、离线相结合的方式实现多套备份,并注意异地保存。11.3在线备份目录和扫描档案一般都应采用磁盘等载体实行在线存储备份,保证档案的利用与安全。11.4离线备份凡用作永久、长期保存和移交至市档案馆的档案,应采用离线方式进行刻盘备份。备份载体可选用DVD光盘。目录应与其相应的扫描档案保存在同一光盘上。(DVD光盘备份数据刻录两套。)11.5数据检验备份数据的检验内容主要包括备份数据能否打开、数据信息是否完整、文件数量是否准确等。11.6备份标签数据备份后应在相应的备份介质上做好标签,以便查找和管理。11.7备份登记填写纸质档案数字化备份管理登记表。12 数字化成果的管理12.1可选用在线和离线方式,配合相应的软件对数字化成果进行管理。12.2应加强对纸质档案数字化成果的管理,确保其安全、完整和长期可用。12.3档案数字化成果提供网上检索利用时,应有制作单位的电子标识,并根据具体情况分别采用可下载或不可下载的数据格式。- 13 -