所谓档案数字化,就是将传统的纸质档案或其他介质的档案信息转化为电子数据的过程,旨在提升档案管理的效率、安全性和可利用性。随着信息技术的飞速发展,档案数字化已成为档案管理现代化的重要手段。
档案数字化的基本流程,包括档案预处理、档案扫描、图像处理、光学字符识别等一系列环节。具体内容如下:
第一,档案预处理。首先要将档案调出库房,应由双方共同清点案卷数量,仔细查看每个案卷,对于案卷有否破损、残缺、漏页、缺页、有无卷内目录、页码是否连续,装订是否牢固,有否破损等情况均记录备案,并作为档案再入库验收的依据。完成档案调取清点、登记等前期工作后,可提交档案出库申请。经相关负责人批准后,严格按照档案库房管理规范,办理出库相关手续。并与数字化部门共同清点无误后,对档案进行交接出库。
第二,档案扫描。档案扫描环节是档案数字化过程中的核心步骤。档案扫描应根据纸质档案原件的实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,和进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。
档案扫描设备的选择:
① 应特别注意对档案实体的保护,尽量采用对档案实体破坏性小的扫描设备进行数字化。纸张老旧、薄脆、破损的,不得使用高速扫描仪进行扫描。
② 超出所使用扫描仪扫描尺寸的档案可采用更大幅面扫描仪进行扫描,也可以采用小幅面扫描仪分幅扫描后进行图像拼接的方式处理。分幅扫描时,相邻图像之间应留有足够的重叠,并且采用标版等方式明确说明分幅方法;若后期采用软件自动拼接的方式,重叠尺寸建议不小于单幅图像对应原件尺寸的1/3。
③ 应遵循相关设备的使用规律进行定期维护、保养。
第三,图像处理。经过扫描的图像并非完全符合档案数字化要求。因此档案数字化相关人员还需要对扫描后的图像进行一一检查,筛选出不符合要求的图像,利用图像处理软件进行进一步加工,主要操作包括:
(1)图像拼接。对分幅扫描形成的多幅数字图像,应进行拼接处理,合并为一个完整的图像,以保证纸质档案数字图像的整体性。拼接时应确保拼接处平滑地融合,拼接后整幅图像无明显拼接痕迹。
(2)旋转及纠偏
① 对不符合阅读方向的数字图像应进行旋转还原,顺时针或逆时针90度、180度的旋转一般在扫描阶段即进行,不要等到图像处理阶段再来操作。
② 对扫描过程中由于人为、机器设备原因出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。档案实体本身偏斜的,扫描图像不需要纠偏。
一般情况,人为、机器设备原因的,应通过制度约束、技术检测等手段予以控制,如发生及时重新扫描,不要等到图像处理阶段再进行修复调整。
(3)裁边。如需对数字图像进行裁边处理,应在距页边最外延至少2至3毫米处裁剪图像。
一般情况下,数字图像档案页部分不得进行任何情况的裁边操作。
(4)去污。如需对数字图像进行去污处理,以去除在扫描过程中产生的污点、污线、黑边等影响图像质量的杂质,应遵循展现档案原貌的原则,处理过程中不得去除档案页面原有的纸张褪变斑点、水渍、污点、装订孔等痕迹。
第四,光学字符识别。为了增强数字化档案的可搜索性和可编辑性,通常需要进行光学字符识别(OCR)。光学字符识别软件能够自动识别扫描图像中的文本,并将其转换为可编辑文本格式。这样,用户可以方便地使用关键词搜索档案内容,而不必逐页查找。
第五,数据挂接。应借助相关软件对数据库中的目录数据与其对应的纸质档案数字图像进行挂接,以实现目录数据与数字图像的关联。然后,逐条对挂接结果进行检查,包括目录数据与纸质档案数字图像对应的准确性、已挂接数字图像与实际扫描数量的一致性、数字图像是否能正常打开等,发现错误及时进行纠正。