| 曲阜师范大学图书馆古籍数字化保护工程获重大进展——古籍“活”了,文化“传”了
我是曲阜师范大学古籍数字化中心的一名技术员,每天和那些泛黄、虫蛀、甚至一碰就碎的纸页打交道。这份工作干久了,会生出一个奇怪的念头:你面前那本光绪年间的《论语集注》,比你的曾祖父还要老,但它可能比你我“活”得更久——前提是,我们能赶在它彻底朽坏之前,把它变成数字世界里永不褪色的存在。最近,我们团队终于可以松一口气了:古籍数字化保护工程拿到了2026年第一份阶段性成果报告,数字有点吓人,也有点让人心潮澎湃。
当《论语》遇上AI,摩擦出了不止火花
很多人以为古籍数字化就是“把书拍成照片,放到网上”。坦白讲,十年前我们确实这么干。但今天如果还这么想,就太小看这帮天天和故纸堆较劲的人了。我们最新的工作流里,藏着一套自研的AI文字识别系统——它不仅能识别繁体字、异体字,还能处理残损字符的推测补全。2025年底到2026年初,这套系统经手了将近3000种古籍,把OCR识别的准确率从当年的78%硬生生拉到了93.7%。听起来只是个数字?举个例子吧:你面前有一本明刻本《孟子》,书页中间被老鼠啃掉了一个角,AI会根据上下文、字形结构甚至书法风格,自动给出三到五种合理补字方案,再由我们的古典文献学教授人工审核。这哪是修书?简直是在和古人做一笔跨时空的拼图交易。
从“藏在深闺”到“指尖轻触”,一部古籍的数字化旅程其实很冗长
外界看到的是“曲师大完成1200种、8万页古籍高清采集”这条新闻。但我想说说这背后的笨功夫。每一页古籍的扫描,都不是按个快门就完事的。温度、湿度、光照强度,甚至扫描仪和书页之间的倾角,都直接影响成片质量。我们用的是非接触式超高清扫描仪,每页分辨率高达600dpi,一本两三百页的古籍,光拍摄就要耗掉三个小时,后期还要做色彩校准、去除折痕、拼接破损裂缝。2026年我们刚上线了一套自动标引系统,能把古籍里的地名、人名、官名、引文一键提取并关联到知识图谱里。比如你检索“郑玄”,系统不但会跳出他在《十三经注疏》里的注释,还能画出他的师承脉络、交游圈、涉及的学术争论。这不是魔法,是300多天连续调试出来的结果。
不仅仅是拍照,是在和时间赛跑
曲阜是儒家文化的重镇,我们馆藏的善本里,有大量和孔府、孔庙相关的私修方志、家谱、祭文手稿。这些东西对研究明清民间儒学传播价值连城,但纸质状况相当糟糕。有一册乾隆年间的《孔氏家仪》,翻开封面,纸页脆得像烤过的海苔,轻轻一蹭就掉渣。我们团队那段时间人人戴着口罩和手套,屏住呼吸操作,一台扫描仪连续工作8小时就要停机散热——因为机身发热会加速纸质老化。到2026年4月,这本濒临消亡的家仪终于变成了一个3.2GB的数字文件,不光能原貌呈现,还能我们的虚拟翻阅小程序,让使用者体验到“翻书”的手感,甚至模拟出纸张的触感和微微泛黄的颜色。有人问,至于吗?值得。因为当实体书最终化为尘土的那一天,这个3.2GB的文件夹就是唯一还能“触摸”到乾隆年间儒生掌心温度的东西。
让沉睡的文字开口说话:数字人文的新可能
今年年初,我们联合计算机学院做了一件挺有意思的事:把数字化后的古籍文本导入大语言模型进行语义标注,构建了一个“儒学概念演化地图”。比如“仁”字,在《论语》里出现了109次,在《孟子》里出现了158次,但在不同时代的注疏里,它的解释权重完全不同。我们用可视化工具把这些变化做成动态图,直接推到了学校官网上,结果一周内访问量破百万。很多高中生留言说:“原来古文不是死记硬背的东西,它一直在变。”——这种反馈比什么数据都让我觉得,数字化这件事干对了。
当然,工程还远远没到终点。我们手头还有超过3万种古籍等待处理,按照现在的速度,大概要再花十年。但2026年的这批进展,至少证明了一件事:当技术真正俯身去倾听那些沉睡的文字,文化传承就不再是博物馆里的玻璃罩,而是一场随时可以发生的对话。如果你点开曲阜师范大学图书馆官网的古籍数字平台,也许很快就能在某个角落里,找到那个被AI修复过的“啃掉一角”的《孟子》,它正在等着你,去补上那段被老鼠咬掉的空白。 |