纸箱印刷《太平御览》等古籍中所有“盐”“剑”的异体字都被当作无法显示、检索的生僻字

2018-11-29 14:21:05      点击:

  十几年前,电子版《文渊阁四库全书》《四部丛刊》等古籍数据库问世,极大提升了古代文献的检索效率,给文史研究带来了便利。近来,在北京大学、中国人民大学等大学图书馆的网站上,陆续出现了“中华经典古籍库”的身影,其所收入的600多种、4亿字古籍全部经过点校整理、正版授权,文史研究的学术生态因此又一次改变。随着中华书局、巴蜀书社、凤凰出版社、天津古籍出版社等古籍社相继加盟该数据库建设,国内古籍出版的业态也悄然发生着变化。

  从前,说起古籍数据库,学者总有些“放心不下”。学者只承认古籍数据库是获取文献的重要辅助工具,但在论文、著作中征引文献时,仍要使用点校本纸书,而绝少使用古籍数据库的文本。如果有哪位学者大量征引古籍数据库的文本,通常会被视为“不专业”。

  “数字古籍产生问题的原因众多,数字文献选择底本的不善,某些开发商因规避版权等原因,录入文本与宣称版本往往名不符实。数字文献制作中因字形差异,校核不精等所产生错字、缺字众多,甚至错行错页、脱行脱页之例也屡见不鲜。”中国社会科学院历史研究所研究员陈爽曾在一篇文章中指出,时下学者对数字古籍的质量要求远不及印刷文本,将检索而来的史料覆按原书,成为论文付梓前一道必不可少的工序。

  根据陈爽的经验,即使是文本录入准确率很高的台湾“汉籍资料库”,也存在一些瑕疵。比如,在这个数据库中,《太平御览》等古籍中所有“盐”“剑”的异体字都被当作无法显示、检索的生僻字,做成了图片格式,看似忠实原书,实际上造成了检索的困难。陈爽说:“这对于古代经济史料和军事史料的搜集将是灾难性的。”

  在文史学界,像陈爽一样对各种古籍数据库的优势、劣势了然于胸的毕竟是少数,而且这些经验需要花费大量时间不断积累。这使得本应成为学术研究“利器”的古籍数据库,无法发挥出其应有的作用。有学者提出了“数字善本”的概念,希望古籍数据库从过去的贪大、贪全,转变为求精、求准。

  在“中华经典古籍库”的出版方、古联(北京)数字传媒科技有限公司总经理顾青看来,在“数字善本”求精、求准的基础上,还应该充分体现当代古籍整理的成果。他认为,以往的古籍数据库主要是将古籍的文字进行数字化,方便了检索,即使文本准确,这些数字化了的古籍没有标点,而且保留着古书在流传中出现的种种错误,不适合一般读者使用,专业学者也没办法引用,将当代学者整理的点校本古籍进行数字化,是未来古籍数字化发展的大趋势。但当代古籍整理的点校本涉及复杂的版权归属以及学术质量评价等问题,做起来并不容易。

  顾青介绍,虽然困难不少,但“中华经典古籍库”所收图书均为整理本古籍,包含二十四史、新编诸子集成、清人十三经注疏、史料笔记丛刊、古典文学基本丛书等,今后还将不断增加文献数据量,将全国各大古籍出版社的优秀整理本进行数字化。

  据统计,新中国成立以来已整理出版2万多种古籍,其中版权清晰、整理质量较高的5000种,体量达50亿字。然而,这些点校本的版权分散在全国几十家古籍出版社和众多大学出版社、社科出版社,如果各出版社单打独斗,就会出现数十个小型古籍数据库,难以形成规模优势。如果“抱团取暖”,把这些古籍整理成果集纳到一起,海量经过整理、筛选的“数字善本”,将成为文史研究的重要文献资源。

  “在传统出版年代,各古籍出版社围绕国家规划,团结合作,平等互利,我们特别希望,在数字出版阶段大家也能形成这样一种合力,否则我们的资源优势会逐步丧失。”中华书局总经理徐俊认为,对于古籍整理出版这样的专业出版形态,资源的横向聚合十分重要。

  目前,除了中华书局、巴蜀书社、凤凰出版社、华东师大出版社、天津古籍出版社,同属“全国古籍出版社联合会”成员的齐鲁书社、辽海出版社也有意加入“中华经典古籍库”。顾青希望,2016年“中华经典古籍库”的数据规模能达10亿字。

  在服务大学、科研院所等机构用户的同时,供个人使用的在线版、手机版“中华经典古籍库”也正在研发之中,一般的传统文化爱好者也将有机会使用权威数据库认识传统文化。在顾青心中,未来的“中华经典古籍库”不仅仅是一个古籍数据库,而且是一个学者可以发表学术观点、交流学术心得,出版社可以进行版权贸易的融合出版平台,这将成为媒体融合时代古籍出版社转型的重要尝试。(光明日报记者 杜 羽)

  “吨位”最大的展品“金牛座龙门铣”,全世界最小的心脏起搏器、最科幻展品“会飞的汽车”、最贵展品AW189型直升机……

  “互联网之光”博览会又被誉为“黑科技”殿堂。今年的“互联网之光”上都有啥?互联网世界的未来之光什么样?

客服经理 化术斌
点击这里给我发消息