|
让《康熙字典》和百度谷歌谈恋爱
传统经典求生数字时代 “我要拿去给老师看,让她知道是爸爸做的。”4月23日,社科文献出版社发布由瀚堂图书数据库发明人王宏源新勘的《康熙字典》修订版及数据库,王宏源读一年级的小女儿准备拿着征订手册去学校“显摆”一下。
《康熙字典》为清政府召集众多学者集体编纂而成,问世近300年间,只有学者王引之在道光十一年(1831年)奉旨校勘过。
44岁的王宏源利用Unicode国际标准中的57557个字符(Unicode也称为统一码,是一种ISO国际标准,即计算机上使用的字符编码),首次对《康熙字典》1.3万多个字头进行了3万多项的增补和修订,并针对《康熙字典》原有的47043个字头,逐字进行了异体字的字际关联工作。
新勘《康熙字典》比我国420人的编辑团队历时15年编修的收字54678字的《汉语大字典》多收录约3000个汉字,并且每个汉字都有国际编码和说明。如此巨大的工程,投资规模如何?社科文献出版社社长谢寿光和北京时代瀚堂科技有限公司总经理王宏源说:“我们没要国家一分钱。”
王宏源的“野心”很大:“尽可能把中国所有文献古籍整合到一个数据库,把字典收拾妥当才能做接下来的活儿”,“过去修书都是翰林,我是44岁开始修,还能干20多年。”
数字时代的出版业
王宏源在清华大学物理系完成物理学学士和工程物理学硕士学业,曾留学欧洲。2002年夏天经人介绍,认识了社科文献出版社谢寿光社长。正是那一年,谢寿光参加东京书展时发现“各种数字产品和纸质图书已平分秋色”;而且,“近年的法兰克福书展上,数字展品的比例也在不断提高,数字版权交易渐成主角。”
厦门大学哲学系77级毕业生谢寿光对大学时写论文抄卡片的繁琐记忆犹新,这位后来改行到社会学的出版人注意到,“国外许多著名的图书馆以及像亚马逊网上书店差不多已把世界几千年积累的纸质读物都转换成数据库了”,“数字时代的出版社已不仅仅是纸质图书出版商,而是内容提供商,是内容集成商。”
经过半年多的反复讨论,谢寿光向王宏源订制了一套叫“社科文献资源库”(SSDB)的技术平台,该社“从版式到最后出胶片之前那一套纸质的东西”,全都可以经高速扫描仪扫描而自动生成为全球通用的PDF格式,进而形成数据库产品。
2003年,通过王宏源的技术支持,谢寿光率先把该社“中国与世界经济社会发展”系列“皮书”(起始于1997年)进行数字化。配光盘销售的《经济蓝皮书》,“一张盘可以增加3.5元的赢利”,“更重要的是,终端客户要用真实身份注册以后才能得到序列号使用光盘,这样出版社留下了最珍贵的用户资料”。而《康熙字典》修订版的问世,不过是谢寿光和王宏源继SSDB皮书数据库(中国与世界经济社会发展数据库)和SSDB列国志数据库后最新的合作成果。
|