“国杰教授那边呢?”周至对麦明川问道。
李国杰是负责曙光超算操作系统SNIX的,他们那边也有大字库的需要,因此也有一套班子,主要负责对这边的成果进行验证,其实主要就是白嫖。
但是蜀大也没有办法,因为为了提高工作效率,周至之前开发了一套文字识别系统,这个系统能够通过一系列的处理,将扫描的图像字转化为系统使用的矢量字,毫无疑问能够节约大量的人工劳动。
但是有个问题,就是非常消耗运算资源,蜀大的几台机子处理不了,这部分工作得交给曙光超级计算机来完成。
虽然部委和超算中心颇有以大欺小的嫌疑,毕竟设计思路和解决方案都是蜀大提出来的,超算中心只负责运算出成果而已,然而抛开这些不谈的话,这其实不亚于阿姆斯特朗登录月球的一步。
文科863工程项目也有了使用超级计算机的资格,周至这也算是给文理之间身后的隔阂撕开了一条缝隙。
“曙光很厉害。”说到这个麦明川也不得不服:“虽然分给我们的工作时间很少,但是采字工作已经全部完成了,就目前我们收集的七万多个汉字,已经全部完成了矢量化的工作。”
“不过配码工作老李不肯帮忙了,得咱们自己来水磨。”
“这个好办。”辜开来说道:“肘子根据我编字典的方法编写了一套计算机算法,能够将《汉语大字典》里的汉字,按照当时的编目规则,将文字自动转化成编码。”
“是吗?要有这个可就太方便了!”麦明川大喜:“我跟学校建议过对肘子进行特招,你们就是推挡。要干字库,正需要文理兼通的人才才行!”
“只是这套规则只处理了《汉语大字典》里的五万字。”周至说道:“而瀚文大字库一二级就是七万字,三级加上更是过十万了,还是需要结合识别系统里的字根与笔画识别功能,配合文字的读音和笔画,给矢量字配码才行。”
“给《汉语大字典》完成编码,用了多少时间?”
“在矢量字现成的情况下,采集字根,参考读音,分配编码。”周至笑道:“其实动作很快的,反倒是调试BUG和处理一些系统无法判定的存疑字,耗费的时间更多。”
“我用了两天时间完成了可行性实验,在个人电脑上能够做到五秒处理一个字。”
“那就省大事儿了!”王主任又惊又喜:“如此一来我们D日前按时交付产品,应该就没有问题了。”
麦明川现在觉得周至简直就是瀚文大字库工程的吉祥物,他一来工程就能够取得巨大的进展,这娃非常喜欢动脑筋,喜欢开发各种各样的程序来代替繁琐工作,从最早的手写字库,到字根笔画分析系统,识别系统,转换系统,再到现在的自动编码系统,常常使用蛮不讲理的方式,给理科生们撞开一条条宝贵的道路。
李红江团队下的人的确有些委屈,他们现在也渐渐明白了这个工程的本质,那就是它本身的确是一个文科项目,设计思路、理念、方法论,全都是文科的那一套,具体到了操作层面,才有理科生插手的余地。
说白了,这就叫管理层和打工仔的区别。