汉字基因工程
七、汉字基因工程
将前述的各种基因,利用现代化的科技,结合为一种
拟人的、可与人沟通的应用工具,此工程即可称之为“汉
字基因工程”。
除了沟通应用工具之外,若在商业立场,尚可开发出
无数种极具价值的消费产品,只是这些项目并不在本文讨
论范围。
汉字基因六大功能中,“字码”是建立在仓颉输入法
上的(其它输入法需要外加接口),可以当作文字索引使
用。尤其是在大量信息中,若要寻找某一类型、或某一笔
资料,文字索引的良窳,其效率的差异有天渊之别。
这是基于在设计仓颉输入法的时候,我已经把字义分
类考虑进去,以致在数据索引时,可以作双向比对。尤其
是字码采用三十二位技术,其中前五个位专供文字分
类,仓颉输入码占二十五位,可容约千万字,最后二位
元保留给子字集分类用。
子字集是为同码异类字的分辨,例如00类视作繁体
汉字,01为简体汉字,10为异体汉字,11为日文汉
字。是则虽然一字四码,各码不同,却统属同一平面,随
时可选择变换。
“字序”是文字索引的另一项武器,很多汉字内码没
有序列观念,必须外建序列表,或用笔画,或用部首。而
这两者都与人们的使用习惯没有直接关系,如果资料放置
方式没有直观的顺序,则完全没有效率可言。
“字形”所衍生之字库,可以彻底解决当前中文系统
文字不足与不能兼容的困境。目前完成之第六代中文字形
产生器,所占程序空间仅160KB,若仅用仓颉码则不
需储存任何代码页,有码即有字。再若增列对照码表,则
可容纳国标码、大五码、JIS码,ISO10646,
UNICODE等。每个字形皆可作各种大小及字体的变
化,在速度上,每秒钟可组成16*16之字形四万六千
个。
“字辨”有多种功能,除了文字辨识外,也有影像辨
识的基因在内。只是限于中文平台的机能,“字辨”尚须
配合其它硬件设施。
“字音”可供语音辨识及语音合成之用,任何一种汉
字输入法均须经过学习,推广不易。若用语音辨识输入,
效果最佳。同时,当理解系统完成后,再配以自然语言,
语音的辨识与合成更是不可或缺的工具了。
最后,也是最重要的,在于“字义”的应用。前面所
介绍的感觉、认识及思维基因,都必须有合适的“字义基
因”作为接口,是称理解。唯有在理解下的信息平台,才
具有真正的应用价值,而这种信息平台,也就是建立在汉
字基因上的“中文系统平台”。
此外,根据上述各种基因所发展的三维绘图系统,能
高速将文字经过理解后,转换成图片、动画,并能于每秒
钟显示含一万个画素的图形三十幅。
当今网络最大的瓶颈,在于频宽有限,而传输的信息
总是远远超过其容量。兹以六十分钟的影片计算,设剧本
为三万字,但以VGA全彩显示,计有120亿字符的影
像。如果在网络上传送,显然必导致壅塞,问题重重。如
利用本系统,则仅需传送字码,三万字仅为六万字符,传
输效率高达四十万倍以上。
我们再从设计的观点来看,当前各种微电脑的中枢
(Central Processing Unit ),其功能都以数学运算为
主,完全不符合汉字基因需求。因此,我们有必要另起炉
灶,重新设计一个以“理解”为主、采用RISC结构的
图形中枢。
目前全部汉字基因结构已经设计完毕,计有基因库、
人性库、常识库,以三十二位总线,计占1M系统空
间,组合程序512KB,其中包含免疫系统、辨识系统
、理解系统及概念网络等。另外,尚有若干特殊的硬件设
设,在此不赘述。
本平台仅为一种信息接口,专供人机沟通之用。计算机
功能发展至今,相当于一批高效率的专业机器,为了充分
发挥计算机功能,有必要设置若干计算机站,并以网络联接。
任何人都可以通过前述的中文系统平台,用语音或键盘,
命令理解系统,透过网络,搜寻各个计算机站的功能软件,
并作最完善的服务。
这种方式最有利于我国现状,只需要极少数的资金,
全国人民就可以享受最新信息的成果。此外,正当微软挟
其信息领域的独占优势,强行推广其窗口文化之际,举世
都战栗在其无餍的贪婪风暴之下。今天我们面临的并非第
三波的文化之争,而是金钱有限与无限的游戏,当微软的
财富攀上金字塔尖时,贫困者与信息的距离将更为遥远!
“汉字基因工程”是自然体系下、最接近真实的一种
技术。我个人虽竭尽心力,所能完成的着实有限,为了人
类、文化、国家、民族的福祉,特此藉这个机会,公诸于
众,期望大家群策群力,令汉字重放光芒。
(请见图一“功能说明”、图二“硬件结构”。)