以句子为输入单位的计算机汉字编码及输入方法
(19)中华人民共和国国家知识产权局
(12)发明专利说明书
(10)申请公布号 CN 1152735 A
(43)申请公布日 1997.06.25
(21)申请号 CN95111179.5
汉字编码(22)申请日 1995.08.31
(71)申请人 李建设
    地址 221011 江苏省徐州市贾汪区夏桥新胜街林场巷46号
(72)发明人 李建设
(74)专利代理机构 南京市专利事务所
    代理人 张冀文
(51)Int.CI
      G06F3/023
                                                                  权利要求说明书 说明书 幅图
(54)发明名称
      以句子为输入单位的计算机汉字编码及输入方法
(57)摘要
      本发明涉及一种以句子为输入单位的计算机汉字编码及输入方法,现有的编码以字、词为输入单位,其法则记忆量大,重码率高。本发明将国标码定义为119个“形部首”、98个“音部首”,23个声母对应于英文键盘。输入句子时,第一个字、词按一定规则输入后,系统自动将上一字词的字符代入下一字词按一定规则组成六位码,循环到句子结束。本发明平均码为长1.4键,连续输入码长50码以上。本码以句子为单位的输入方法,同样适用五笔字型编码。
法律状态
法律状态公告日
法律状态信息
法律状态
权 利 要 求 说 明 书
1、一种以句子为输入单位的计算机汉字编码及输入方法,其特征在于: 
①将国标GB2312-80《信息交换用汉字编码字符集基本集》的部首分别定义为119个形部首、98个音部首:
                           音部首白、贝、比、匕、厂、车、次、臣、虫、寸、大、歹、丁、刀、耳、二、儿、缶、父、风、方、丰、工、弓、骨、艮、革、广、戈、禾、火、户、黑、己、金、臼、九、几、巾、斤、口、立、龙、力、木、母、麻、米、门、牛、女、鱼、爿、片、皮、疋、其、气、且、七、七、人、三、矢、尸、巳、山、四、石、手、身、土、田、子、止、执、竹、隹、舟、走、足、爪、王、韦、文、血、西、夕、小、穴、心、已、又、酉、
由、雨、明、羊 
                          形部首一、宀、冖、丶、灬、ク、卩、阝、扌、勹弋、 、刂、川、巛、幺、纟、髟、钅、匚、冂、口、凵、艹马、日、肀、彐、 、犭、 、目、月、亻、八、 、饣、衤、皿、士、十、丷、 廿、艹、廾、豸、豕、爫、攵、夊、彳、忄、衤、廴、厶、乙、辶、讠、亠、言、冫、丬、疒水、氵、 、彡
②Zh、Z、Ch、C、Sh、S用V、C、S字符代替:
③″;″、″,″、″.″、″/″作为识别码,它们分别是:“;”即上下,“,”左右,“.”内外,“/”杂合;
④119个形部首、98个音部首、23个声母与英文键盘的对应位置是:
⑤引句信息阶段编码的规则:
单字:声母+首笔码+第二笔码+末笔码不足四码的字加打识别码;不认识的字声母不打,直接(或接?键)取码:第一码在″;″、″,″、″.″、″/″字符键位上时,由″Z″代替第一码:
双字词:第一音节声母+第二音节声母+第一音节首笔码+第二音节首笔码;
前后字相同的双字词:第一音节声母+第二音节声母+第一音节首笔码+第一音节第二笔码;
三字词:第一音节声母+第二音节声母+第三音节声母+单引号;
四字词以上:第一音节声母+第二音节声母+第三音节声母+末音节声母;
⑥组句信息阶段的编码规定:
单字:上一汉字字符代入+声母+部首;
双字词:上一汉字字符代入+第一音节声母+第二音节声母;
三字词:将三字词看作词组+单字的组合,按词组声声、单字声形输入。
说  明  书
本发明涉及一种以句子为输入单位的计算机汉字编码及输入技术。
目前,国内外汉字编码法从第一代以单个汉字为单元的拼音或拼形汉字编码输入、第二代以字为基础,词为主导音形结合,字词一体高频先见智能处理发展到第三代利用前后文章的相关联系,智能处理的输入方法,不下几百种。其中真正推广开来的有五笔字型和自然码。自然码是采用声韵编码方式,五笔字型是按被编码的汉字字型结构和书写顺序作为编码依据,把汉字定义为五种笔划拼型而成。以上两种编码主要以字词为输入单位。
现有技术的不足之处在于:五笔字型采用纯形编码法,拆字难,易出错误,必须要记忆许多规则和特殊汉字的编码,增加了记忆量,解决重码只能高频先见,二级简码难记忆,三级简码利用率低。自然码采取声韵方法,虽增加了智能处理,降低了重码率,但二级简码(声声)和原编码思想(声韵)不一致,三级简码利用率低。两种编码共同存在着的缺陷是:减少记忆量,则重码增加,若减少重码则编码规则多。不适应以句子为单位的汉字输入,不利于计算机的普及推广使用。
本发明的目的是:针对以上问题,本编码突破众多的四位码长编码思路,以四码库作引句(基本库),通过计算机系统的处理以六码库作为组句。即计算机系统自动地将第一个字或词的声母字符,代入第二个字词的字符中,组成六个关联的声母字符在六码库(智能库)中组词匹配,
然后截取前一个字四个连续声母字符代入下一个字词的声母字符组词匹配。直到句子结束为止。从而可以达到以句子输入为主,以字词输入为辅的目的。
在四码库的引声识形基础上,将四码库内容代入并和下一个字词的两个字符组成六位码,经过计算机系统自动处理,用六码库(智能库)中大容量的字词编码,进行逻辑匹配组句。利用本技术编码的27000个字、词、难字在四码库内混打组词,其静态重码率仪为0.2%,动态重码率为零。在六码库中可容纳(23×23×23×23×23×23)=14803万个编码。因此,以句子为单位输入的技术方案是可以达到的。本方法分为两个过程:第一阶段为输入引句信息阶段,第二阶段为输入组句信息阶段。输入一个句子,只要第一个字、词的字符键入计算机后,以后的字、词均由智能库将前一字、词代入或截取四个字符和后一字、词的两个字符,进行逻辑匹配。如此循环下去,直到句子结束。第一个阶段只是开始时使用,以后均为第二阶段运行。本发明的引句信息规则是:将国标GB2312-80《信息交换用汉字编码字符集基本集》的全部部首217个按“形部首”、“音部首”分为两类。详见图一。对每个音部首,其代表符就是它的读音声母,如金(J)、火(H)、士(T)。对每个形部首,其代表符是用对应的在形状上与部首读音、笔画读音、字母相象的作代表符。如攵(W)、丨(S)、廴(Z)、丿(/)。全部汉字的声母,有23个对应键盘英文字母,Zh、Z、Ch、C、Sh、S分别用V、C、S符代替。“;”、“,”、“.”
、“/”作为字的组合结构识别码。6763个通用汉字的编码方法和操作方法是:字:声母+首笔码+第二笔码+末笔码,不足四码的加打上下(;)、左右(,)、内外(.)、杂合型(/)的字符进行识别。不认识的字:声母不打,直接(或按?键)取码,第一码如是在“;”、“,”、“.”、“/”字符键位上时,由“Z”代替第一码。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。