当前位置:首页 > 帮助

五笔输入法  帮助中心

冰凌输入法系统词库管理

系统词库

● 系统词库是输入法软件的基本组件,也是输入法编码方案的具体实现。其优劣不仅影响着输入法软件的性能,也影响着用户的输入体验。

● 冰凌输入法系统词库以GB18030字符集和Unicode编码为核心,支持词条词频、构词规则定义和双向检索。不仅适用于86版、98版等五笔字型编码方案,而且适用于所有码元为a-z、码长为4-12、词长为1-31的输入法编码方案。具有体积小、容量大、检索快、效率高等特点。

● 冰凌输入法系统词库不仅提供了内置词库,还向用户开放了系统词库接口。用户通过导入导出、添加移除等管理功能,可自主打造个性化系统词库,也可转换挂接其他输入法词库。

词库定义

● 冰凌输入法系统词库是一个结构严谨、格式严格的文本文件,其由词库头和码表两部分组成。下图为词库格式示例,左边为冰凌输入法内置的86版五笔词库的格式,右边为郑码词库的格式。

五笔输入

➢ 词库头定义

● 词库头位于[CODETABLEHEADER]和[CODETABLE]之间,用于描述输入法编码方案及本词库的主要特征指标。一行为一项,等号左边为项名,等号右边为项值。

● 词库名称(Name)、词库版本号(Version)、词库作者(Author)定义词库的属性,项值为不超过20个汉字或字符的字符串,由词库作者命制。

● 输入法编码方案(CodeScheme)为输入法的名称。名称包括全称和简称,名称是必须的,简称是可选的。简称位于全称之后,以[]括起来且不能多于5个汉字或字符。名称总长度不得超过18个汉字或字符,包括全称、简称及括号。

● 输入法最大码长(CodeLength)为输入法编码的最大码元数,由本词库所采用的输入法编码方案决定。

● 输入法构词码长(BWCodeLength)为输入法组词编码的码元数,由本词库所采用的输入法编码方案决定。如果输入法编码方案没有单独的构词码,应设为0。

● 特殊符号前缀(SpecialPrefix)为词库中特殊符号编码的前缀引导,其必须为两个小写字母,如果词库中没有定义特殊符号,则为0,由词库作者在词库制作中定义。

● 输入法构词规则(PhraseRule)为输入法组词的规则。其值为0,表明输入法没有构词规则。值为1,表明输入法釆用黙认的(五笔字型)构词规则。值大于1,则为输入法的构词规则条数。

● 当输入法构词规则大于1时,还要在输入法构词规则项之后定义具体的构词规则。格式如上图右边的郑码词库所示,具体定义方法如下:

● 等号左边为词组标识,如pa2、pa3、pe4分别为二字词、三字词、四字及四字以上的多字词。其中第二个字母为e时表示多字词,后面的数字表示词组的字数。

● 等号右边为取码方法,每一项为一码。其中w为正向,r为反向,中间的数字为字序,右边的数字为码序。如w11为词组的第一个字的第一码,w22为词组的第二个字的第二码,r11为词组的倒数第一个字的第一码。

● 构词规则必须按二字词、三字词……多字词的顺序定义,每条一行,字序和码序均使用小写十六进制数字。

➢ 码表定义

● 码表位于词库头之后,即[CODETABLE]之后,由若干个词条组成,每行一个词条。词条由编码、字词、词频三部分组成,中间以一个TAB字符分隔。重码必须分词条定义,一个重码一个词条。所有词条最好以编码字母升序为主,词频降序为副进行排序。

● 编码应符合输入法编码方案的编码规则,长度不能超过CodeLength。如果该字有构词码,则将构词码放在编码之后,中间以/分隔。如果该词条的编码为容错码,可在编码后面加一个*号,以示区别。

● 字词可以是GB18030字符集的任何汉字或符号,也可以是所有可打印的英文字符或TAB、回车字符(其中TAB字符应使用\t,回车字符应使用\r),长度不能超过31个字符。

● 词频不是必须的,但如果不包含词频,会影响联想输入的候选顺序并使检索范围的设置无效。词频不是绝对词频,而是经过平滑处理的相对词频。且要保证所有通用规范字词的词频大于等于256,小于等于1073741822。其他字词的词频大于等于0,小于等于249。

➢ 特殊符号词条定义

● 特殊符号词条包括特殊符号菜单词条和特殊符号词条两种,其格式与常规词条定义一致,只是有一些特殊要求。如果词库头中的SpecialPrefix值为0,则不能定义特殊符号词条。特殊符号词条定义后应放入码表,与常规词条一起排序。

● 特殊符号菜单词条的编码为词库头中的SpecialPrefix值,字词则为菜单项。其中菜单项中可包括该组特殊符号的编码、该组特殊符号的简称(必须放在中文圆括号中)及该组特殊符号示例。

● 特殊符号词条的编码前两位为词库头中的SpecialPrefix值,后面为特殊符号的编码,字词部分则为所要定义的特殊符号。

● 对于多个特殊符号菜单项和编码相同的特殊符号,应按重码分条定义。

● 特殊符号菜单和特殊符号词条的词频不是必须的。如果其他词条不包含词频,特殊符号菜单和特殊符号词条也应不包含词频。否则,它们的词频也应大于等于256。

● 下图为冰凌输入法内置的86版五笔的特殊符号词条定义示例,前面为特殊符号菜单词条,后面为部分特殊符号词条。

五笔输入

➢ 日期时间词条定义

● 日期时间词条其实是一种变量词条,格式与常规词条定义一致,只是字词部分为日期时间变量。日期时间词条定义后应放入码表,与常规词条一起排序。

● 日期时间词条的编码由词库作者定义,长度不能超过CodeLength。

● 日期时间变量由$引导变量字符组成日期时间串。其中变量字符包括n(年份小写)、y(月份小写)、q(前天日期小写)、z(昨天日期小写)、r(今天日期小字)、i(明天日期小写)、h(后天日期小写)、s(当前时小写)、f(当前分小写)、m(当前秒小写)和N(年份大写)、Y(月份大写)、Q(前天日期大写)、Z(昨天日期大写)、R(今天日期大字)、I(明天日期大写)、H(后天日期大写)、S(当前时大写)、F(当前分大写)、M(当前秒大写)、W(当前星期)。

● 日期时间词条的词频也不是必须的。如果其他词条不包含词频,日期时间词条也不应包含词频。否则,它们的词频必须大于等于256。

● 日期时间词条中的年月日时分秒等单位符或分隔符可以依据需要设置,但在词条输出时不进行转换,原样输出。

● 下图为冰凌输入法内置的86版五笔词库中定义的部分日期时间词条。其中词条中的02,表示变量代表的数值为两位,不足两位前面补0。如果为02n,则代表两位年份。

bday
$n$02y$02q
256
bday
$n-$02y-$02q
256
bday
$n年$y月$q日
256
bday
$n年$02y月$02q日
256
bday
$N年$Y月$Q日
256
bday
$n.$02y.$02q
256
bday
$n/$02y/$02q
256
bday
$q日
256
bday
$02q日
256
bday
$Q日
256
yday
$n$02y$02z
256
yday
$n-$02y-$02z
256
yday
$n年$y月$z日
256
yday
$n年$02y月$02z日
256
yday
$N年$Y月$Z日
256
yday
$n.$02y.$02z
256
yday
$n/$02y/$02z
256
yday
$z日
256
yday
$02z日
256
yday
$Z日
256
day
$n$02y$02r
256
day
$n-$02y-$02r
256
day
$n年$y月$r日
256
day
$n年$02y月$02r日
256
day
$N年$Y月$R日
256
day
$n.$02y.$02r
256
day
$n/$02y/$02r
256
day
$r日
256
day
$02r日
256
day
$R日
256
tday
$n$02y$02i
256
tday
$n-$02y-$02i
256
tday
$n年$y月$i日
256
tday
$n年$02y月$02i日
256
tday
$N年$Y月$I日
256
tday
$n.$02y.$02i
256
tday
$n/$02y/$02i
256
tday
$i日
256
tday
$02i日
256
tday
$I日
256
aday
$n$02y$02h
256
aday
$n-$02y-$02h
256
aday
$n年$y月$h日
256
aday
$n年$02y月$02h日
256
aday
$N年$Y月$H日
256
aday
$n.$02y.$02h
256
aday
$n/$02y/$02h
256
aday
$h日
256
aday
$02h日
256
aday
$H日
256
time
$02s:$02f:$02m
256
time
$02s时$02f分$02m秒
256
time
$S时$F分$M秒
256

➢ 命令直通车词条定义

● 命令直通车词条也是一种变量词条,格式与常规词条定义一致,只是字词部分为命令变量。命令直通车词条定义后应放入码表,与常规词条一起排序。

● 命令直通车词条的格式为:<编码><TAB符>$C<命令名称>^<命令路径文件名>[^命令参数][TAB符][词频]

● 其中:编码为a-z组合,长度不超过CodeLength。命令名称是命令直通车的标识,显示于候选框的候选项,其后带有Ⓒ标志。命令路径文件名为命令直通车运行的文件及其路径,如果该文件的路径没有包含在系统环境变量内,则需要完整的路径文件名。命令参数为该命令执行时需要的参数,其为可选项。其他符号为命令引导符或分隔符,必须保持原样。

● 命令直通车词条的词频不是必须的。如果其他词条不包含词频,命令直通车词条也不应包含词频。否则,它们的词频必须大于等于256。

● 为了方便用户定义命令直通车词条,冰凌输入法提供了命令词条编辑器,可通过功能菜单打开使用。

● 下图为冰凌输入法内置的86版五笔词库中定义的部分命令直通车词条。

五笔输入

➢ 词条备注定义

● 词条备注是对词条的一种注释或说明,其只显示于候选框的候选项之后,并不会随候选项被提交上屏。

● 词条备注的定义格式为:<编码><词条>[[备注]][TAB符][词频]。

● 词条备注其实和普通词条是一样的,只是在词条后面将备注的内容用[](半角方括号)括起来即可。词条备注不是必须的,内容也没有固定的要求,但字符数应控制在32个以内。

● 下列为几个词条备注的例子,仅供参与。

    yac  °[摄氏度]

    guyy ²[平方]

    fggh 干[二一一丨]

    aaaa 工[gōng]

➢ 词条标注定义

● 词条标注是对某些特殊词条的一种标注,其以特殊符号作为标注符,显示于候选框的候选项之后,并不会随候选项被提交上屏。

● 词条标注的定义格式为:<编码><词条>[<标注符>][TAB符][词频]。

● 词条标注其实和普通词条是一样的,只是在词条后面将标注符用[<>](半角方括号和尖括号)括起来即可。其不是必须的,标注符和标注含义由用户赋予。

● 下列为几个词条标注的例子,仅供参与。

    a    工[<○>]

    aa   式[<●>]

    aaa  工[<□>]

    aaaa 工[<■>]

➢ 特别提示

● 冰凌输入法系统词库支持所有Windows文本文件。

● 冰凌输入法系统词库文件的内容是大小敏感的,编制过程中要注意字母的大小写,避免错误。

● 冰凌输入法系统词库文件的文字是紧凑的,编制过程中要避免行首行尾的空格或TAB等隐形字符。

● 前述的各种词条定义格式和方法,也适于用户词条,可通过在线造词或用户词条定义对话框定义。

词库管理

● 冰凌输入法提供了系统词库管理对话框,可通过“冰凌输入法 设置”对话框的“系统词库管理”项打开。管理功能包括导入、导岀、添加、移除、切换等,具体为:

● 导入:将前述定义的系统词库文件导入输入法系统并作为当前系统词库。

● 导岀:将当前系统词库从输入法系统中导岀并保存为与系统词库文件。

● 添加:将官方提供或用户备份的码表文件添加到输入法系统并作为当前系统词库。官方提供的码表文件添加后,输入法的功能菜单、属性设置对话框中的“主码”等字样会被具体的输入法名称所替代。

● 备份:将当前系统码表从输入法系统中导出并保存为码表文件,其中包括系统词条、用户词条及各类调频调序数据。

● 移除:将当前系统词库及其用户词条、调频调序数据等全部删除。删除后的词库不可恢复,因此必须谨慎操作。

● 置换:包括拼音词库置换和英文词库置换。用户可以自行定义拼音词库和英文词库,然后通过“置换拼音词库”或“置换英文词库”将系统的拼音词库或英文词库替换为自己的。其拼音词库和英文词库的格式及定义方法与前述的系统词库的格式及定义方法相同。需要注意的是词库头中的BWCodeLength、SpecialPrefix、Wildcard、PhraseRule项应设置为0。词条不设词频,最好按编码字母升序排序。

● 切换:冰凌输入法可导入或添加多个系统词库,但当前系统词库只能是一个,用户可通过系统词库列表,选择和切换当前系统词库。也可通过状态栏的功能菜单快速切换系统词库。