当前位置:首页 > 帮助

五笔输入法  帮助中心

冰凌五笔输入法之系统词库管理

一、简述

系统词库是输入法软件的基本组件,也是输入法编码方案的具体实现。其优劣不仅影响着输入法软件的性能,也影响着用户的输入体验。

冰凌五笔输入法系统词库以UCS-2字符集为核心,釆用分段索引结构和编码压缩技术,支持词条词频、构词规则定义和双向检索。不仅适用于86版、98版等五笔字型编码方案,而且适用于所有码元为a-z、码长为4-12、词长为1-15、字词为UCS-2字符集的输入法编码方案。具有体积小、容量大、检索快、效率高等特点。

冰凌五笔输入法系统词库不仅内置了五笔字型词库,还向用户开放了系统词库接口。用户通过导入导出、添加移除等管理功能,可自主打造个性化系统词库,也可转换挂接其他输入法词库。

二、定义

冰凌五笔输入法系统词库自定义的核心,是系统词库导入文件的编制。系统词库导入文件是一个结构严谨、内容精准的文本文件,有严格的格式和要求,编制时必须严格遵循。

1.文件格式

系统词库导入文件由文件头和词条区两部分组成,示例如下。文件头位于[CODETABLEHEADER]和[CODETABLE]之间,用于描述输入法编码方案及本词库的主要特征指标。词条区位于[CODETABLE]和文尾之间,用于编码及对应字词、词频的定义。

[CODETABLEHEADER]

Name=极爽词库6.0

Version=6.0.0.190521

Author=窝子

CodeScheme=五笔字型86版

PhraseRule=1

ChineseSet=2

CodeCount=94169

CodeLength=4

WordLength=13

WordFreq=1

Wildcard=z

Elements=abcdefghijklmnopqrstuvwxy

[CODETABLE]

a 工 12661

aa 式 12346

aaa 工 12661

aaaa 工 12661

aaaa 恭恭敬敬 693

aaaa 劳斯莱斯 166

aaaa 花花草草 64

aaaa 期期艾艾 45

aaad 工期 2248

………………

2.文件头定义

文件头采用Profile配置文件格式,一行为一项,等号左边为项名,等号右边为项值。分词库定义项和输入法定义项两类。

(1)词库定义项

词库定义项包括词库名称(Name)、词库版本号(Version)、词库作者(Author)、字符集(ChineseSet)、词条总数(CodeCount)、最大词长(WordLength)、词频标志(WordFreq)等。其中:

词库名称、词库版本号、词库作者的项值为不超过20个汉字或字符的字符串,具体内容由词库作者命制。

字符集项值标示词条中字词的用字字符集,0为GB2312-80字符集,1为GBK-1995字符集,2为GB18030-2000字符集,3为UCS-2字符集。

词条总数为词条区存贮的词条总数。

最大词长为每个词条中字词的最大汉字或字符数,推荐值为1-15。

词频标志标明词条中是否包含词频,是为1,否为0。

(2)输入法定义

输入法定义项包括输入法编码方案(CodeScheme)、输入法码元(Elements)、输入法最大码长(CodeLength)、输入法通配符(Wildcard)、输入法构词规则(PhraseRule)等,其项值由输入法编码方案决定。具体为:

输入法编码方案为输入法的名称,不超过20个汉字或字符。

输入法码元为参与编码的所有字符,取码范围为a-z,按字母升序排列。

输入法最大码长为编码的最大码元数。

输入法通配符为除码元之外的任一可打印字符,如果输入法没有通配符,则为0。

输入法构词规则项值为0,表明输入法没有构词规则,项值为1,表明输入法釆用黙认的(五笔字型)构词规则。项值大于1时,则代表输入法的构词规则条数,通常为输入法码长-1。

当输入法构词规则项大于1时,还要在输入法码元项之后[CODETABLE]之前定义具体的构词规则。具体格式如下的五笔字型构词规则所示:

pa2=w11+w12+w21+w22

pa3=w11+w21+w31+w32

pe4=w11+w21+w31+r11

等号左边为词名标识,如pa2、pa3、pe4分别为二字词、三字词、四字以上的多字词。等号右边为取码方法,每一项为一码。其中w为正向,r为反向,中间的数字为字序,右边的数字为码序。如w11为词组的第一个字的第一码,r11为词组的倒数第一个字的第一码。

构词规则必须按二字词、三字词……多字词的顺序定义,每条一行,字序和码序均使用小写十六进制数字。

3.词条定义

词条以行为单位定义。每条词条由编码、字词、词频三部分组成,中间以TAB字符分隔。

词频不是必须的,但如果不包含词频,会影响联想输入的候选顺序并使检索范围的设置无效。

词频不是绝对词频,而是经过平滑处理的相对词频,且要保证所有通用规范字词的词频大于255,其他字词的词频小于255,以满足检索范围的要求。

所有词条必须以编码字母升序为主,词频降序为副进行排序。

4.特别提示

冰凌五笔输入法系统词库以Unicode编码为基础,所以要求系统导入词库文件必须为Unicode文本文件(Windows记事本保存)。

冰凌五笔输入法系统词库导入文件的内容是大小敏感的,编制过程中要注意字母的大小写,避免错误。

冰凌五笔输入法系统词库导入文件的文字紧凑的,编制过程中要避免空格等隐性字符的间杂,特别要注意行尾的空格和TAB字符。

冰凌五笔输入法系统词库的编码字符和字词用字必须与文件头中定义的码元、字符集保持一致,特别是字词用字必须在UCS-2字符集内,否则会引起内部码表结构混乱。

三、管理

冰凌五笔输入法提供了系统词库管理对话框,可通过状态栏的功能菜单、开始菜单的“冰凌五笔”菜单项或Ctrl+[(Ctrl+Shift+[、Ctrl+Alt+[)快捷键打开。管理功能包括导入、导岀、另存、添加、移除等,具体为:

导入:将前述定义的系统词库导入文件导入输入法系统并作为当前系统词库。

导岀:将当前系统词库从输入法系统中导岀并保存为与前述系统词库导入文件格式结构完全相同的文本文件。

另存:将当前系统词库保存为二进制的码表文件,备份待用。

添加:将二进制码表文件添加到输入法系统并作为当前系统词库。

移除:将当前系统词库从输入法系统中删除。

冰凌五笔输入法最多可导入或添加九个系统词库,但当前系统词库只能是一个,用户可通过系统词库列表,选择和切换当前系统词库。