生成mdx词库的工具,mdx转换软件MdxBuilder,含stardict辞典转换工具,在使用MdxBuilder制作词库时,将Data路径指向上面存放数据的目录,该目录中的所有文件都会被压缩到后缀名为.mdd文件中,使用时该.mdd文件应当与.mdx文件在同一目录下。
MdxBuilder使用方法教程
转换程序支持格式:
1) 扩展的SugarDict格式:
每个项目(词条)一行,缺省最大为32K. 格式为: 关键字
解释(就是关键字和解释之间用空格分开)
关键字: 可以是大小写的组合, 每个单词的最大长度是255个字符。
关键字和解释中的'_', '^'在转换后会被替换成空格和回车
例子:
break_through /'bri:k_MQru:/ ^v. 突破^n. 突破
good ^adj.好^adj.贼好^adj.好得不得了
2) KDict解码后的tab格式
每个条目一行,关键字和解释之间用"tab"分隔. 其中的"n"会被转换成换行
例如:
good adj.好nadj.贼好nadj.好得不得了
3) MDict的html格式
每个项目两行
第一行是关键字
第二行开始是正文, 这里的正文应该包括关键字。可以使用html的标记(不要包含<html>
<body></body></html>, 这个程序会自动加上, 另注意在转换时要指明源数据为html).
如果需要显示音标的话,可以利用html指定字体就可以显示了。(参见下面的例子)
正文结束后必须用一行</>表示结束
例子:
Whole
<font size=5>whole</font>
<br>
<font face="Kingsoft Phonetic Plain, Tahoma">(hol,hJl; houl)</font>
</>
在html中连接到其它关键字的方法:
<a href="entry://key#section">key</a>
其中key是关键字,section是对应关键字页面中的section名称.
4) MDict的紧凑型html格式(Compat Html)
这个格式由两个文件组成,正文文件格式基本和2)一样,但在正文里可以使用记号。另外
一个是记号文件。
记号文件的格式:
由多个记号定义组成,每个记号定义有3行
第一行: 记号的名称(只能用数字,必须大于0,最大不超过255)
第二行: 开始字符串(可以为空)
第三行: 结束字符串(可以为空)
使用时在正文里使用`记号`(键盘左上角的那个符号)就会将后续的文字直到下一个记号前的文
字用记号定义的开始字符串和结束字符串括起来。正文里如果需要显示` 则用"`"表示。内
码应该和正文的一样(例如正文如果是用Unicode的话,记号文件也应该用Unicode)
例如:
记号文件:
1
<font size=5>
</font>
2
<br>
3
<font face="Kingsoft Phonetic Plain, Tahoma">
</font>
正文文件:
whole
`1`whole`s`2`<p>`3`(hol,hJl; houl)
</>
最后在显示的时候就会被替换成
<font size=5>whole&#%96;s</font><br><p><font face="Kingsoft Phonetic Plain, Tahoma">(hol,hJl; houl)</font>
备注:
如果你的数据里含有国际音标,建议使用Unicode格式
(请参考http://www.phon.ucl.ac.uk/home/wells/ipa-unicode.htm)
将音标用对应的Unicode进行表示。这样只要用户装有支持IPA的字体文件就能够显示音标。
(Windows里的Lucida Console就包含有IPA对应的字体)
MdxBuilder关于选项的说明:
a) Key case sensitive
关键字(标题)是否大小写敏感。多数情况下词典是大小写不敏感的,所以不要选。
b) Allow export to text
是否允许导出为文本。如果选了,就可以用MdxExport这个工具吧词典导出为文本格式。
c) Right to left text
文字的阅读顺序。中文是从左到右,阿拉伯文之类的是从右到左。
d) Strip key
是否去掉关键字中的特殊符号。例如21世纪词典里的关键字是显示成"lis.ten" 这个样子的,如果不去掉".",则用户需要输入"lis.ten"而不是”listen"来查询单词。
e) Title
这个是用来标示词典的名字,计划将来在需要显示词典名称的地方进行显示用的。但目前暂时没有用处。
f) Description
词典的详细介绍。第一次打开词典时看到的欢迎页面。
g) Build Data archive
仅进行数据文件制作。主要是用来制作图库,声音库时用。勾选后就不用填写Source路径。
h) Index block size,Record block size. 这两个是调整性能用的,用缺省值就好了。
i) Encryption Key
词典加密的密匙,用于词典授权用的。可以参见MdxBuilder.zip里的LibKeygen.txt的说明
注意事项:
1、图片链接最好使用 <img src=file:///1/1.jpg> 这样的格式
2、转换出错一般是标题位置有多余的空行
如:
词条1标题
词条1内容
</>
词条2内容
</>
3、mdxbuilder处理转换后的mdx文档大小应在4G以下