加载中,请稍候…

资讯 英语
舍得茶室 方法
SuperMemo Rosetta
TellMeMore Aboboo
课程 视频
软件 电子书
学苑 博客
空间 微博

SuperMemo2006之词库制作篇(中)

2009-10-28 09:25:22   来源:舍得新浪博客  作者:舍得

  经过前面的一番工作,现在你的系统里应该装上了EmEditor,同时手头也有了一份转换好的“Tab格式”的文本了。好,让我们开始下一步的转换工作。

  

 

三、格式整理

 

 

1.用Emeditor打开Tab文本(我这里所用的文件是2006研究生入学考试大纲的词库):

 

 

2.打开“搜索->替换”菜单:

 

3.在查找的文本框里输入:^([a-z])

在替换的文本框里输入:Q: 1

勾选“使用正则表达式”选项,点击全部替换按钮。

这一步的作用是将每行的行首前加上“Q:”,表示这一行将成为“提问栏”的内容。

注意:“Q:”和1之间加个空格

 

 

要点讲解:

·
“[a-z]”是用来表示所有的英文字母(在“区分大小写”选项未选取的情况下,否则则是表示全部的小写英文字母);

·
前后分别加上“(”和“)”则是用来在替换的时候,被圆括号括中的部分可以用“1”原封不动地保留下来。

·

用了“^”符号就是告诉程序你要找的是行首,而非其他地方。

·

替换一项中,“1”就是把上面的“([a-z])”给放回原处,“Q:
”则是我们要在行首加入的内容。

 

4.在查找的文本框里输入:t[

在替换的文本框里输入:

[<font face="Kingsoft
Phonetic">

注意在“[”前加一到两个空格,这是控制单词和音标之间的间距

点击全部替换按钮。

 

 

要点讲解:

·
“t”代表的是Tab制表符,注意它与空格是不一样的,这也正是我们当初选择保存成“tab文本”格式的原因之一;

·
“[”代表符号“[”。在正则表达式中,有十来个这样的符号是需要前面加“”才能匹配本身的字符的。“t[”组合在一起,从这个文件看来它每一行只有唯一的一处,这是使用正则表达式来进行批量替换的一个重要思路:你得想办法从源文件中找出规律来。没有规律就无法进行批量处理。而你对正则表达式掌握的愈熟练,你所能发现的规律也就愈多。

·

替换部分就相对简单了:“

[<font face="Kingsoft
Phonetic">”,这里的“[”不再需要加“”,“<font
face="Kingsoft
Phonetic">”和后面的“</Font>”正好是一对,表示把它们中间的字符用Kingsoft
Phonetic这种字体来显示。

如果你在转换的时候,选择的音标是金山词霸格式的,那音标的显示应该是这样的(以abandon这个词为例):[E5bAndEn],此时你的系统里应装上Kingsoft
Phonetic这种字体。如果选的其他格式,则要用到另外的字体,比如PGY Symbol。本文我们仅以金山词霸的音标格式为例。

 

5.在查找的文本框里输入:]t

在替换的文本框里输入:</font>]nA:

(注意“A:”后要也加个空格,否则回答栏的第一个字母将会消失)

点击全部替换按钮。

友情提醒:要想正确显示音标,系统里得安装Kingsoft
Phonetic字体(网上搜索一下,这里舍得就不提供了,汉化版推出的时候,舍得会把几种常用的字体一并加入)。

 

要点讲解:

·
]t和前面的内容几乎一样,不再赘述。

·

讲讲替换部分“</font>]nA:”,“</font>”和前面的“<font
face=”Kingsoft
Phonetic”>”正好是一对,“n”表示在这之后加上一个回车符,而“A:
”则是告诉SuperMemo这一行是回答栏用的。

替换好后目前是这个样子:

 

 

 

四、编码转换

 

1.然后打开Emeditor的“工具->所有设置的属性”菜单,转到“文件”选项卡:

 



·

点击“正在保存”按钮,在弹出的“保存详细信息”对话框中勾选第二项:“保存Unicode为Html/Xml引用”,然后点击确定,关掉“所有设置属性”对话框,返回到Emeditor。(注:如果第一项也勾选的话,就会在下一步中出现是否“继续按当前编码保存”的对话框

 

2.打开“文件->另存为”菜单,弹出如下对话框后选定保存位置,输入文件名。然后在编码后的下拉列表框中选择“中欧ISO(28592,ISO-8859-2)”,点击“保存”按钮:

 

·

弹出对话框,保持默认的“继续按当前编码保存”不变,点击“确定”按钮继续。(注:如果在第6步“保存详细信息”对话框中未勾选第一项的话,那么这一步不会出现)

 

·

最后转好的效果如下:(如“&#24120;”就是“常”字的unicode编码,大家把它粘到google的搜索框中,点击搜索后google会自动将它转换成中文。)

这样我们的词库就制作完毕了,大家可以重新打开这个文件就可以发现,所有的中文已经被转为Unicode码(是那种“&#+五位数字+分号”的形式)。只有这种Unicode码的中文才能被PC版的SuperMemo识别。所以第

6、7步是关键。如果不进行转换,直接存为Utf-8或UTF-16LE之类的编码的话,可以有少量词条被导入SuperMemo,但大部分词条是无法导入的,大家可以尝试一下。

 

怎么样,够简单吧?马上动手去操作吧!舍得说得再好,图文再详尽,你不去实际操作几回,这东西还不能算是你的。等你操作熟练了,这项技能才能给你的工作带来更多的便利。

请大家期待“词库制作篇”的下篇,最迟后天凌晨前推出。那时舍得会讲另一个实例,更深入地讲解正则表达式在词库整理中的应用。此外,舍得在下篇还会跟大家分享一下EmEditor中宏的应用,录好宏后,这里用到的替换只要按一个按键就可以全部完成。别把它们想得太复杂,跟写程序比起来,这连毛毛雨都算不上。跟着舍得的Step
by Step系列的文章,加上你自己的实际演练,就算你是个电脑菜鸟,也能够学会这种“高级”的技术。

 



【TAGS】

【相关文章】 无相关信息
来顶一下
返回首页
返回首页

 分享: 分享到QQ空间 转贴到开心网 分享到校内网 添加到百度搜藏 Sina ViVi 添加Google书签 Yahoo收藏 添加到鲜果 转发到新浪微博 我要评论】【进入论坛】【社区空间
发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表
关于我们 | 诚聘英才 | 友情链接 | 联系我们 | 意见反馈 | 网站地图 | 版权申明 |
舍得学苑 备案号:冀ICP备11024081号-1
Copyright © 2009-2015 eMagic.org.cn, All rights reserved.