用SRILM训练语言模型

注:这篇文章主要侧重于记录我在试用SRILM中遇到的问题。

1.安装

我的是系统是ubuntu 64位,参考了Ubuntu 64位系统下SRILM的配置详解

下载的版本是srilm-1.5.12。这个版本跟上面参考文章中的有所出入,主要是test文件夹的位置发生了变化,具体参看安装srilm的一点新变化

在安装过程中,我出现的问题有:

  • 安装依赖的软件包缺失。解决办法:下载安装或者使用sudo get-apt install 来批量安装软件包即可

  • 路径设置的错误,出现了莫名其妙的问题,主要是make World这部出现。

    解决办法:将home/user/srilm/中的user改成自己机器上的。这个很二的错误,浪费了我一个半小时的时间

2.使用

参考的文章是

我选取的训练语料是1998年1月份的分词标注的《人民日报》语料,然后对语料进行了简单的处理,主要是去除了词性标注和标点符号的处理,将句号等用换行代替,将引号等用空格代替。

然后得到了最后的语言模型。

在使用中,遇到的问题:

    • ngram-count命令的错误。解决办法:sudo ./ngram-count -text /home/qixin/srilm/corpus/text.txt -order 5 -write text.txt.count

注意:该命令是在~/srilm/bin/i686-m64$ 目录下,/home/qixin/srilm/corpus/text.txt也得使用完整路径。训练语言模型的时候同理。

 

发表评论

电子邮件地址不会被公开。 必填项已用*标注