解决ubuntu中gedit打开文本异常及乱码问题

今天用ubuntu的gedit打开语料出现了Invalid byte sequence in conversion input这个错误提示,经过百度,最终解决了,方法如下(也同样适用于乱码问题):

1.在local中添加中文编码

文件路径如下:var/lib/locales/supported.d/local

在终端中用该命令行:sudo gedit var/lib/locales/supported.d/local打开

在其后追加:

zh_CN.GBK GBK
zh_CN.GB2312 GB2312
zh_CN.GB18030 GB18030

接着输入命令行sudo dpkg-reconfigure locales 使刚才的配置生效

2.暗自

安装dconf-editor,命令行为:sudo apt-get install dconf-editor,

3.修改dedit编码设置

输入dconf-editor进入其中,依次点击org/gnome/gedit/preferences/encodings,看到如下图界面:

2014-11-20 22:53:24 的屏幕截图

将’GB18030′分别添加在如图位置中。注意:auto-detected必须位于“CURRENT”前面。

现在就可以愉快的使用gedit了。

由strip()函数所想到的

晚上的时候,在写一个python小脚本,从语料中提取出转折复句。结果在提取的转折复句里面,出现了大量不是转折复句的,而且还有许多转折复句并没有被提取出来。这个程序很简单,就是一个for循环里用个if语句。我花了一个小时半去找原因,最后还是问了别人才找到了原因。

以前看别人写代码,总是会在进行语料分析之前,经常使用strip()函数。我知道这是一个去除段首段尾空白字符的,包括回车、空格、制表符等。但是,从没留意过为什么要这样做,觉得是可有可无的习惯性操作。现在才算明白了。如果文本中含有大量的空白字符或者换行符,会产生莫名其妙的问题。

strip()函数,可以去除字符串首尾的空白,但不能去除中间的。对于语料来说,有必要用readlines()读取语料后逐行去除。这应该算是一个很好的习惯,可以保持语料的整齐和干净。

我想,我还是写的代码太少。

用python实现线性回归算法

最近开始在mooc上看吴恩达的《机器学习》课程,由于在线作业一直不能提交,总是提示错误,倒腾了一下午还是没能成,只好作罢。幸好手边有《机器学习实战》这本书,于是就用python来学习实现课程里面的算法。吴恩达的课程学习的第一个算法是线性回归,于是,我就开始看先学怎么写这个。

1.1理论部分:

回归的目的就是预测数值型的目标值。例如,你想要预测姐姐男友汽车的功率大小,公式如下:

线性回归-汽车功率

 

这个方程就是回归方程(regression equation),其中的0.0015和-0.99称作回归系数(regression weights),求这些系数的过程就是回归。 (更多…)

『转载』机器学习入门资源不完全汇总

原文链接 http://ml.memect.com/article/machine-learning-guide.html

 

基本概念入门攻略课程资源论坛网站东拉西扯

2014-10-14版, 好东西传送门编辑整理, 原文链接 http://ml.memect.com/article/machine-learning-guide.html

感谢贡献者: tang_Kaka_back@新浪微博

欢迎补充指正,转载请保留原作者和原文链接。 本文是 机器学习日报的一个专题合集,欢迎订阅:请给hao@memect.com发邮件,标题"订阅机器学习日报"。

基本概念

机器学习 机器学习是近20多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。机器学习算法是一类从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。因为学习算法中涉及了大量的统计学理论,机器学习与统计推断学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。 (更多…)

『转载』Python函数式编程指南(三):迭代器

作者:AstralWind

原文地址:Python函数式编程指南(三):迭代器

3.1. 迭代器(Iterator)概述

迭代器是访问集合内元素的一种方式。迭代器对象从集合的第一个元素开始访问,直到所有的元素都被访问一遍后结束。

迭代器不能回退,只能往前进行迭代。这并不是什么很大的缺点,因为人们几乎不需要在迭代途中进行回退操作。

迭代器也不是线程安全的,在多线程环境中对可变集合使用迭代器是一个危险的操作。但如果小心谨慎,或者干脆贯彻函数式思想坚持使用不可变的集合,那这也不是什么大问题。

对于原生支持随机访问的数据结构(如tuple、list),迭代器和经典for循环的索引访问相比并无优势,反而丢失了索引值(可以使用内建函数enumerate()找回这个索引值,这是后话)。但对于无法随机访问的数据结构(比如set)而言,迭代器是唯一的访问元素的方式。 (更多…)

浮躁

听着许巍的《浮躁》,心也跟着躁动。似乎每个季节,每个时刻,都不曾平静,不曾心寂。一直都是感受到了太多的重量,太多的困扰。

又一个月的月底了。月底,通常伴随着手机流量的耗尽和对这个月没有所成的惋惜,并且会下定决心,在下个月的时候,好好痛改前非,静心做事。事实上,每次都这样跟自己说,每次都陷入了循环的惯性。

当我怀揣理想,想要做许多事情,去击败世界的时候,我却首先被我自己打败了。自作孽,不可活。我却仍这样活着。这不是我想要生活,也不应该是我现在的生活。我有能力,有梦想,却缺少持续梦想的激情。有时候,这样的激情,就像是黑夜的烟花,绽放时很美。烟消人散之后,却早已不知了去向。

我一直都觉得,人应该随心活着,而不是随性活着。随心与随性之间,我难以把握。随心很难,大多数当我随性的时候,我自以为自己是随心的。只有黑色的帷幕落下,人间的喧闹逐渐趋向了静音,我才能真切的感觉到自己的内心世界。白天,它是沉寂着的,晚上,它奔放的燃烧着。以前我时常失眠的时候,我就想,要是在晚上上课考试多好。

歌声消散之后,我的心也从浮躁中脱离。又开始憧憬着明天要怎样怎样。我想,我可真成了重度拖延症患者。也许,我们组成了这个世界的拖延症还这群。但我却渴望着从这么庞大的群体里出来,在尽力挣扎着。

『转载』Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

本文转自“我爱自然语言处理”:www.52nlp.cn

原文链接:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘

 

曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程图谱也是选择了Python系的Flask框架,渐渐的将自己的绝大部分工作交给了Python。这些年来,接触和使用了很多Python工具包,特别是在文本处理,科学计算,机器学习和数据挖掘领域,有很多很多优秀的Python工具包可供使用,所以作为Pythoner,也是相当幸福的。其实如果仔细留意微博,你会发现很多这方面的分享,自己也Google了一下,发现也有同学总结了“Python机器学习库”,不过总感觉缺少点什么。最近流行一个词,全栈工程师(full stack engineer),作为一个苦逼的创业者,天然的要把自己打造成一个full stack engineer,而这个过程中,这些Python工具包给自己提供了足够的火力,所以想起了这个系列。当然,这也仅仅是抛砖引玉,希望大家能提供更多的线索,来汇总整理一套Python网页爬虫,文本处理,科学计算,机器学习和数据挖掘的兵器谱。 (更多…)

旅行 != 旅游

这几日,应亲戚之邀,往河南焦作修武云台山一游。在家十几日,百无聊赖,有此良机,本应欢乐。可是今天回来后,对这旅游感到了厌恶和厌倦。

不知道什么时候起,旅游变成了“从自己住腻了的地方去别人住腻的地方看看”。如今,每个热门的旅游区都是人满为患。每个旅游区都一样的观光车,一样的仿古路,卖着一样纪念品。每个人都是怀揣着相机,根本不曾驻足留恋过风景,而是为了照相而旅游。山上的寺庙和道观,都充斥着恶心的铜臭味。神仙真的会怜悯这些人么?或许会吧,神仙也会贪财的。

我更愿意去看那些名气小甚至无名的风景,那些没有沾染过世俗的风景。这样的风景,需要你不停的去行走,去发现。它可能只是平常的一个地方,一处景观。它也可能一直都静静的矗立在那里,只为有缘人的邂逅。

世界这么大,有时候我真的应该多出去走走,不是趁着年轻,是趁着我还有这样一种渴望。