倒排索引的简单介绍和实现

在信息检索(Information Retrieval)领域, 有个重要而基础的方法, 倒排索引(Inverted Index), 它被广泛用于各种全文搜索. 在无知的时代, 区区曾经"自创"过一种牛掰的方法, 于是称之为"映射", 小数据集上居然颇有效果, 颇为自得, 后来了解了倒排索引后, 俺才切切实实的了解到 “你以为你的 idea 很牛B, 其实只是你文献看得太少了” 这句话的真谛...

(more…)

jquery升级后toggle的一个feature失效的fix

jquery升级到1.9x后,它的toggle方法只剩下了显示/隐藏一个特性。1.9-的引申含义"两个function轮流执行"这个feature被干掉了。按照官方说法是"提高模块化"之类,对个人就只剩下"我勒个擦怎么主题变丑啦"之类的效果。 原本在单个post的右上角有个按钮,你可以点击关闭侧边栏,两栏的博客瞬间变成一栏,再点又变了回来,@良心发现桑实在太有创意啦--可惜给升级毁了。

又到写代码很痛苦的时候了,妥妥的换个代码写几行的节奏! (more…)

locate命令故障的解决

locate是一个系统命令,用于建立文件索引,当我们需要寻找什么文件的时候,只要敲入

locate xxx

它就会搜索全系统中匹配这个名字的文件。 但是在某个新的机器里面,我locate某文件,始终显示如下的错误信息:

locate: can not stat () 
    `/var/lib/mlocate/mlocate.db': No such file or directory

(more…)

编译一个gcc 4.8

很多服务器喜欢用Ubuntu的各种LTS,13.04还好,反正随便更新下就完事,偏偏有些没个调的货要我在他的12.04上跑个必须要c++11才支持的东西,所以不得不出手装个gcc 4.8.x (more…)

KNN 和 KD 树

机器学习中,knn(k-nearest neighbor , 又称k近邻法)是一种比较简单的模型。就是通过计算两个数据集之间的距离远近,然后把一堆数据分为k类。它是一种典型的判别模型(discriminative model).

老板教导曰,这个方法简单到爆了,为什么要介绍这个方法呢,因为解决具体问题的时候,用这个方法试试,调调参数,效果往往很赞,为什么不介绍?管你方法简单还是复杂,f1-measure最高、计算量最小的方法就是最好的方法。某些拿着各种复杂的计算,看起来各种高深莫测却无法说明什么让人信服的道理,也无法用f1-measure说话的,只能用来发paper。 (more…)

No route to host 错误的解决

实验室需要一个新的 redis 服务器,作为内网的公共服务。所以配了个内存 20G 硬盘 15G 的奇葩货。 这货的操作系统为 CentOS, 基本什么都没装, 通过 ISO 捣腾出来后,就用 yum 更新了下,加了个 tmux 和 redis, 一通配置完毕 chkconfig redis on, 然后自嗨了下。

[root@localhost ~]# redis-cli ping
PONG

这种小事做起来毫无压力,写写代码看看俺妹顺便搞定操作系统,三线操作真是毫无压力,收工的时候,顺手测试下远程ping下--本来只是走个程序而已,意外发现居然没有得到需要的 PONG. (more…)

这样是否会导致男女比例失衡?

网上谈论到当今社会男女比例失调,有人说到一个问题,某些地方政策是,夫妻俩生育一个孩子后,如果是女的就可以再生一个,如果是男的,就不能继续了。这导致了男女比例失调。 然而,立马有人反对说,这件事对全社会影响比例非常小。 (more…)

祭祖随记

几十年前的除夕前两天,我的太爷爷,也就是我爷爷他爹,在准备年末的点心的时候,说有点胸闷,就去小诊所看看,诊所的大夫简单检查了下,表示没有任何问题,完了就回去。太爷爷说去床上休息一下,其他人继续包点心。几个小时后,点心出炉,而太爷爷却一直休息了下去。

(more…)

怎样读一篇论文

说明: 在 2013 年的 8 月,University of Waterloo 的一个教授,S. Keshav 写了一篇论文 How to Read a Paper,内容是,如何读一篇论文。这篇论文发表后,很快受到大家的强烈关注。文中介绍了一些阅读论文的一些步骤,希望大家能更好的阅读那些文献。即便不读文献,在读其他各种工具文的时候,也颇有借鉴意义。当时,我的邮件列表里面满是对这篇论文的推荐。当时读完后感觉很赞,本打算拼着渣英语不管,也要翻译下来分享下,可惜当时正被某人各种push中,所以事情一拖再拖。

如今已然半年过去了,但既然稍有时间,还是把这件事情了结下吧。 (more…)