ParsCit: An open-source CRF reference string parsing package

当今世界,文献资料的数量几乎是以指数级别的增长,而文献的传播过程中,往往并非仅仅通过电子版的数据传输. 由于各种条件限制,文献数据有时候甚至是Word->PDF->纸质打印资料->扫描进文件->再次整理资料这样螺旋式的传播. 而在再次整理资料的时候,往往不免要遇到这样或者那样的奇怪的数据,比如1变成了i,有些数据彻底错位等等. ParsCit ,一个开源的package,正是试图通过CRF的分析方法,将文献后的reference再次整理为有序的数据.

这篇论文讲述了原理。官网为: http://wing.comp.nus.edu.sg/parsCit/ 而目前最新下载地址为: http://wing.comp.nus.edu.sg/parsCit/parscit-110505b.zip

$ wget -c  http://wing.comp.nus.edu.sg/parsCit/parscit-110505b.zip \
 -o wget-log -r --tries=50 -v -O parscit-110505b.zip

因为要作为参照,我的部分翻译参考此处.

Talk with Kimi

感知机 Perceptron

感知机(perceptron)是(machine learning)-(supervised learning)-(discriminative model)的一种.

Code

KNN 和 KD 树

机器学习中，knn(k-nearest neighbor , 又称k近邻法)是一种比较简单的模型。就是通过计算两个数据集之间的距离远近，然后把一堆数据分为k类。它是一种典型的判别模型(discriminative model). 老板教导曰，这个方法简单到爆了，为什么要介绍这个方法呢，因为解决具体问题的时候，用这个方法试试，调调参数，效果往往很赞，为什么不介绍？管你方法简单还是复杂，f1-measure最高、计算量最小的方法就是最好的方法。某些拿着各种复杂的计算，看起来各种高深莫测却无法说明什么让人信服的道理，也无法用f1-measure说话的，只能用来发paper。

Code

ParsCit 一个开源的CRF参考文献解析包

译自:ParsCit: An open-source CRF reference string parsing package (部分) 0 摘要我们这样描述ParsCit:一个自由，开源的参考文献解析包。ParsCit的核心是一个被训练完成的CRF模型，它被用来标记参考文献字符串的序列。这个启发式的模型对一个纯文本文件进行分割和识别。这个包可以直接运行，或者作为一个web服务器使用。我们用3个不同的数据集来比较ParsCit，并用它和之前已出版的作品比较。

ParsCit: An open-source CRF reference string parsing package

Published by Yu on January 11, 2013January 11, 2013

Yu

Leave a Reply Cancel reply

Code

感知机 Perceptron

Code

KNN 和 KD 树

Code

ParsCit 一个开源的CRF参考文献解析包

ParsCit: An open-source CRF reference string parsing package

Published by Yu on January 11, 2013January 11, 2013

Yu

Leave a Reply Cancel reply

Related Posts

Code

感知机 Perceptron

Code

KNN 和 KD 树

Code

ParsCit 一个开源的CRF参考文献解析包