当今世界,文献资料的数量几乎是以指数级别的增长,而文献的传播过程中,往往并非仅仅通过电子版的数据传输. 由于各种条件限制,文献数据有时候甚至是Word->PDF->纸质打印资料->扫描进文件->再次整理资料这样螺旋式的传播. 而在再次整理资料的时候,往往不免要遇到这样或者那样的奇怪的数据,比如1变成了i,有些数据彻底错位等等. ParsCit ,一个开源的package,正是试图通过CRF的分析方法,将文献后的reference再次整理为有序的数据.

这篇论文讲述了原理。 官网为: http://wing.comp.nus.edu.sg/parsCit/ 而目前最新下载地址为: http://wing.comp.nus.edu.sg/parsCit/parscit-110505b.zip

$ wget -c  http://wing.comp.nus.edu.sg/parsCit/parscit-110505b.zip \
 -o wget-log -r --tries=50 -v -O parscit-110505b.zip

因为要作为参照,我的部分翻译参考此处.


Yu

Ideals are like the stars: we never reach them, but like the mariners of the sea, we chart our course by them.

Leave a Reply

Your email address will not be published.