最近做中文分词, 先做个 baseline, 基于字典的后向最大匹配. 本文先介绍下最基础的那个版本的.
工程位置是:
惯例的, 它还是依赖我那个 libargcv.
字典基于的是
代码主要内容非常简单, 在这个文件, 大致就是每个句子从后向前匹配, 匹配尽可能多的一个单词作为词组.
这个方法是中文最基础的方法, 效率非常高, 不过非常依赖词典, 效果比较糟糕.
第一次需要载入词典, 大致效果如下:
$ git clone --recurse-submodules https://github.com/yuikns/argcv-analyzer-cn.git $ cd argcv-analyzer-cn $ mkdir build $ cd build $ cmake .. $ make -j8 $ ./anzcn-simple load loading lexicon from ../data/lexicon/webdict_with_freq.txt ... done, size: [220725] 【/up 废土/uw 科学/uw 指南/uw :/up f/aw 代表/uw 辐射/uw ,/up a/aw 代表/uw 原子/uw 】/up 战争/uw ,/up 战争/uw 永不/uw 改变/uw 。/up 今天/uw 是/uw 《/up 辐射/uw 4/aw 》/up 上市/uw 的/uw 日子/uw ,/up 虽然/uw 距离/uw 1/aw 代/uw 已经/uw 过去/uw 了/uw 十八/uw 年/uw ,/up 但/uw 和/uw 战争/uw 一样/uw 不变/uw 的/uw ,/up 只有/uw 废土/uw ,/up 那个/uw 承载/uw 了/uw 五十/uw 年代/uw 原子/uw 未来/uw 想象/uw 的/uw 废土/uw 。/up 现实/uw 的/uw 物理学/uw 虽然/uw 和/uw 游戏/uw 中/uw 不同/uw ,/up 但/uw 我们/uw 都/uw 有/uw 同样/uw 的/uw 梦想/uw 和/uw 同样/uw 的/uw 恐惧/uw .../ap some/aw english/aw word/aw 北京城/uw 连续/uw 几天/uw 阴天/uw ,/up 然而/uw 在/uw 低空/uw 云层/uw 之上/uw 别有/uw 一番/uw 天地/uw 。/up 云海/uw 遮住/uw 了/uw 城市/uw 灯光/uw ,/up 冬季/uw 夜空/uw 格外/uw 耀眼/uw 。/up 结婚/uw 的/uw 和/uw 尚未/uw 结婚/uw 的/uw 同志/uw 们/uw 只/uw 听/uw 得/uw 一个/uw 女子/uw 低/uw 低/uw 应/uw 了/uw 一声/uw ...
1 Comment
mooc · December 18, 2015 at 21:24
这个办法很实在啊,字典估计是个麻烦