准确率(Accuracy), 精确率(Precision), 召回率(Recall)和F1-Measure

机器学习(ML), 自然语言处理(NLP), 信息检索(IR)等领域, 评估(Evaluation)是一个必要的工作, 而其评价指标往往有如下几点: 准确率(Accuracy), 精确率(Precision), 召回率(Recall) 和 F1-Measure.(注：相对来说，IR 的 ground truth 很多时候是一个 Ordered List, 而不是一个 Bool 类型的 Unordered Collection，在都找到的情况下，排在第三名还是第四名损失并不是很大，而排在第一名和第一百名，虽然都是“找到了”，但是意义是不一样的，因此更多可能适用于 MAP 之类评估指标.)

本文将简单介绍其中几个概念. 中文中这几个评价指标翻译各有不同, 所以一般情况下推荐使用英文.

题外话, 特意问过几个外行的语言老师, accuracy 和 precision 有啥区别啊? 结果被老师盯着看, “你是在耍我么? 考我么? 这什么鬼问题?” 所以还请不要纠结, 我们就原文就好.

现在我先假定一个具体场景作为例子.

假如某个班级有男生 80 人, 女生20人, 共计 100 人. 目标是找出所有女生. 现在某人挑选出 50 个人, 其中 20 人是女生, 另外还错误的把 30 个男生也当作女生挑选出来了. 作为评估者的你需要来评估(evaluation)下他的工作

首先我们可以计算准确率(accuracy), 其定义是: 对于给定的测试数据集，分类器正确分类的样本数与总样本数之比. 也就是损失函数是0-1损失时测试数据集上的准确率^[1].

这样说听起来有点抽象，简单说就是，前面的场景中，实际情况是那个班级有男的和女的两类，某人(也就是定义中所说的分类器)他又把班级中的人分为男女两类. accuracy 需要得到的是此君分正确的人占总人数的比例. 很容易，我们可以得到:他把其中70(20女+50男)人判定正确了, 而总人数是100人，所以它的 accuracy 就是70 %(70 / 100).

由准确率，我们的确可以在一些场合，从某种意义上得到一个分类器是否有效，但它并不总是能有效的评价一个分类器的工作. 举个例子, google 抓取了 argcv 100个页面，而它索引中共有10,000,000个页面, 随机抽一个页面，分类下, 这是不是 argcv 的页面呢?如果以 accuracy 来判断我的工作，那我会把所有的页面都判断为”不是 argcv 的页面”, 因为我这样效率非常高(return false, 一句话), 而 accuracy 已经到了99.999%(9,999,900/10,000,000), 完爆其它很多分类器辛辛苦苦算的值, 而我这个算法显然不是需求期待的, 那怎么解决呢?这就是 precision, recall 和 f1-measure 出场的时间了.

在说 precision, recall 和 f1-measure 之前, 我们需要先需要定义 TP, FN, FP, TN 四种分类情况.

按照前面例子, 我们需要从一个班级中的人中寻找所有女生, 如果把这个任务当成一个分类器的话, 那么女生就是我们需要的, 而男生不是, 所以我们称女生为”正类(positive)”或者”正例(positive case)”, 而男生为”负类(negative)”或者”负例(negative case)”.

关于性别可能会有一些人表示，欸，为啥就 negative 了呢？是因为我们需要筛选或者测试的是“我们要找的”。比如在一些分类器去寻找垃圾邮件，那么是垃圾邮件即为 positive。它 positive 在 relevant, 在“我们在找它”。

	实际上是相关的(Relevant)	实际上是无关(NonRelevant)
被检索到(Retrieved), 被判定是的	`TP`: True Positives 正确(true)判定正例(positive) 例子中就是正确的判定”这位是女生”	`FP`: False Positives 错误(false)判定负例(negative)，”存伪” 例子中就是分明是男生却判断为女生, 当下伪娘横行, 这个错常有人犯
未被检索到(Not Retrieved), 被判定不是的	`FN`: False Negatives 错误(false)判定负例(negative)，”去真” 代入例子即为, 分明是女生, 这哥们却判断为男生梁山伯同学表示承让承让	`TN`: True Negatives 正确(true)判定负例(negative) 也就是一个男生被判断为男生, 像我这样的纯爷们一准儿就会在此处