这几年这个博客都在使用 Google Analytics 服务。虽然每天被访问页面次数也就几百个,但我有时候也有点臭美的想知道是不是真的有用户在访问。最近偶然看了下 GA 的分析,发现来自台湾的用户特别高。
基于谨慎处理用户数据的考虑,线上的 log 是自动清理的,而 Google Analytics 并不特别指明具体用户,IP 和时间等信息,而只是给出一些统计上的信息。这正是我所期望的有限度使用,也的确给足了信息。
GA 的统计显示,在过去一年里面,我有 65,000 个独立访客。其中地理位置在台湾的有 24%, 只比中国大陆 34% 少了 10%。通过 ISP( Internet Service Provider)分析,其中有 9% 的流量来自 "taipei taiwan", 其次是 "(not set)",再次是 "taiwan academic network"。再往后才是来自中国美国的各种服务商。
我也觉得这个博客挺无聊的,大多数内容就是记录了一些想要保存一下给自己看的某些简单问题的注解,只是顺带分享一下给路过的。但无论如何,我也没有发现它有什么特别的地方。所有中文我用的都是简体字。其中的术语也是我们上课所使用的,和台湾的朋友线下交流时候,发现很多翻译其实大不一样。因此无论人口对比的十三亿比两千三百万,还是搜索习惯的各种关键词,理所当然的,私以为台湾最多应该不会有中国大陆的三分之一才对。
存在即合理,既然 “Google Analytics 中台湾访客超过中国大陆访客的 \frac{2}{3} ” 是事实,那么我只能在这个事实下猜测原因。以下是一些没啥根据的猜想。
样本数量局限
如前文所示,过去一年里总共有 65k 的访客。这个已经不能用 “小众” 来描述来,只能说是 “谁知道存在不存在的网站”。再加上博客主题挺狭隘的,且不说水平比较差,领域本身也只有很少一些人关心。这种情况下,用户比例的精度非常受影响。 30%-60% 可能只是哪位多刷了几下,或者哪位大佬不小心在某个圈子了里面随便 cue 了下它的关系。
因此首先它可能就不是一个问题,只是一个偶发结果而已。
广告插件
一个浏览器上最重要的插件可能是 AdBlock,uBlock Origin 等浏览器行为控制的插件。它的作用不仅仅是为了去广告。我们还可以用它来清理页面,让网站看起来更加简洁。更重要的,它还能阻止一些特殊的请求。比如 GA 或者最近很流行的坑爹挖矿脚本。
比如我自己,访问这个站也是绝不会发一个给 GA 的请求的。我也无意强行请用户告诉我他访问过。此外,从实现角度,如果用一些“神奇的方法”,那么它还会混入大量爬虫的信息。这样 recall 固然上升,但是 precision 就一落千丈了precision 和 recall?。因此阻断 GA 的统计其实是非常简单的。
在中国大陆,各种各样的节操网站数不胜数,即便所谓“技术人”,嘴上谈的是理想,一肚子的生意还以为人看不出来?这种境遇下,再加上样本局限中谈到的,有兴趣过来的,大多还是对计算机比较了解的。这种情况下,可以想象在中国大陆地区的插件安装率有多高了。
因此,未统计用户可能对这种比例也有所贡献。
网络问题
这台机器是托管在 Linode 上的。众所周知,中国大陆上有个特别厉害的网关。在网关外的很多数据都会被随机丢包,原因自己想。
就个人而言,我觉得屏蔽以下各种钓鱼网站是合理的,私人对各种教也挺不待见的,色情啊什么的,因为文化不同也自有判断,也无可厚非。但让人很不喜欢的,是不教而诛。不教而诛是一个非常糟糕的倾向。“你冚家铲啦!原因自己想。”
据我所知,这个小站也部分的在有些网络下被冚家铲了,又有部分网络觉得可以先不铲。更神奇的是,还有些网络是觉得可以先铲一下但可以不全家。于是它表现为可以访问但是速度慢到发指。
有个研究[来源请求]发现,当警察的破案效率每增加 x%,那么这个城市的时段内治安案件数量可以下降 y%。在治安不太好的时候,y 的值可以比 x 要高一个数量级。
这个研究具体的内容一下子找不着了。但是结论还是挺符合直觉的,就是当存在威慑的时候,少量威慑可以让大量边缘徘徊者缩回去。套到这个小站上说,我疑心也有很多网站待遇和它类似,当它和很多都这样被折腾过后,用户可能会选择弃疗,看到慢的就关闭,或者干脆全线隧道。
因此,可能有一些中国大陆访客直接放弃了访问,或者以其它国家的身份查看了一下页面。即便允许了 GA 的统计,也是给其它的地方 "+1" 而已。
来源问题
不知道有朋友遇到过看同事,朋友查资料结果跳来跳去跳到自己的页面,然后问题当场解决的经历没?我惊喜地有过。所以每当我写一些注解的时候,有时候会相信它的确可能会帮助到谁,这也是虽然没啥访问量,却也挂这儿许久的动力之一。 前提是他用 Google。
怎么说呢。百度引擎和我应该算是互相不太待见吧。百度嫌弃我黑户,海外没备案,我觉得百度把转载我的各种抄挂在最前面,自己混入其中有点下贱,搞得好像我在抄别人似的。因此我并没有在百度维护什么 sitemap 之类的。
最近的来源分析也表明,我这儿百度的流量挺少的。
此外,有些帮本站备份的网站也挺有意思的,全文都是我写的,唯独名字帮我改了,能在很小的角落帮忙标注个来源,已经太够意思了。
相反的,我倒是看到有些繁体字的页面,先把本站链接郑而重之地挂在提到的相关话题旁边。有几个作者还是我想套瓷的那种。
中国有很多地域黑,比如河南和井盖相关,东北和砍刀不解之缘,江苏十三个市互相都不太服气。台湾福建“额萌似东北的黑涩会,你蛾子在我手上”这个梗在网上也是流传颇广。
但是在这方面看,台湾有时候有点小学生,不能比啊,不能比。
于是我想引流也是一个方面。
以上就是一点随意的猜测,作为代码撸得脑壳子疼后的摸鱼之作。
如果哪位来自台湾的朋友恰好路过这个页面,不知可否有幸收集一点从访客角度的高见?感谢感谢。
5 Comments
Mia Y · April 10, 2020 at 11:39
谁能想到我就为了查个recall precision 点到了不知名的大佬的空间… 天啊建议大佬出书或者公众号啊
Yu · April 10, 2020 at 13:10
天啊,是谁这样帅气,从茫茫无名站中识别出了机智的我!
LOL 臭屁完毕。其实本质上只是想要随便分享下自己平时遇到的小问题,然后合适的时候给朋友直接丢链接而不是一次又一次讲解而已。略有封闭的公众号可能不太适合我。更何况最近被朋友拽回北京真正开始了职业生涯,已经忙到了不知所措,以前每个月怎么也强行水一下的习惯都被不知道丢哪去了。其实真的惭愧极了。
最后的,Google 了一下贵校,又学习到了新知识。
Mia Y · April 14, 2020 at 20:55
哇 谢谢大佬的回复受宠若惊 (话说这个下面的notify comments 好像没的作用sad) … 还是忍不住说一句,像这样严谨又清楚的讲解已经不多了,就算是medium, quora也是有错误,比如讲recall precision点赞最多的那篇就是错的.. 不知道大佬本专业是什么,但是作为一个我这样数据科学刚入门就归国的人员,太需要系统的向您这样的人学习了 所以冒昧的建议您开公众号哈哈哈 但是想一想这样要求您其实有点自私哦 我相信不管是哪个公司能拥有您这样的人真的很幸运 您在哪里都会发光 希望您日新月异,万事胜意!
youran · June 17, 2019 at 06:02
注意SSL证书快过期啦!还记得当年30多块钱捡漏这个5年的证书,一晃这么长时间过去了
Yu · June 17, 2019 at 11:57
啊!居然这就五年过去了!
你不提醒我还以为还有个三四年呢?
感谢感谢。