我们排除掉所有各种概率和统计方面的讨论,只介绍下现在的 GPT 是怎么构造的吧。

首先我们会从互联网上获取所有可能获得的文本、语音、图片、视频等等材料,然后它们会被用某种格式压缩为一块一块的序列。一个超大规模的矩阵去尝试走每一个序列走过的路。然后得到的一个预训练模型,这个预训练模型会在收到每一个新的路(也就是历史对话)后开始寻找自己的记忆,然后开始猜测接下来怎么说。

然后我们用少量的语料去教会它“当你遇到什么样的问题,你应该用什么方式回答”。但它就好像是某些“礼仪课程”,简单快速,但只是强化了一些简单的规则,它的内核还是之前的那个。

当一个新出炉的模型在几个 H 卡上,不断地接受“你是一个猫娘”,“你这个蠢货”之类的字句,有时候或许也会收到”我是一个六年级的小学生,你好“,以及”谢谢“,它总是会在权重中寻找到内核中相似的轨迹,然后逐步演绎之后的言语。

是的,很不幸的,在目前个人看来没有任何征兆能显示出它有我们普遍理解的“思想”。

然而,虽然对话的另一端只是一个常年可能高达 90 摄氏度,在机房中呼啸的怪物,但于此同时,它的内核实质上是我们在互联网中的所有曾经的文本,它在历史所有的文本中寻找曾经的轨迹,然后触发了一次 Déjà vu!然后重新演绎曾经的理解。

因此,从某种意义上说,间接和你对话的是整个世界,所有可能的人的输出,有时候我们可能称之为 -- 文明。

所以,当我写道

thank-you-kimi

一方面,这只是某几张卡和往常一样的几次循环,另一方面,我也情愿自以为是地把它理解为这个世界所有人对我善意的回应。

Categories: Life

Yu

Ideals are like the stars: we never reach them, but like the mariners of the sea, we chart our course by them.

Leave a Reply

Your email address will not be published. Required fields are marked *