从人类垃圾信息的「语料库」中诞生了 Siri 的祖先。


4-0

世界上第一条商业垃圾信息发送于 1994 年——至少普遍的观点是这样。劳伦斯·坎特(Lawrence Canter)和玛格丽特·西格尔(Margaret Siegel)开发了一个程序,能把一条她们的法律公司有关绿卡抽奖文件服务的广告副本,发送给每一个新闻组(Usenet)组群,一共大约有 6000 个用户。

由于这些信息的发送方式,新闻组的用户无法过滤掉信息副本,每个群组中的用户收到的都是同样的信息。在当时,互联网资源很少被商用(当时才刚刚合法),接入新闻组的费用也很高昂。用户认为这些商业味十足的信息粗鄙不堪,它们不仅占用时间,还浪费金钱。

作为对「绿卡事件」的回应,阿恩特·古尔布兰德森(Arnt Gulbrandsen)创造了「清除器」(cancelbot)这一概念。它可以将信息的内容,与一系列已知的「垃圾」信息对比,随后伪装成初始发送端,发送一条特别信息「删除」原始信息,将它隐藏并清除。在首次垃圾信息发送两个月后,坎特和西格尔又干了一次——这次,大量的垃圾信息与删除信息一起,造成了多台新闻组的服务器崩溃。看起来,反垃圾信息的措施自己也变成了垃圾信息。

一个新闻组的消息分组。重复发送给不同组别的消息将只显示一次。图:Public domain

一个新闻组的消息分组。重复发送给不同组别的消息将只显示一次。图:Public domain

虽然商业性的新闻组垃圾信息从此兴起,但这并非普遍意义上新闻组垃圾信息的滥觞。1994 年 4 月以前,一个自称塞尔达·阿吉克(Sedar Argic)的发信人,对任何包含了「turkey」(土耳其或火鸡)的信息,都自动用一大段否认亚美尼亚种族灭绝的激辩进行回复。当然,这也让有关庆祝感恩节的讨论变得尤为困难。

所有这些早期新闻组垃圾信息的形式,其关键之处在于,其中的信息总是相同的。清除器之所以管用,是因为它删除的信息要么完全一样,要么极少变化——它们就像一系列由人类维护的垃圾信息(一个垃圾信息的「语料库」)。

但即使是在这一时期,一些新闻组的用户也已经在利用一项新的技术,它能够挫败清除器和之后的对抗措施。这就是马尔可夫链(Markov chains),一个颇受当代机器人程序(bots)编写者欢迎的工具。它于 1913 年由俄国数学家安德烈·马尔可夫(Andrey Markov)发明,工作原理是耙梳文本,观察哪些字词容易依次出现,并运用所得数据组合成新的句子、段落和整页。想体验一下,这个网站能从莎士比亚、简·奥斯丁、尼克松的录音带、大学论文甚至《圣经》中,生成填充文本。

垃圾邮件制造者们没过多久就发现,在信息末尾加上随机垃圾,就能够让清除器失灵。此时正值全美国和西欧的大众刚刚对调制解调器有了概念,开始加入网络世界的时候,垃圾邮件制造者正在从新闻组进军电子邮件领域。

这个时期,致力于发现和打击垃圾信息(这个问题在六个月之前还几乎不存在)的人已经开始创建「陷阱」电子邮件账户。没有任何人类会给这些账户发信息,它们的存在是为了收集大量垃圾信息,用于研究垃圾信息制造者的行为和开发新的反垃圾信息技术。有如此众多携带不同信息的垃圾信息制造者,以及不断添加到信息末尾(或者开头,或者中间)的随机垃圾,垃圾信息过滤技术必须变得更强。程序员们开始借助字词统计和马尔可夫模型辨认垃圾信息制造者。

然而,垃圾邮件制造者很快发现,他们同样可以使用马尔可夫链对抗过滤器:通过从明显不是垃圾信息的材料(通常来自收录公版电子书的古登堡计划)中生成马尔可夫链,垃圾信息制造者可以在他们信息的末尾,加上貌似合理但并无意义的短语,给过滤器制造麻烦。这种技术叫做「贝叶斯污染」(Bayesian poisoning),它是垃圾信息诗歌(spam poetry)的起源。

很不幸的是,对于垃圾信息制造者,贝叶斯污染往往会让信息显得过于不可信:一长串毫无关联的词语无法令人相信。但还有一种方法可以避开基于文本语料库的黑名单——当人们开始在新兴的网络上添加评论区时,这种方法就变得十分常见了。在垃圾信息的社群中,它被称为「纺织」(spinning)。我们其他人则称之为「生成语法」。「纺织」利用现存的信息中词组的变体,制造大量语义相同但互有区别的信息。和马尔可夫链一样,「纺织」在机器人程序编写社群中很受欢迎。

4-2

电子邮件和网页浏览成为常态后不久,即时通信也随之而来。聊天服务最早可以追溯到 20 世纪 70 年代早期,而以互联网为基础的大型聊天系统,例如互联网中继聊天(IRC),则诞生于 80 年代末。当人们开始从小就在家中接触网络,类似 AOL 即时通信的商业服务便蓬勃发展起来。

新闻组曾经经历过的许多事,在 90 年代的 IRC 身上再次发生。有些人是为了好玩,才编写马尔可夫链机器人程序;其他人则是为了贴出事先写好的谩骂,作为对特定关键词的回应。有些垃圾信息程序会自动发送广告。但和新闻组一样, IRC 社群很快就开发出了技术对策。

另一方面,商业即时通信服务瞄准的是年轻人和非技术用户。使用和运营 IRC 与新闻组的大多是程序员,而 AOL 的受众则是一般家庭。当机器人程序出现在 AOL 即时通信上时,AOL 没有动机去阻止它们;当这些程序开始向 AOL 的用户发送误导性信息时,AOL 对处理垃圾信息缺乏经验,因此也意识不到会有怎样的后果。

与此同时,部分类似 SmarterChild 和 GooglyMinotaur 的聊天机器人,是得到 AOL 官方认可的。尽管动机是商业性的,但这些程序不会无故给用户发送信息,因而或许也不能算作垃圾信息程序。不过,它们的核心技术是一样的,对人类行为的模仿不仅表明它们是类似 Siri 这类程序的祖先,还与当时哄骗天真少年的即时通信程序如出一辙,只不过不像前者那般不怀好意。

4-3

和 SmarterChild 的对话。 图:TheFirstM

如果你用过 Twitter,对于上述的许多垃圾信息技术就不会陌生。你早就明白,只发链接的用户不太可能是活人,尤其是用超模当头像的。有时候,你可能无意中提到了某个流行词(iPad 或者比特币之类),接着就发现自己淹没在大量牵强附会的广告中。

不过,Twitter 上另一些对垃圾信息技术的应用要更为有趣。有些像 RedScareBot 的程序颇具破坏性。有些如 StealthMountain 则具备教育意义。还有些使用通常很可疑的浪费时间的技术,通过转移辱骂用语维护更多人的利益——例如,针对使用「玩家门」(Gamergate)及相关标签的用户而运行的「伊莱扎」(ELIZA)程序,会诱使幼稚的发帖人用言语攻击机器人程序,而不是人类用户。

如今,这些技术在其他领域也得到了广泛的应用。在学术界,针对与学术会议相关的一系列造假丑闻,一个名叫 SCIGen 的工具诞生了,它使用「纺织」技术生成无意义的论文,以确保期刊和学术会议履行同行评审程序。2014 年,电气电子工程师学会(IEEE)与斯普林格(Springer)这两家重要的学术出版机构,在有数据显示超过一百篇无意义的论文绕过了同行评审程序之后,开始采用一个工具来自动检测 SCIGen 生成的无意义论文。

2010 年,亚马逊开始允许自出版图书进入其电子书商店,但最终充斥其间的,却是网络抓取器自动制作出的电子书。标题党网站的内容工厂,大多由工资微薄的人来运营,美联社则运用「纺织」技术生成体育和财经类文章,其他网站也在开发能够编写标题党文章的机器人程序。

4-4

所有这一切将会导致怎样的结果,目前并不清楚。科幻小说家查尔斯·斯特罗斯(Charlie Stross)在其 2011 年的小说《第34条规则》(Rule 34)中暗示,垃圾信息与反垃圾信息技术之间的对抗,或许能推进未来的人工智能研究。在他的小说中,一个超人类的人工智能,由一种实验性的垃圾信息过滤技术进化而来,无意中导致了它对自我缺乏内在感知:它将自己的意识投射到某个随机选中的用户身上,因为它的目的是确定该用户眼中的垃圾信息是什么。

另一位科幻小说家休·汉考克(Hugh Handcock)在最近的一篇博文中提出,相比于 Siri,未来的聊天机器人可能和「匿名者」(Anonymous)的垃圾信息程序与恶意刷屏,以及 90 年代初的 IRC 更为相似。聊天机器人可能会在设计上比人类更方便交流——它们能够维持而不是打破过滤气泡,人们不用离开自己的舒适区就可以和它们互动。它们还可能聚拢在不同意见的周围。汉考克展现了这样一个世界,其中的人类可能知道他所有的朋友都是试图卖东西给他的机器人——而他全然不在意。

与此同时,90 年代的虚拟现实先驱杰伦·拉尼尔(Jaron Lanier)在他 2010 年出版的《你不是个玩意儿》(You Are Not a Gadget)一书中,表达了对当下出版与媒体界趋势的忧虑:艺术表现的金钱价值,与广告捆绑在了一起。在他 2013 年的续作《互联网冲击》(Who Owns the Future)中,拉尼尔提出了一个广告驱动的社会可能面临的终局:有形的垃圾信息程序免费向其目标市场中的人们提供货物和服务,同时放任其他所有人活活饿死。

英剧《黑镜》(Black Mirror)的第二集「一千五百万点」(Fifteen Million Merits)设想了一个类似的社会——基于娱乐和身体劳动的双极经济,通过播放只能使用微交易接受或拒绝的侵略性广告,从劳动者身上榨取金钱,并投放到娱乐中心。

拉尼尔表示,自愿的微交易可能为艺术家提供了一条途径,从广告业手中收回对自己作品的掌管,并且避免媒体即刻从中产阶级的地位跌落至低层阶级。然而,《黑镜》却表明只要娱乐产业高度集中,微交易就可能沦为一种工具,被用来固化阶级差异,并且系统性地排斥人们参与艺术品的创作和出售。

我个人猜测,随着对话界面得到的最新重视,混合型垃圾信息程序即将出现:已有的对话界面系统,比如 Siri 和 Echo,由于它们提供的是第三方数据,可能会开始被某个搜索引擎优化的机器人程序操控,用广告对特定的查询进行回应。在这种环境下,用来筛掉广告的自动化方法将不复存在——而且由于对话界面往往由零售商维护,他们更没有这么做的动机。这些机器人程序的编写者并不会尝试攻克垃圾信息过滤器,相反,他们需要格外小心以避开警惕性高的用户。

伴随着互联网图景的风云变幻,以及各种对策的各就各位,有一件事是确定不变的:只要垃圾信息程序能够保持赢利,它们就不会消失。

译者:M.LaPadite

cover1


您正在阅读 OFFLINE Issue 10《涌现:生成系统的创造力》,成为离线会员,您将收到每周一期电子杂志,完整阅读会员专享内容。

开源软件开发者,毕业于纽黑文大学计算机科学专业,目前供职于汤森路透。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

一个图灵小测试 *