机器要想懂剧本这种文字艺术,首先得正确理解每一个字词的语义。


大家好,这是「读者来信」的第 28 期,由 Gecko 给大家念来信和回复。冬天来了,大家要注意保暖,外加多喝热水(比心)。

1

在本期的专题文「从技术到理念:维基文化的诞生与更迭」下方评论区,读者@_llwx01_ 提出了两个问题:

有两个问题想请教一下:
1、专家认为「业余的内容混入会破坏百科全书的信息完整性和可信度」,实际上,维基的信息网比百科全书更完整,但可信度如何保证、如何评估?
2、「当我们说维基百科是一部自由的百科全书,我们所说的其实并不是获取它的成本,而是你获取它、修改它,以及以任何你喜欢的方式使用它的自由。」这是否意味着维基的内容可以被随意复制引用,而不像知乎/自媒体需要作者授权?反过来,维基的内容是否要求原创?

针对这两个问题,读者@战天 和@$teve 各自给出的回答都很值得参考,在这里贴出以供大家继续讨论:

@战天

1、大概担心的是专业性内容很多外行编辑会造成错误,比如机械,计算机,生命科学等,普通用户完全不具备相关知识,容易产生错误。担心是合理的,之所以解决大概是因为会去编写维基的人普遍素质会更高,而且不断的版本监控避免了不懂瞎改的情况。
2、确实是随便使用的,不需要授权。原创性以我所知没有要求,因为你发布的内容是中立客观的,而不是个人主观的,所以一定程度上不存在原创,比如科学性质的百科条目。

@$teve

交流一下对这两个问题的个人理解:
第一个问题可以参考《大教堂与画家》这本书里关于开源文化的介绍,一切基于去中心化的「同行评审」原则,允许短暂的错误和疏漏,但是只要结果对所有人有益,就会不断吸引更多专业的人来参与,使最终结果趋向完善。所以 wiki 永远有错误和不可信内容,永远在完善。
第二个问题,维基百科对内容的参考信息是有严格评审的,也就是说,原创是个不被鼓励的事情。

2

本期离线还介绍了一个有意思的网站 TV Tropes,在读完「访谈 | 五个创造者和他们的『wiki』故事」后,读者@qunik 留言道:

语料库是指通过软件工具对生语料进行元信息标注、语音标注、词性标注、语义标注和句法标注,对标注后的语料进行定性定量的分析,可应用于搭配统计、词典编纂、外语教学、自动翻译等方面。「TV Tropes」是否也可对剧集进行观众喜欢程度、剧情、人物性格、进展标注,用于分析剧情衔接、常用搭配等?未来会不会有与语言学家对应的剧情学家啊?已标注的数据是否可以结合机器学习,创造出最受欢迎/最无趣的剧情呢?

这段留言恰好可以同周四 issue night 结束后的课后分享结合起来一起看。在读者群里,读者@微软 李亚韬 分享了一些关于机器自动编剧与维基语义化的思考:

关于自动编剧:主要问题在于【语义归类】。机器要想懂剧本这种文字艺术,首先得正确理解每一个字词的语义。信->达->雅的道路还很漫长。

【语义网络】提供了一种可能的解决办法——把网络上的信息全部固化到一个标准的语义面上——wiki 这种半结构化的数据促成了新一代的【知识图谱(Knowledge Graph)】。

DBPedia:分析整个 Wikipedia,将其语义化,对齐到标准的语义面【Open Data】——从而使得 wikipedia 成为了连接不同数据源的核心。

@Tony Yet 提到:

我记得今年 2 月的时候曾看到过英国 Goldsmith College 有人用机器学习来写音乐剧而且最后还公演了。

@微软 李亚韬

使用机器学习的话,我觉得就不属于【符号型(symbolic)】文本了,更像是一幅图片或者一首乐曲。

实际上,本期的作者林家闻也在「从技术到理念:维基文化的诞生与更迭」一文中提到,维基正在以语义化的转变成为未来人机交互的中间体:「2012 年,SemanticMediaWiki 的主创人员另起炉灶,在维基媒体基金会的框架之下开启了维基语义化与数据化软件的新时代——Wikidata。Wikidata 现阶段的主要使命,就是将维基百科十余年来累积的宝贵文字资料转变为超越语言、人机互通的信息数据库。」

感谢@微软 李亚韬 带来的分享。

3

关于「另一种形态的 wiki」,最后再贴一条读者@玄问 的分享:

其實 wiki 文化不一定侷限於編輯寫作、網站、軟件這些,還可以有硬件類的 wiki 項目,比如 WikiHouse。

4

本周有一位读者给编辑部的鲍伯来信:

嗨,刚才看之前的 Issue 27 第一篇文章,即「一部诞生于消沉时代的科幻作品,和它的创造者们」,里面提到:「1995 年版的《攻壳》几乎没有获奖,票房也不如人意。」

但是在下一篇文章「《攻壳》与人类进化之惑」开头处,则是:「…让这部作品甫一问世便被归入了杰作的行列,获得了口碑与商业的双重丰收。」

两段应该是有部分冲突的,根据在 wiki 上查到的资料:

「《攻殼機動隊》於日本上映時,票房出色,也獲得廣泛的正面評價。《攻殼機動隊》在爛番茄網站獲得 94%正面評價……」

「《攻殼機動隊》是第一部在發行當時就獲得《告示牌》影音排行榜冠軍的動畫,《攻殼機動隊》是 2006 年 DVD 銷售成績最出色的電影之一。」

(来自 https://www.wikiwand.com/zh/攻殼機動隊_(電影))

其他资料并没有细查,但如果 wiki 所述没错的话,应该是第一位文章作者描述不太准确。

感谢这位读者的来信。编者在查证过资料并跟作者确认过原意后认为,是两位作者各自界定标准的不同,以及表述的不准确造成了这样的歧义。对另一位作者 RED 韵所述的「票房和口碑的双丰收」,我们可能会更容易理解一些,网上对此的说法比较一致,因此在这里就先不作探讨了。

而第一篇文章的作者告诉编者,他原本是光从影院票房而不包括 DVD 等渠道来说《攻壳机动队》「票房也不尽人意」的,而另一句「几乎没有获奖」,原意指的是「没有获大奖。」

经过查证,一些客观的数据是这样的:

根据 IMDb 的数据,1995 年的《攻壳机动队》成本是在 6 亿日元左右(但从事影视相关行业的作者棹歌说,这个 6 亿的说法可能不太准确,因为电影预算经常是保密的,而且几乎无法找到真正的数据。但他估计成本是在 1 亿日元左右。关于成本,目前编者和作者都没有找到别的资料。)

而通过维基百科的资料,这个网站上显示,95 年《攻壳机动队》全球总票房为 2,287,714 美元,兑换成日元大概是 258,955,000 日元。

如果以上数据准确的话,以成本以 1 亿日元、票房 2 亿 6 千万日元来算,攻壳的票房不能算大卖,最多只能算收支平衡。这里有一个误区,不少人认为票房和成本是 1:1 对等的,其实不是这样。比如在国内,票房 1 亿,而实际上制片方大约只有 4000 万的收入,片方要和影院、发行方分成。也就是说,如果成本 1 亿,保守估计票房要 2.5 亿左右才能收回成本(只看影院票房收入,不看 DVD 等渠道)。由此看来,相对于《攻壳机动队》本身的优质,作者以自己的视角将「收支平衡」这样的结果描述为「票房不尽人意」也有一定道理。

而另一句「几乎没有获奖」,这个的确是作者的说法不准确。IMDb 上显示,95 年的《攻壳》获得了 5 项奖,2 个提名,但都是一些小奖项。跟作者确认过,作者其实是从国际电影节的角度来看,本意是指「没有获大奖」,大奖指的是欧洲三大(意大利威尼斯国际电影节、法国戛纳国际电影节和德国柏林国际电影节)和奥斯卡。

综上所述,可以说是评判标准的不同和表述的不严谨造成了这种结果。这里编者也需向各位读者致歉,未能及时和两边作者核对准确,同时在编校上也有疏漏。向这位有心的读者致谢并致歉。

如果读者们对上述讨论有任何疑议,欢迎给编辑部来信指正。
编辑部邮箱:ai@the-offline.com

本期值班:每天醒来都感觉喉咙要喷火的 Gecko


您正在阅读 OFFLINE Issue 37《火星绿卡》,成为离线会员,您将收到每周一期电子杂志,完整阅读会员专享内容。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

一个图灵小测试 *