创造霍金“机器嗓音”的工程师,终于失去了他的客户

77.2K
200
100

编者按:著名物理学家斯蒂芬·威廉·霍金因其在宇宙论和黑洞领域的研究而闻名于世,他那标志性的机器人式声音也早已成为了他身份的一部分。现代科技的发展日新月异,合成语音领域也大有突破,听上去更加自然,不再那么机械式。霍金其实有很多的机会可以采用升级版本的语音合成器,但他却一直钟情那同一款设备发出的机器人式声音,原因何在?有三十多年的时间,霍金用的一直是同一款语音合成设备,长久使用后设备耗损,霍金背后的团队又是如何帮助他重塑他所钟爱的这一独特机器人式声音呢?

三十年前的初次结缘

周二(3 月 14 日)晚上, 62 岁的工程师 Eric Dorsey 正在帕洛阿尔托的家中看电视,之后他的手机开始陆续收到史蒂芬·霍金去世的消息。他打开相关新闻报道,看到其中穿插着这位著名物理学家用他标志性的机器式语音发言的剪辑片段,这个声音正是 Dorsey 在过去投入了大量时间和心血帮助创造出来的声音。

要说 Dorsey 和霍金第一次见面大约要追溯到 30 年前。 那是1988 年 3 月,霍金在为期三周的巡回演讲安排中来到了加州大学伯克利分校。

当时霍金只有 46 岁,因其在量子物理学和黑洞方面的发现而为人所知,但知名度远没有现在那么高。当时,距他现在的畅销书《时间简史》发行恰巧还有一周的时间,加利福尼亚人对这位来自剑桥大学的英国教授充满了好奇,演讲报告厅座无虚席,挤满了来听他讲座的听众。霍金乘坐电动轮椅进入报告厅,来到演讲台中央,他的轮椅坐垫是红褐色的羊皮材质,只需轻轻拨动操纵杆,这台轮椅就能灵巧地四处移动。离开身边的护工上台之后,霍金便面向观众席咧嘴一笑。

之后,他开始了这次的演讲,在他说话时,可以听到从他轮椅后方固定的一个灰色盒子中发出一种机器人式的声音。当时他所用的这款被称为 CallText 5010 的商业语音合成器还是一种很新奇的东西,也尚未成为霍金的一个身份标记。霍金是在由于运动神经元肌萎缩侧所硬化症而失去语言能力之后才开始使用这款产品,距他这次巡回演讲也只有短短的三年时间。霍金通过移动脸部位置在可视屏幕上选择自己想要说的文本内容,然后由 CallText 将文本转换为语音。曾经在一次讲座开始时,霍金开玩笑说:“(这台设备)唯一的问题在于它让我变成了美国口音。”

Dorsey 当时是在负责生产制造 CallText 5010(一个硬件主板,配载两个运行定制软件的计算机芯片)的 Mountain View 公司工作,他作为这款语音合成器的权威人士,在本次巡回演讲中大部分时间都与霍金同行,负责向在座记者解释这款设备的工作原理。

当时 Dorsey 只有 32 岁,正值年富力强的黄金时期,他话不多,但工作起来很有干劲,很有上进心。他最初以实习生的身份加入 Speech Plus,正是被其致力于帮助失语人群和相关残障人群的使命所吸引。现在,32 岁的他已经成为了一个工程师团队的负责人,在 CallText 这个让霍金发出声音的产品中至少有两万行代码是由他写成。

在一次讲座临近尾声时,霍金这样说道:“我们为什么在这里?我们从哪里来?对于这些古老问题的答案,我们现在正在一步步靠近。感谢你们聆听这次讲座。”

在霍金的本次加利福尼亚州巡回演讲结束之时,他送给了 Dorsey 一本亲笔签名的《时间简史》,并将自己的指纹永久地留在了封面内页。

随后,霍金回到了剑桥,Dorsey 也回到了加州的工作岗位之中。直到二十六年之后,他们二人才再次产生了交集。

此时已是科技的时代,一个全新的千禧年时代。这是属于互联网的时代,硅谷科技事业经历了蓬勃发展、破灭而后再次崛起的历程,诞生了苹果、亚马逊、Facebook 和 Google 等大型科技企业。

在这期间,Speech Plus 破产,被出售给了一系列其他企业,Dorsey 也从这里离开。在这期间,Dorsey 也走过了娶妻生子的人生历程,最后完全离开了语音技术领域,成为了 DVR 制造商 TiVo 的工程部负责人。

在他看来,科技的发展是那么迅速,“每年都会有新款 iPhone 面世,似乎一切都会以迅雷不及掩耳之势被埋葬在历史的尘埃中。”

三十年后的交集

也正是因为如此,当 2014 年一封来自剑桥大学的电子邮件毫无征兆的出现在他的收件箱时,他会感到不可思议。这封邮件来自霍金的技术助理 Jonathan Wood,也是霍金通信系统的负责人。

Wood 在邮件中所说的事情听上去似乎根本就不可能,以至于 Dorsey 一开始都没有看懂。Wood 表示霍金现在仍在使用 CallText 5010 语音合成器,也就是他之前使用的 1986 年升级版本。这就意味着近三十年来,霍金一直没有采用其它的新技术产品。他喜欢这样的机器人式声音,并固执地拒绝了其它一切的替代产品。但现在,他用的这款 CallText 5010 语音合成器在长期的使用之后,已经有了不小的耗损。一旦出现重大故障,这台机器直接罢工,那霍金将永远失去他这独特的标志性声音。

Wood 认为,要想解决这个问题,需要将这款性能正在不断衰退的硬件复制到新软件中,通过某种方式将已经用了 30 年的语音合成器植入到现代的笔记本电脑中,同时又不改变原来的声音。多年以来,他同剑桥的几位同事一直在尝试通过不同的方法去解决这个问题。但每次都事与愿违,于是他不得已向 Dorsey 发起求助,想问一下他的想法。

要问 Dorsey 怎么想?他在心里呐喊:“已经用了三十年了?天哪!”

这还真不是一件简单的事情。他们可能必须要找到以前的源代码才行,也可能必须要找到原始芯片以及这些芯片的指导手册才可以。但这些他们再也买不到了,因为这些公司已经不复存在了。解决这个问题可能意味着进行一场考古挖掘,去追溯古老的科技时代。

但纵使再困难又怎样,这个问题困扰的不是别人,而是史蒂芬·霍金。

“让我们来搞定它”,Dorsey 给出了这样的回复。

 这是霍金喜欢的声音

美国著名诗人朗费罗(Longfellow)曾写道,人类的声音是“灵魂器官”。相比我们人体的其他器官功能,声音更能够表达我们的身份,声音里哪怕最细微的一些变动也会存在意义上的不同,而这是计算机很难去理解的一点。在说出一个句子时,我们是采用升调还是降调取决于我们是在发表一个肯定的声明还是在提出一个问题。我们在处理语调的时候根本就无需思考,但对于计算机来说,他需要去猜测我们想要表达的意图。

Patti Price 和 Eric Dorsey

现在包括苹果 Siri 在内的语音合成器依靠的是预先录制的自然声音库。先由相关专业人员录制大量的单词和音节,形成一个声音库,然后由软件来将其打碎,重新组合成句子。Patti Price 是帕洛阿尔托的一名语音识别专家兼语言学家,他表示在 30 年前,计算机只能产出一种“单线条版”的声音。

当时,Price 还在麻省理工学院跟随 Dennis Klatt 攻读博士后学位,Klatt 是来自威斯康星州的一位科学家,高高瘦瘦,爱好歌剧,他也可以被称作是霍金声音的教父。他采用 X 光扫描自己的喉咙,观测在发出某些声音时自己的喉部形态,然后基于自己的声音基础之上,他开发出了一款语音软件模型 Klatt Model。

而 Speech Plus 采用的正是 Klatt 开发的这款模型,并在此基础上对其进行了改进,推出了包括CallText 5010 在内的多款商品。Dorsey 对此的贡献之一是编写出了一个算法,用来控制语音的语调,以及单词和句子的升降。虽然有许多客户抱怨这种声音太像机器人,但 Speech Plus 售出的 CallText系统数量高达上千。

霍金喜欢这种声音。

虽然听上去很像机器人的声音,但它很容易理解,这点让霍金十分欣赏。CallText 系统声音声波形状更像是连绵的高原形态,而不是人类自然声音那种存在急剧升降的陡峭山崖。霍金喜欢这种声音那平缓的声波坡度,能让他在圆形剧场和演讲厅中瞬间穿透各种嘈杂的声音。他经常会用这样一句话开始他的演讲:“你们能听到我说话吗?”随后观众席会报以热烈的肯定回答。

Dorsey 说道:“这种声音听上去让人感觉清楚易懂,你可以长时间的听这种声音,也不会产生厌烦的情绪。”

对这一声音,霍金唯一的不满就在于,它表达不出他的英式口音。

多年来,合成声音产品开始采用更快地处理芯片以及更经济的存储空间,并且逐渐发展的更加自然,霍金其实有很多的机会可以采用升级版本的语音合成器。1996 年,一家位于马萨诸塞州、名为 Nuance 的语音技术公司收购了 Speech Plus 公司,并采用升级后的软件代码对 CallText 进行了升级,升级后的产品声音听起来更加饱满,语速更流畅,句子之间停顿时间更短,听上去不再那么机械。对于工程师而言,这显然是一个很大的改进。

他们将这一新声音样本寄给了霍金,满心欢喜地认为收到样本的霍金一定会很高兴。但结果事与愿违。霍金不喜欢,他说这种声音语调不对。他更喜欢 1986 年产品的声音版本,也就是 Dorsey 贡献语调算法的那个版本。霍金表示自己仍然会使用之前的产品。

霍金曾说过:“我之所一直使用这个最初的版本是因为我没有再听到让我更喜欢的声音,我已经认同了这种声音,它已经成为我身份的一部分。”他可以接受一种更平缓的自然声音,但那样听上去就不像他了。

霍金的首席技术助理 Wood 表示:“对于霍金来说,这套设备就像是他身体的一部分一样。如果要将其升级为新的软件或硬件……那就相当于让他改变自己的身体一样。”

声音拯救之路

大约从 2009 年开始,Wood 连同剑桥大学的几位同事开始尝试将霍金的“声音”从日渐老化的 CallText 硬件中分离出来。小组成员包括剑桥大学计算机专家 Peter Benie、当地工程系学生 Paweł Wozniak 以及与霍金相识已久、有着丰富经验的电气工程师 Mark Green。

他们考虑的其中一个方案是对像 Siri 这样的现代合成声音进行调整,让它听上去更像是霍金的标志性声音。但是像 Siri 这种类型的系统依赖的是互联网云的强大计算能力,而霍金不可能一直保持互联网连接状态。Benie 还尝试了另外一种完全不同的方法,他为 CallText 编写了一款软件模拟器,本质上也就是能够骗过现代计算机让它认为这一模拟器就是原来的 CallText 的一个程序。但是这样一来出来的样品声音仍然无法满足霍金的要求。

到 2014 年这个剑桥大学团队尝试与 Dorsey 联系时,他们正在进行第三种方法的探索:追踪原来的CallText(现已属 Nuance 所有)源代码,并将其移植到霍金的笔记本电脑中,也就是将原来的声音移植到一个全新的载体中。

这一方案可行吗?Dorsey 无法回答。这取决于他能否找到源代码,或者能否对源代码进行反向还原。他开始给三十年来都未曾谋面的老同事发送电子邮件,询问他们是否还能找到任何关于 CallText 的组件,无论主板、芯片还是指导手册,其中有个人真的在车库里找到了一个 CallText 主板。

在早期技术时代,人与人之间都存在一种疯狂的争斗感。但一旦能提供帮助,各地的人也都会纷纷倾囊相助。Dorsey 说道:“我们的目标就是能够保留霍金的声音,每当我去找别人帮忙,说出‘我需要你帮忙一起来拯救斯蒂芬·霍金的声音’之后,他们立马就会加入。”

他在帕洛阿尔托最亲密的合作者是 Price,这位语音技术专家曾跟随被称为“霍金声音的教父”的 Klatt 修读博士后学位。她是音频样本分析领域的大师级人物,能够将样本进行彼此的对比,并使用音频指纹对它们的创建方式进行反向还原。

Dorsey 试图追溯源代码的尝试结果令人沮丧。Nuance 没人能够从 1986 年的 CallText 版本中找到源代码。不过,他们确实在比利时一家办公室的备份磁带上找到了1996 年升级版本的代码。几个月后,Nuance 的工程师让这些代码重新运行了起来,并向霍金团队发送了一系列的音频样本,对程序进行了调整以实现与 1986 年版本声音的匹配。

但这仍然未能得到霍金的认可。两个声音非常接近,但算不上完美匹配。对于其他人难以察觉的一些微妙的差异,霍金却了然于心。Price 表示:“这就像是识别你母亲的声音一样,当你通过电话听到她们的声音时,你只要听一两个音节,就知道是不是她了。”

除此之外,还有一个问题,那就是代码的所有者是 Nuance,而不是霍金。这位著名的物理学家长久以来一直想要得到对自己声音的控制权,如果他的技术助理团队能够做到不再依赖这种别人所有的专利软件,那他就能得到更多的控制权。

 “我很喜欢”,霍金说道。

于是,他们改变了方向,回到了最初的探索路径:用软件模拟 CallText,类似于用个人电脑来模拟已经不再市售的任天堂游戏一样。

但是,CallText 显然比任天堂更为复杂,它是由两个陈旧、复杂的互动芯片来驱动,其中一个芯片由英特尔制造,另一个由 NEC 制造。构造模拟器需要进行编程、需要精准的直觉判断以及另外一系列高科技含量的复杂技术操作。首先必须用镊子和螺丝刀将芯片从备用的 CallText 主板上取下,英特尔芯片模拟器必须由 Benie 从零开始编写,另一个用作 NEC 芯片的模拟则是从一个名为 Higan 的开源Nintendo 模拟器中借用而来。

并且,所有的这些操作出来的结果必须能组成一个整体来工作,这就像是在一个黑暗的房间里摸黑儿做拼图游戏一样。每 10 毫秒的时间,一个芯片就会向另一个芯片传递一个神秘的数据包,原理是什么?这其中又有什么玄机?

接下来的一段时间,他们都在十分艰难地推进这一项目,收效甚微。出来的音频样本质量很差,以至于没人敢将这些样本拿到霍金面前。

直到 2017 年圣诞节前夕,事情出现了转机,模拟器终于开始发出类似于他们一直想要的那种熟悉的声音。虽然其中还有一些小瑕疵,但据 Price 表示,这个声音与霍金原来用的声音非常匹配,波形几乎完全相同。唯一可以察觉到的不同之处在于这个声音没有之前那种嗡嗡的小杂音。用 Price 的话来说,“这就像是一个打磨之后的更为干净、更为透亮的声音。”

Benie 第一次听到这个声音时,这一次是从电脑里而不是像以往那样从霍金轮椅上的音箱里,他认为这个声音相比霍金用的声音,美式英语口音更浓一些。这其实只是他的一种听力幻觉,之后 Benie 意识到,也许是由于自己之前每次听到霍金讲话,都会在心里默默地给他脑补一丝英式口音的感觉。

接下来几周的时间里,位于剑桥和帕洛阿尔托两处的团队成员继续对这一新声音进行调试,用霍金以前的一些演讲片段以及充满随机停顿内容的样本文本来对它进行测试,并分析结果。

1 月 17 日,该团队认为终于是时候向霍金展示这一新声音成果了。Wood、Wozniak 和 Benie 一起前往霍金位于剑桥的家中,并在一台 Linux 笔记本电脑上播放了他们的样本。令他们开心的是,霍金对此进行了肯定,这听上去确实像他的声音,这也让整个团队都松了一口气。

接下来,他们仍然需要将声音移植到霍金的个人电脑上。权宜之计,Wood 提出将这一声音版本先加载到一个名为 Raspberry Pi 的微型硬件主板上,因为他认为霍金可能会想在日常生活中先对这一声音进行一下评估,而 Pi 是实现这一评估最快捷的方式。

1 月 26 日,Wood 带着Raspberry Pi 硬件主板去到霍金的家里,问他是否想要尝试一下,霍金抬了抬眉毛表示愿意。

Wood 将 Pi 放到一个小小的黑盒子中,用魔术贴将它固定到霍金的轮椅上,并将其与音箱连接。然后他们断开了 CallText 的连接,这也是过去 33 年以来,霍金第一次离开 CallText 来讲话。

Wood 急切地等待着霍金的评价。

“我很喜欢”,霍金说道。

接下来的几周时间里,在私人会话场合,霍金一直使用模拟器和 Raspberry Pi 的辅助,与朋友和同事聊天。Wood 表示:“能为他提供这样的设备,我们感到很开心,毕竟这也是这么多人努力这么多年的心愿所在。”

接下来,就只差最后一步了,就是给出这个声音的 PC 版本。一开始有点小错误,但进展还算顺利,在修改了几个代码之后,他们终于完整地完成了这一项目。

Dorsey 说道:“我们几乎克服了所有的技术障碍,到最后,所有人都认为肯定没错了,肯定能成,终于完成了。”

而那时,已经到了二月,霍金也是那个时候身体开始出现不适。

 “虽然没有来世,但他的声音却会永远存在下去。”

据 Wood 透露,直到临终前,霍金一直都在用这一模拟器。他都是通过 Raspberry Pi 上的新软件与他的亲友和护理人员进行交流。参与项目的每个人心里都清楚,霍金的时间不多了,他可能等不到从这一模拟器中获取更多的用途了。霍金之前也病过,但每次总能好起来。2014 年,在 Wood 首次联系Dorsey 时,正值霍金 72 岁。当时,他们认为霍金用的 CallText 设备可能只能再支撑半年,而霍金应该能活到 80 岁。

听闻霍金去世的消息之后,除了悲伤,Dorsey 也感到有些失望。他和整个团队多年来一直殚精竭虑,只为能再现这样一个能够良好运转的声音,但现在却没人去用了。

此外,这个项目也让他想到了那个年轻时候的自己,那个想利用工程技术去做好事、帮助别人的自己。多年前,在为 CallText 研究语调算法时,他无论如何也想不到自己的成果会被霍金这样一位科学天才所钟爱。

技术更新换代很快,绝大多数设备最后都只是被丢弃在历史的角落里,落得一层厚厚的灰尘。当我们离开这个世界时,我们的声音也会随我们离去。但霍金的声音不同。原来的 CallText 设备属于霍金遗产的一部分,支配权属于霍金的家属。CallText 模拟器这一新软件也是如此,他们表示如果未来有相关平台,这一新软件可以移植到这些新平台上。

众所周知,霍金是一位无神论者,不接受还有来世这样的说法。他曾经说过:“我们只有这一世来欣赏这一浩瀚而宏伟的宇宙,为此,我非常感激。”现在,虽然没有来世,但他的声音却会永远存在下去。

原文链接:https://www.sfchronicle.com/bayarea/article/The-Silicon-Valley-quest-to-preserve-Stephen-12759775.php

编译组出品。编辑:郝鹏程

推荐阅读

  • 了解你的“竞争优势圈”,像巴菲特一样避开错误

    发表于 2018-06-22 06:10:58

    编者按:作为“股神”的巴菲特一言一行都引人注目,作者在文中介绍了巴菲特避免错误的办法——认识到自己的“竞争优势圈”,将决策尽量保持在这个圈子的范围里,但要随着时间的发展,逐渐拓展这个圈子的范围。原文标题Understan...

  • 大佬言论 | 雷军:小米的估值是腾讯乘苹果

    发表于 2018-06-22 06:10:58

    6月21日,小米在香港举行IPO路演,针对此前对于小米高估值的质疑,雷军表示,“我不care小米是不是互联网公司。很多人问我到底是给小米腾讯的估值还是苹果的估值,我说我要腾讯乘苹果的估值,因为小米是全能型的。”雷军说,“...

  • 联合办公企业 Knotel 收购柏林创企 Ahoy!Berlin,进一步扩张欧洲市场

    发表于 2018-06-22 06:10:58

    近些年来,联合办公已经成为一个热门领域。今年1月,氪空间获6亿融资;3月,「米域」获4亿元融资;同月,「梦想加」获3亿元融资;国际联合办公巨头WeWork更是估值超200亿。在美国,联合办公的赛道上已经有不少玩家入局,K...

  • 建立城市自动化配送中心,「CommonSense」想帮助零售商一小时交货

    发表于 2018-06-22 06:10:58

    零售电商领域,消费者希望能更快的收到线上下单的商品,零售商希望提升配送速度,同时降低整体运营成本。特别是食品杂货,消费频次高且是刚需,配送能力越发成为零售商的重要竞争力之一。以色列创业公司CommonSenseRobot...

  • 天恒造墅观:让每一栋别墅都有自己的生活场景

    发表于 2018-06-22 06:10:58

    临山而居,择水而栖,是人类的智慧与幸福。河畔居住,水岸生活从来就是人类的美好夙愿。作为高端的居住形态,这种理想的生活场景成为很多别墅项目所着力去打造的一种境界。近日,天恒·水岸壹号联合“亿天使公益机构”、特邀著名历史学家...