语音控制会让互联网重新洗牌

云资讯 2015-03-27 11:45:50 转载来源: 网络整理/侵权必删

杰森·玛尔斯（Jason Mars）打造了属于自己的 Siri，然后贡献了出来。他是密歇根大学的一名计算机科学教授，与该校数名研究人员合作，于最近开发出了一个可以对语音命令做出即时反应的数字助手 Sirius，就像 iPhone 上的 Siri 一样

杰森·玛尔斯（Jason Mars）打造了属于自己的 Siri，然后贡献了出来。他是密歇根大学的一名计算机科学教授，与该校数名研究人员合作，于最近开发出了一个可以对语音命令做出即时反应的数字助手 Sirius，就像 iPhone 上的 Siri 一样。接着玛尔斯开源了 Sirius，免费向全世界分享其代码。

软件工程师可以通过 Sirius 探索现代语音识别的复杂性，甚至在自己的移动应用中加入语音识别功能。在玛尔斯看来，这就是世界的动人之处。

但这一项目还有另一目的。玛尔斯也意识到，支撑如今互联网的庞大计算中心还没有准备好迎接即将到来的语音革命，他希望通过 Sirius 向这些机构展示该如何改变。他说道：“我们想要理解该如何建造未来的数据中心。”

要知道，像 Siri、 Google Now 和微软 Cortana 这些数字助手并不只是运行在手机上。它们运行在计算中心数以千计的机器里，而随着全球越来越多的人使用这些服务，普通机器已经无法满足运行它们的要求了。因为这会占据太多空间，消耗太多能源。我们需要高效得多的硬件来做这件事。

通过 Sirius 这一开源项目，马尔斯及其同事们（包括一位名为 Yunqi Zhang 的密歇根博士生）就能展示像 Siri 这样的工具如何在数据中心里运行，并最终识别出最适合运行语音服务的硬件。这样的硬件也能用在其他重塑互联网的人工智能工具上，如人脸识别、无人驾驶汽车。

让谷歌搜索相形见绌

在测试 Sirius 时，玛尔斯已经证明，用传统硬件运行 Sirius 需要的设备数量、空间和能源是谷歌搜索等基于文本的搜索引擎的 168 倍。考虑到语音识别不仅是移动手机也是可穿戴设备的未来，这根本不切实际。玛尔斯表示：“我们将遇到瓶颈。”数据中心不仅占据空间，需要海量资金来建设，还会消耗海量能源。

问题是：用什么硬件来取代传统机器？

这不仅会影响到苹果、谷歌、微软以及众多应用开发商，还会影响到销售数据中心硬件的公司，乃至英特尔和 AMD 等知名芯片制造商。AMD 首席技术官 Mark Papermaster 表示：“这对于我们的未来意义重大。”

这也是玛尔斯开展 Sirius 项目的原因。苹果、谷歌和微软知道这一新兴服务如何运行，但世界上其他人不知道，而他们又需要知道。

并行宇宙

从谷歌的网络搜索服务到 Facebook 的社交网络等大部分网络服务都运行在英特尔、AMD 的服务器芯片上（主要是英特尔）。问题是：这些中央处理器并不怎么适合运行 Siri 等语音识别服务，因为语音识别服务需要同时进行非常多的小规模计算。

正如谷歌、微软、百度等公司所说的，这些计算在最初用于处理复杂数字图像的图形处理（GPU）芯片以及用于特定任务的可编程门阵列（FPGA）芯片上进行效果更好。谷歌已经在 Google Now 中使用 GPU 来驱动类似于人脑的“神经网络”，微软则在用 FPGA 驱动必应搜索引擎的部分功能。

虽然必应并不处理语音，但 GPU、FPGA 能提高所有需要快速完成的网络服务的效能，主要是因为它们无需消耗太多能源，也不占据太多空间。

基本上，如果采用 GPU 和 FPGA，人们就能在一台机器上安装更多芯片。尽管单个 GPU 或 FPGA 芯片不像 CPU 一样强大，但却将更大的计算分成小块计算任务，然后分配给这些 GPU 或 FPGA 芯片处理。这在语音识别等应用上尤其吸引人，并行计算就是为它们而生。Papermaster 表示：“许多新兴服务要求非常快地对海量信息进行筛选。由于这些任务的重复性，可以通过 GPU 或 FPGA 来加速完成。”

GPU 现在不仅是语音识别的必然之选，也是其他基于神经网络的服务的选择。这些“深度学习”工具涉及人脸识别、精准广告等服务，最终它们还将帮助驱动无人驾驶汽车和机器人。负责谷歌大部分深度学习工作的 Jeff Dean 表示，谷歌现在在混合使用 GPU 和 CPU，以运行驱动着约 50 种谷歌网络服务的神经网络。

不过微软也证明，FPGA 可以成为另一种选择。通过开源数字助手 Sirius，杰森·玛尔斯要寻找最适合未来互联网服务的现代数据中心架构。

不限于苹果和谷歌

目前答案依然不明朗。但通过 Sirius，玛尔斯至少证明了 GPU 和 FPGA 是比 CPU 更好的选择。玛尔斯表示：“未来的数据中心设计必然要包括 GPU 或 FPGA。这至少能带来一个数量级的提升。”

他表示，人们可以通过编程让 FPGA 做任何事情，FPGA 的效率要比 GPU 高得多（根据密歇根大学的测试，FPGA 的性能是 CPU 的 16 倍，GPU 约为 10 倍）。但它们需要更多的设计工作。谷歌、苹果和微软等公司必须招聘能给它们编程的工程师。

GPU 也需要一些额外工作。在使用 FPGA 时，工程师必须对软件进行定制，以适应这些芯片。但工程师无需对芯片进行编码。基于这一原因，GPU 要更为可行，尤其是考虑到语音识别工具最终将不再局限于苹果、谷歌和微软，还会进入不大愿意雇佣芯片工程师的公司中。

玛尔斯说道：“Siri、Cortana 和 Google Now 以及实时进行数据分析和处理视频的先进应用就是技术的发展方向，也是行业的发展方向。”

不管这一切会怎么实现，都将重塑计算机芯片领域。英特尔已经在探索 FPGA。GPU 制造商英伟达正将深度学习浪潮推向新高峰。数年前收购了 GPU 制造商 ATI 的 AMD 也在持续深入这一领域。正如 Papermaster 所说的，AMD 正在与行业内的各个公司合作，以便打造出能让程序员更容易为 GPU 编写软件的工具。

考虑到 Facebook 和微软等互联网公司正在探索在数据中心里使用低功耗的 ARM 芯片，芯片市场注定会在接下来数年中发生重大变革。杰森·玛尔斯以及他的 Sirius 项目旨在展示这一未来会是什么样。但 Sirius 也可能驱动这一变革。毕竟，如果大家都在运行自己的 Siri，他们就需要自己的芯片。

via wired

编辑：admin

标签: 语音控制互联网重新洗牌