Siri 通过语音识别提供智能助手服务，这样一个产品的技术挑战在哪里？

peijian21cn · 发表于 2013-2-9 18:43

简单来说，Siri是个语音识别+知识处理+应用接口+语音合成软件，单论这每项技术，是没有什么神奇超前的，然而能把这些技术完美无缝整合起来做的如此智能，却不是谁都可以做到的，直接拉开和其他语音命令类软件的差距，你可以抛弃繁琐的语法结构，甚至思维模式也可以混乱，Siri会结合上下文结构去理解，它还会从人类语言史的角度出发，利用人工智能系统去分析，并在绝大多数情况下领会你的意思。而更加人性化的特点是，一旦你开始和Siri进入一段对话，它甚至能理解许多含义模糊或者引申的语义。而Voice Actions做不到这样的事情，因为它只是一个声控命令软件，而并非人工智能。语音识别不是革命性的。多年前，IBM 的语音识别软件在 PC 上就有不错的识别率了。基于语音识别，简单的智能分析和系统功能的调用也不算革命性的。无论是Google的Voice Action，还是Vlingo 等独立的公司都做的还不错，但是，Siri 的智能程度更高。
Siri 并非这些已知技术的简单组合。Siri也并非一个独立的产品，一方面，它后台有强大的Wolfram|Alpha和Wikipedia 知识库做支撑，另一方面，它还有一系列的自有的或第三方的应用：天气，日历，地址簿，邮件/短信，影讯，搜索引擎，问答。Apple他们可能花了大量的时间协调应用程序接口。Siri实际上扮演了中间人(Broker)的角色。这是一个难以扮演的角色，如何把天气的问题交给天气的应用而不是影讯的应用，如何把一个短信给短信而不是搜索引擎，并非一件易事而需要分辨使用者的真正意图。这也是一个狠角色，一旦整个生态系统建成，应用和语音识别引擎都可以更换。所以尽管在这之后其他只能平台上也雨后春笋般的涌现出了一大堆所谓的xx版Siri，但无论从智能程度和易用性等各个方面和Siri的差距都可以用天上地下来形容。

flyingPig402 · 发表于 2013-2-9 19:43

最大瓶颈应该还是在语义理解跟人工智能上面，目前还没有一个完整的思路

fallingstar7668 · 发表于 2013-2-9 20:34

可以做语音识别，技术很容易达到，那语义语法结构很重要，要让机器知道你说的什么，该怎么回答，需要设计语言模型，那后面呢，不需要强大的声学模型吗。

Siri 通过语音识别提供智能助手服务，这样一个产品的技术挑战在哪里？

浏览过的版块