|
Siri,是一个复杂的系统,是由语音识别,语义分析,知识库,搜索等不同的模块构成的。提问者的问题应该是比较关心自然语言理解。我来回答自然语言理解的部分吧。这不是一个独立的学科,我个人认为是一个交叉学科,涉及到很多方面的知识。英文中它叫做Natural Language Understanding. 斯坦福大学的这门课是关于这个的,比较全面的介绍了不同的知识。自然语言理解中还有一个比较重要的就是语义的理解,可以研究Computational semantics相关的内容。TFIDF是信息检索中常用的基于统计的方法,虽然在文档检索中有很好的表现,但是在语义分析中并不是很有效。相比之下,LSA也是基于统计的,可能更好一点。也有用topic model来做语义分析的,比如LDA算法。我个人比较看好结合知识库和统计的方法,Watson就结合了知识库,谷歌的Knowledge Graph就是一个知识库,它是以freebase为基础的,有一个不错的免费的知识库叫DBpedia,它是基于wikipedia的。
|
|