第8章 8．质疑 - 数字生命 - 大河文学手机版

“这样说吧，从语言学的角度要解决这个识别的问题，这个大家都明白，我也参与过一个叫‘言语的产生、识别与编码’的项目。目前，所有的机器识别，都是基于字词和语音的，语法是一个从属的地位，因为汉语的语法和其他语种区别太大了，规律性并不明显，虽然按照西方的语法范式，能够总结出现代汉语使用的大部分规律，但是这并不足够。字词的语音识别，产生的素材，被语法模块排列组合起来。而标点符号，机器自己是无法添加的，因为没有断句的功能。这也就是基于语音的机器语言学。”

“那又没有什么解决方法呢？”吕振羽问。

“索绪尔在《普通语言学教程》里有一句话，声音脱离了书写符号，就只是一些模模糊糊的概念。但又有另外一句话，文字越是不表示它所应该表现的语言，人们把它当作基础的倾向就越是增强。……这两句话有同一个核心，那就是文字，而位于文字两边的则是语音和语义。我想，现在主要的瓶颈在于，语言的识别智能停留在语音到文字的阶段，而从文字到语义，则需要一个人自己去进行操作。语义是一个很复杂的东西，凭着你现在掌握的这个人工智能，你肯定可以做出能比较好的理解语义，从而对文本进行修正的软件，你刚才也说了，你的这个造句程序，缺乏的就是常识层面的东西。如果加上这一块，对于语音辨识的判读是不是就完整了呢？也不是，因为这个常识本身就是有弹性的东西，很多不合乎常识的表达方式平时我们一直在用，你说那是修辞手法也可以，但我们平时都是能理解的，为什么？因为我们使用语言，无论文字形式还是语音形式，都是基于一个基本的使用环境，也就是所谓的语用。在语用的前提下，语义才会完整。”方治强的说法已经非常非常浅显，大部分的概念都没有解释，但中文的强大适应性也从这些名词上体现了出来，不需要解释，相信吕振羽也能够理解大致的含义，而在这个局面下，大致理解也就足够了。

吕振羽回味着方治强的话，反反复复地想着，突然说：“那是不是说，如果这样一个引擎能基于语义学和语用学来进行开发，然后结合语音识别现有的成果，就能够比较完善了？”

方治强赞赏地说：“说得对，只要你能做到。这并不容易。但只要你能将语用和语义的层面形成程序，语音方面的问题就是小问题了，什么语音流变什么的根本不用太当回事。”

请大家记得我们的网站：大河文学(m.dahewenxue.com)数字生命更新速度全网最快。