C10:书评周刊·科学
 
前一天  后一天

数字版首页 > 第C10:书评周刊·科学
上一篇

数学如何改变IT,改变生活

2012年07月21日 星期六 新京报
分享:
《数学之美》
作者:吴军
人民邮电出版社
2012年5月
定价:45.00元

  □书评人 阳淼

  给《数学之美》写书评是件挺难的事。霍金曾经说过,一本书里的公式如果多出一个,读者就会少掉一半。吴军先生的这本书讲到了数学在互联网中的种种应用,涉及到自然语言处理、搜索引擎原理、信息论等在普通人看来比较尖端的技术,用了不少又长又复杂的公式。要想一个公式不用地把这本书的精髓介绍出来,本身就是个挑战。

  计算机产业自从出现以来,其发展速度之快就一直令人称奇。从1946年第一台计算机诞生,到现在不过短短60多年,整个产业给人类生活带来的质量提升,已经在许多方面超过了数千年的农业社会和两百多年工业革命的总和。在硬件基础上,每18个月运算能力翻一番的摩尔定律,使人类拥有的运算能力以几何能力增长;而为了让这些能力能够及时释放出来改变技术、经济与其他方方面面,就要依靠数学。

  从《数学之美》里,我们可以看到这一过程的详细解释。数学工具的美妙之处在于,可以把看似纷繁芜杂的人类面临的问题,抽取为简单的模型;再依靠计算机的强大运算能力,将这些问题解决。解决问题的效率成百上千甚至上万倍地提高,计算机对人类生活的深刻影响自然而然地就得到了深刻体现。

  例如,对人类数千年来积累的知识如何进行管理,一直是个难题。计算机能够方便地存储、交换庞大的信息量,互联网出现后,信息的产生与流通速度更是大大加快,同时,谷歌数字图书馆等业务也在不断地将人类原有的知识数字化。如何高效地利用这些信息呢?

  首先,要有一个足够大的类似“图书馆”的设施存储这些知识,目前互联网承担起了这一职能。然后,像图书馆都有查书卡片一样,这些知识也要建立起自己的索引。可以想象每本书或者文章是一个节点,书与书之间互相的引用,与思想源流和工具方法的彼此继承,构成了节点之间的连线。在互联网上,一个网页就是一本书,把各个网站联系在一起的超链接,就是它们之间的连线。

  这就把知识的索引问题简化为数学中的图论:如何用最少的步骤也就是最快的速度,建立其包括所有网页知识的索引。这在数学中已经有了成熟的算法(图的遍历)。

  如果说这还是凭借着高中数学就能想象的解决方式,那么数学在解决自然语言处理方面的思路,就令人拍案叫绝了。要让计算机拿出我们需要的答案,得先告诉它我们的问题是什么。计算机如何理解人类的自然语言呢?按照人类的一般思路,我们得先教会它划分主谓宾、定状补,再根据各个成分的含义判断我们的需求。但人类语言中的词语浩如烟海,如何组合又与习惯、素养、环境密切相关,这种复杂方式显然不适合计算机:计算机强的是计算能力,弱的则是综合。

  数学家们想出了一个最“暴力”也最有效的办法:列举出所有这个语句可能的语义选择,再选择出其中概率最大的那一句,把它作为结论。前半部分是排列组合,这个计算机最擅长;后半部分就涉及到一些统计学的知识,主要是一种叫做马尔可夫链的东东,非数学、计算机专业不用去深究,知道这个问题能用计算机解决就行了。这种办法看上去最笨,但最符合计算机的胃口,效果也往往出奇得好。我们所使用的很多拼音输入法,以及中文搜索,就是利用这个原理解决的。此外,它还具有数学工具的特色:简洁高效。

  《数学之美》中为了达到严谨和可操作的目标,引用了大量相关公式,作者希望一些程序开发相关专业的读者,读了书之后能直接做出相应程序来。但这并不意味着本书仅仅适合程序员阅读。即使把那些公式全部忽略掉,书中的主体思想依然清晰可辨,甚至同样具有数学的简洁之美。

更多详细新闻请浏览新京报网 www.bjnews.com.cn