基本信息
【插图】

编辑推荐
《数学之美》第一版荣获国家图书馆第八届文津图书奖;
2014中国书业评选年度图书;央视新闻推荐的学科敲门砖;
入选新闻出版广电总局“2014年向全国青少年推荐百种优秀图书书目”;
荣获2012-2013年度全行业优秀畅销书;
业界专家和高校教师推荐:信息领域大学生必读好书。
《浪潮之巅》、《文明之光》作者吴军博士最新力作,李开复作序推荐,Google黑板报百万点击!
第二版增加了大数据和机器智能等最新内容,并根据专家和读者反馈做了修订,与时俱进更新了部分内容。
内容简介
计算机书籍
几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。 正式出版前,吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。
《数学之美》第一版上市后深受广大读者欢迎,并荣获国家图书馆第八届文津图书奖。读者说,读了《数学之美》,才发现大学时学的数学知识,比如马尔科夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。
而今,数学在信息产业中的应用越来越广泛,因此,作者在第二版中增加了一些内容,尤其是针对大数据和机器学习的内容,以便满足人们对当下技术的学习需求。
作译者
吴军博士是谷歌公司早期员工之一。在谷歌,他和辛格(美国工程院院士,世界著名搜索专家)、Matt Cutts(谷歌反作弊官方发言人)等三位同事一起开创了网络搜索反作弊的研究领域,并因此获得谷歌工程奖。2003年,他和谷歌全球架构的总工程师朱会灿博士等共同成立了中日韩文搜索部门。吴军博士是当前谷歌中日韩文搜索算法的主要设计者。在谷歌期间,他还领导了许多研发项目,得到了当时公司首席执行官埃里克?施密特和创始人谢尔盖·布林的高度评价。
2010年—2012年,他加盟腾讯公司,出任负责搜索和搜索广告的副总裁,同时担任国家重大专项“新一代搜索引擎和浏览器”项目的总负责人。2012年回到谷歌,负责开发了被认为是“下一代搜索”的谷歌自动问答系统。同年,他作为创始合伙人共同创立了中关村硅谷风险投资基金(ZPark Venture)。
吴军博士在国内外发表过数十篇论文,曾获得全国人机语音智能接口会议的最佳论文奖和Eurospeech的最佳论文奖。他还获得了十余项美国和国际专利。
吴军博士还担任约翰·霍普金斯大学工学院董事会董事和校国际事务委员会顾问,他也长期担任中国工业和信息化部的专家顾问。同时,他也是数家投资基金、创业公司的董事和顾问。
目录
第二版出版说明
第一版序言
第二版序言
第二版前言
第1章 文字和语言vs数字和信息
1 信息
2 文字和数字
3 文字和语言背后的数学
4 小结
第2章 自然语言处理——从规则到统计
1 机器智能
2 从规则到统计
3 小结
第3章 统计语言模型
1 用数学的方法描述语言规律
2 延伸阅读:统计语言模型的工程诀窍
3 小结
第4章 谈谈分词
1 中文分词方法的演变
媒体评论
——蒋涛/CSDN&《程序员》创始人
最初看到《数学之美》,是谷歌黑板报上的连载文章。里面的公式并不是很多,但是很多看似颇为复杂的概念,吴军老师却能够如讲故事般娓娓道出,着实看出作者对这些问题有着深入且独到的见解,读后受益匪浅。这次有幸在《数学之美》出版之前拜读了初稿,欣喜看到新书在章节连贯和语言方面都较黑板报的连载文章有了较大的提高,相信每一个喜欢数学、乐意欣赏数学之美的读者,一定会觉得开卷有益。
——张磊/微软亚洲研究院主管研究员
我不做研究,也自觉没有做研究的底子。然而,数年前看到吴军老师的《数学之美》系列时仍然还是被深深地迷住了。正如作为一个十几年的科幻爱好者,深信在平凡的生活和工作之余应得闲仰望星空一样,作为生活在信息社会的个体,在上微博、搜Google、发邮件之余,关上显示器,能够透过《数学之美》这样的杰作,一窥纷繁涌动的数字世界背后的引擎数学之美,实乃一件幸事。
——刘未鹏/《暗时间》作者
第一次接触吴军老师的“数学之美”系列,是在搜索bloomfilter资料时,读了其中一篇后,就把其他的文章都读了,感触很多:首先,改变了观点:原以为在计算机系学到的数学基础在工作中一无是处,现在懂得:知识要落地,最重要的是理解知识的由来;其次,任何复杂的问题最终可以用简单的方式去解决,我们往往会陷入不断给问题增加难度的复杂解法,而忽视了简单直接有效的方法。
“数学之美”系列文章,整体和细节的度掌握得很好,通过具体的例子让读者学到的是思考问题的方式,同时留了很多问题给愿意钻研的人做进一步深入思考。BTW,“数学之美”系列,是我在技术领域介绍中读过的最好的文章之一,让人学会如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。
——岑文初/淘宝开放平台技术产品负责人
书摘
第二,页面的分析和URL的提取。
在上一节中提到,当一个网页下载完成后,需要从这个网页中提取其中的URL,把它们加入到下载的队列中。这个工作在互联网的早期不难,因为那时的网页都是直接用HTML语言书写的。那些URL都以文本的形式放在网页中,前后都有明显的标识,很容易提取出来。但是现在很多URL的提取就不那么直接了,因为很多网页如今是用一些脚本语言(比如JavaScript)生成的。打开网页的源代码,URL不是直接可见的文本,而是运行这一段脚本后才能得到的结果。因此,网络爬虫的页面分析就变得复杂很多,它要模拟浏览器运行一个网页,才能得到里面隐含的URL。有些网页的脚本写得非常不规范,以至于解析起来非常困难。可是,这些网页还是可以在浏览器中打开,说明浏览器可以解析。因此,需要做浏览器内核的工程师来写网络爬虫中的解析程序,可惜出色的浏览器内核工程师在全世界数量并不多。因此,若你发现一些网页明明存在,但搜索引擎就是没有收录,一个可能的原因是网络爬虫中的解析程序没能成功解析网页中不规范的脚本程序。
第三,记录哪些网页已经下载过的小本本— URL表。
……