欢迎光临上海科技教育出版社书城!

数据分析简史:从概率到大数据

  • ISBN:ISBN 978-7-5428-7710-9/N·1103
  • 著译者:项亦子 著
  • 出版时间:2023年2月
  • 定价¥108.00
  • 印次
  • 版次
  • 装帧
  • 开本/字数:16开
  • 视频资料下载

序 言


问:你是谁?你从哪里来?要到哪里去?

答:我们八零后是从信息时代而来,正处于大数据时代,要赶往人工智能时代。


很久很久以前,我们的祖先总是习惯于被动地接受大自然赐予的一切,小心翼翼地去敬拜各种各样的神灵,生怕“犯错”得罪了哪一位神祇而引起他的暴怒,带来灾害。即使起源于天文数据革命的近代科学也没有帮助人类摆脱被动的局面,我们的祖先所能做的就是尽量去探索和了解这个“客观”世界。很长时间内,人类活动基本就是观测自然——得到数据——分析数据——获取信息——形成知识。为了获取科学知识,我们就需要对观测到的数据进行分析。在与几代人累积下来的数据打交道中,人们最终发现了观测的误差分布理论。这是一个伟大的成就,被应用到了科学的各个分支,比如物理学、生物学甚至经济学。但不久之后,一场统计学革命席卷而至,这场革命的领导者皮尔逊声称观测误差并非那么回事,或者说根本就没有误差,我们观测到的并不是所谓的物质实体,而是统计分布本身。这一革命性的思想助推了20世纪科学的新走向,人类把对物质实体的研究逐渐转变为对“信息”的研究,科学研究的方法也从观测自然发展到人工模拟自然。像所有的革命一样,那些正确且适用的东西被保留下来,继续传承。对于数学和统计学至关重要的观测行为为人们打开了新的视野,分形、模糊和包络分析让人们从不同于以往的角度去看待信息。至此,数据分析的历史演化清晰地展现了人类是怎样从大自然获得的原始数据中抽取信息形成知识,一直到开始研究信息本身的抽象性质的这一过程。

今天,爱好科学新知的人们茶余饭后讨论得更多的科学问题或许是人工智能的“奇点”何时会到来。1983年,数学家、科幻小说家温格提出技术奇点的概念。他将奇点定义为人工智能超过人类智力极限的时间点,在那一时间点后,世界的发展将会超出人类的理解范畴。自此之后,“技术奇点”仿佛一把达摩克利斯之剑,最开始的时候感受到它存在的只是一些科幻作家和所谓的“未来家”“预言家”,但随着计算机技术的发展,越来越多的科学家、经济学家和企业家,如太阳微系统创始人乔伊、经济学家汉森等,都开始担忧头顶这把摇摇欲坠的利刃。2009年,未来学家库兹韦尔与X-Prize创始人迪亚曼迪斯共同建立了奇点大学,致力于“聚集、教育并激励一批核心的领导者,以应对人类在指数增长的科技下遭遇到的重要挑战”。

但现在来看,图灵机模型即现代计算机雏形的提出才是人类命运真实的拐点,没有此拐点就不会有我们翘首企盼的奇点临近。如果奇点真能在未来几十年内降临,它的另一个关键出发点要追溯到1960至1980年间统计学领域出现的又一场革命。上一场统计学革命刚建立起来的费希尔理论体系被一种新的体系取代了—这一体系是用统计方法研究“机器学习”规律,故而也被称为统计机器学习理论。“学习”的问题都是非常一般性的问题,统计学中研究的几乎所有问题都可以在学习理论中找到对应,而且一些十分重要的一般性结论也是首先在学习理论的范畴内被发现,然后再用统计学术语重新表达。统计学习理论直接辅助了人工智能的崛起,从此机器能够高效地“学习”了。而且我们甚至会惊讶地发现,那些生物学里的探索成果以及早年用于描摹星辰运行轨迹的算法居然也可以用在智能机器人身上,使得它们能主动地智能化行事。而人类几百万年来的存亡大计或许也将在奇点到来后发生巨大的变化,未来的世界将进入一片新天地。

我们看到科学的发展大体上是从研究“独立于主观的客观真理”到研究“链接主客观的信息”再到“反映客观的主观真理”。而对于伴随科学成长的数据分析而言,整部数据分析史就是辅助人类研究客观世界到研究主观世界演化的历史。那么到底数据是什么呢?数据分析又是什么呢?在现代汉语词典中,数据的解释是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。数据可以是连续的,比如声音、图像,这些被称为模拟数据;也可以是离散的,如符号、文字,这些被称为数字数据。在如今的计算机系统中,数据以二进制信息单元0,1的形式表示。而词典中关于数据分析的解释是用适当的统计分析方法对收集来的大量数据进行分析,从而提取有用信息并形成结论。在实际应用中,数据分析可帮助人们做出判断,以便采取适当行动。

数据分析起源于天文学、生物学和城邦政情。数据分析所必需的是统计学的思想,而统计学的思想古已有之,可以说是在人类早期的社会实践活动中萌芽的。统计学的思想主要包括计数思想、均值思想、变异思想、估计思想、相关思想、拟合思想和检验思想等。

统计学的踪影在古汉字“数”和“算”中就可以找到。从字义上看,“数”为查点数目,“算”为计算数目。从字形上看,古“数”字左边是一条绳子打了一串大小不同的结,而右边是一只正在打结的手;“算”字从“竹”到“具”表示以算筹为工具进行的统计计算。这从一个侧面反映了早在文字形成初期,中国已经开始了结绳计数。从太古时代起,统计各种数据对人类而言就是一件重要的事,如分配食物、分组围猎等。

在人类的历史中,处处有统计学的踪影。早在公元前4500年,巴比伦王国就开始对地籍、人口、农具、牲畜等进行调查。公元前3050年,古埃及进行全国人口和财富登记以修建金字塔。

根据魏晋时期皇甫谧著的《帝王世纪》中的记录,公元前2200年,中国夏禹时期就开始记载土地和人口:“禹平水土,还为九州,今禹贡是也。是以其时九州之地,凡二千四百三十万八千二十四顷,定垦者九百三十万六千二十四顷,不定垦者千五百万二千顷。民口千三百五十五万三千九百二十三人。”

约公元前1238—前1180年的商朝时期,甲骨文中记载了“登妇好三千,登旅万,呼伐羌”,这里不仅有统计数字,而且有简单的情况表述,说明商代已有人口调查统计的表册。

约公元前1100—前771年,西周参照商朝官职,在周王以下设有天、地、春、夏、秋、冬六卿,为执政大臣,对国家行政事务各负专责,并办理各部门统计工作基本上形成了分散的统计组织。《礼记·王制》里有“视年之丰耗,以三十年之通制国用,量入以为出”,这说明西周已经有了平均数的思想,而《周易》里的“方以类聚,物以群分”则体现了现代统计分组法的基本思想。到了春秋时期,管仲(约公元前723—前645年)曾提出四民分业定居论,把百姓按照职业分为四个社会集团——士、农、工、商。这是我国最早的类型分组。

公元前453年,罗马帝国制定了对人口、土地、牲畜等每五年调查一次的规定,这是最早的人口定期调查制度。

公元前450年,历史上的第一位数学家希庇亚斯用以前每个国王执政时间长短的均值推算出首届奥运会是距当时300多年前的公元前776年举办的。这是人类最早对均值这一概念的使用。

公元前445年战国时期,魏文侯任用李悝为相,实行变法,著《法经》六篇:《盗法》《贼法》《囚法》《捕法》《杂法》《具法》,其中含有许多有关统计法规的思想内容。

公元前431年希腊伯罗奔尼撒战争中雅典人让士兵数城墙砖的层数,取数据的众数乘以每块砖的厚度推算城墙的高度。这是人类最早对众数这一概念的使用。

公元前400年,印度史诗《摩诃婆罗多》中国王用两个大树枝上的果实和叶子的数量乘上树枝的数量估算整棵树上果实和叶子的数量,这是已知最早的抽样推断。古希腊哲学家亚里士多德(公元前384—前322)撰写了150余个城邦纪要,主要包括若干城邦的历史、行政、科学、艺术、人口、资源和财富等社会和经济状况的统计、比较和分析。“城邦政情”式的统计研究延续了2000多年。

《史记·秦始皇本纪》记载,公元前230年,中国进行了人口统计史上第一次分年龄的人口登记—“十六年九月,发卒受地韩南阳假守腾。初令男子书年”。公元2年,中国汉代进行了人口普查,普查结果是1223万家庭,5959万人口。记载的数据被认为相当准确。

《圣经·新约·马可福音》记载,公元30年,耶稣传道。耶稣对银库坐着,看众人怎样投钱入库。有好些财主,往里投了若干的钱。有一个穷寡妇来,往里投了两个小钱,就是一个大钱。耶稣叫门徒来,说:“我告诉你们,这穷寡妇投入库里的,比众人所投的更多。因为他们都是自己有余,拿出来投在里头﹔但这寡妇是自己不足,把她一切养生的都投上了。”这是比例思想的源头。

公元840年,伊斯兰数学家金迪利用最常用符号和最常用字符破解了伊斯兰密码,频数分析由此出现。

公元1069年,英格兰国王威廉一世在《末日审判书》(其正式名称应是《土地赋税调查书》或《温彻斯特书》,又称《最终税册》)中对新王国村庄和牲畜进行调查,这是英国官方最早的统计记录(根据调查结果,当时英格兰约150万人,其中90%是农民)。

公元1150年,英国皇家制币厂通过随机样本进行等比例抽样检验,对硬币纯度和质量进行年度检验,这个方法延续至今。

……


这些是数据分析的早期统计思想的萌芽。

         




前 言



“东数西算”是我国继“南水北调”“西电东送”“西气东输”等工程之后启动的又一个大工程。“东数西算”中,“数”指的是大数据,“算”指的是算力,即对数据的处理能力、计算能力。算力,如同农业时代的水利、工业时代的电力,已成为数字经济发展的核心能力之一。“东数西算”就是把我国东部沿海地区在生产生活中产生的大数据放到大西部去计算,为什么要这样做呢?因为东部地区经济发达,在经济活动中会产生大量的数据,但数据中心耗能较高、消耗的水资源较多,东部地区能源、水资源、土地等资源稀缺,发展数据中心受限,而西部地区电力能源资源丰富、水资源相对丰富、空间资源广阔,可以满足东部地区算力的大量需求,因此“东数西算”也应运而生,有助于我国的大数据工程在东西两地优势互补,优化资源配置。

本书是对大数据发展历程的一个全面而基本的介绍,从最早的统计学概念“概率”开始,经过“期望”“贝叶斯公式”直至“云计算”“深度学习”“大数据”为止,是对大数据感兴趣的大众尤其是学生的一本很好的科普读物,也是了解“东数西算”工程的一扇大门。

“东数西算”工程以大数据分析为基础,这一工程对我国来说有着举足轻重的意义。它不但能节省能源、绿色减排,更能拉动西部的数字经济,带动西部经济发展,对开发大西部做出贡献。而笔者的这本书能在此时问世,实属荣幸,能够帮助大众对国家重大工程有所了解,哪怕只是做出一丁点贡献,笔者也甚感欣慰。


001 / 序 言

007 /  前 言


009 / 第1章 开普勒拉开序幕

013 / 1.1 托勒玫的谢幕与哥白尼的登场

018 / 1.2 开普勒及其处女作《宇宙的奥秘》

022 / 1.3 开普勒与第谷的世纪合作

024 / 1.4 研究从地球开始的第二定律——面积律

027 / 1.5 研究火星轨道得到的第一定律——椭圆律

030 / 1.6 第三定律及《宇宙和谐论》横空出世

034 / 注释

036 / 参考文献


037 / 第2章 统计学的早期思想

041 / 2.1 讲课风格如孔子的康令

044 / 2.2 格朗特及其《观察》

046 / 2.3 《观察》中的创新思想

049 / 2.4 后继者配第

051 / 2.5 掷骰子显明上帝的旨意

055 / 2.6 从意大利到法国

061 / 2.7 惠更斯和数学期望

063 / 2.8 雅各布·伯努利和他的《猜度术》

065 / 2.9 天才棣莫弗和他的《偶然论》

068 / 2.10 科尔莫戈罗夫与现代概率论

071 / 注释

074 / 参考文献


075 / 第3章 异端贝叶斯的传世遗作

084 / 3.1 神秘的贝叶斯

086 / 3.2 逆概率问题和正概率问题

087 / 3.3 什么是条件概率

089 / 3.4 因为对称而美丽的贝叶斯定理

093 / 3.5 主观概率是什么

097 / 3.6 杰弗里斯发现地核组成

100 / 3.7 图灵破译“恩尼格码”密码机

103 / 3.8 现代精算师和贝叶斯统计学

106 / 3.9 瓦尔德和萨维奇的贝叶斯决策论

110 / 3.10 珀尔和他的贝叶斯网络

115 / 3.11 诠释思考的贝叶斯方法

118 / 注释

122 / 参考文献


125 / 第4章 数学王子高斯的误差分布

129 / 4.1 最小二乘法的问世与它的主人勒让德 

132 / 4.2 众人探索误差分布

135 / 4.3 数学王子高斯登场

142 / 4.4 拉普拉斯的贡献

145 / 4.5 社会物理学鼻祖——凯特勒

148 / 4.6 高尔顿提出“回归”概念

153 / 4.7 计算机视觉里用于曲线拟合的最小二乘法

157 / 注释

161 / 参考文献


163 / 第5章 统计学之父皮尔逊

167 / 5.1 埃奇沃思——一位喜欢文艺的理科男

170 / 5.2 后正态分布初期使世人盲目

176 / 5.3 皮尔逊用矩法导出皮尔逊曲线族

179 / 5.4 1900年诞生的χ2统计量

181 / 5.5 1901年主成分分析被引入统计学

183 / 注释

188 / 参考文献


189 / 第6章 第一次统计学革命

195 / 6.1 费希尔与皮尔逊令人唏嘘的争论

199 / 6.2 论战的调停者——“student”戈塞特

202 / 6.3 沿着高斯的路前进

205 / 6.4 著名的实验——“女士品茶”

209 / 6.5 费希尔用方差分析提出挑战

213 / 6.6 奈曼和艾贡·皮尔逊的合作

216 / 6.7 指数族以及广义线性模型 

219 / 6.8 费希尔的又一杰作

221 / 6.9 费希尔信息量拉开统计学新篇章

225 / 注释

229 / 参考文献


231 / 第7章 扎德独辟蹊径

236 / 7.1 大哲人罗素和“模糊性”

239 / 7.2 康托尔留下的“后遗症”

244 / 7.3 扎德的模糊集合

249 / 7.4 模糊逻辑之你的头发都被数算过

251 / 7.5 模糊逻辑之模糊推理入门

253 / 7.6 模糊数学与你家的洗衣机有何关系

257 / 7.7 被日本模糊数学家改造后的数据分析

267 / 7.8 模糊现象和随机现象到底不同在哪里

270 / 7.9 模糊数学与人工智能之间的联系

273 / 注释

277 / 参考文献


279 / 第8章 分形统计学进驻金融领域

283 / 8.1 从早期的数学怪物谈起

288 / 8.2 芒德布罗和他的分形几何

293 / 8.3 1919年豪斯道夫提出连续空间概念

300 / 8.4 巴舍利耶开创传统金融理论

303 / 8.5 现代金融大厦

308 / 8.6 芒德布罗与棉花之谜

310 / 8.7 由尼罗河洪水谜团引出的长期记忆性

316 / 8.8 为什么分数维可以比较好地度量股票风险

318 / 8.9 分形分布能撼动正态分布吗

323 / 8.10 新的阵地:当今复杂网络研究中的幂律分布

327 / 注释

330 / 参考文献


333 / 第9章 用作绩效管理的数据包络分析

341 / 9.1 数据包络分析的先驱法雷尔和思想源头帕累托

347 / 9.2 数据包络分析是一种极具特色的非参数方法

350 / 9.3 建立在线性规划理论上的数据包络分析

355 / 9.4 丹齐格与线性规划中的单纯形法

358 / 9.5 线性规划中的对偶问题

360 / 9.6 查恩斯和库珀的第一个数据包络分析模型

366 / 9.7 数据包络分析在企业绩效评价中的应用

370 / 9.8 中国学者的重大贡献

372 / 9.9 数据包络分析与传统回归方法

374 / 9.10 数据包络分析潜入数据挖掘领域

377 / 注释

386 / 参考文献


383 / 第10章 不愧为“暴力美学”的计算统计

388 / 10.1 现代蒙特卡洛方法

394 / 10.2 计算统计中的蒙特卡洛方法源头

398 / 10.3 用蒙特卡洛方法求解定积分

400 / 10.4 马尔科夫的杰作

405 / 10.5 20世纪十个最重要的算法之一

406 / 10.6 马尔科夫链蒙特卡洛方法应用于贝叶斯分析

410 / 10.7 重采样方法的思想来源和孟买码头上的大批黄麻

412 / 10.8 刀切法开创近代重采样方法

415 / 10.9 埃弗隆对刀切法的再思考——自助法

418 / 10.10 埃弗隆用图展示自助法的几何图景

420 / 10.11 重采样方法是如何应用在集成学习中的

423 / 注释

429 / 参考文献


431 / 第11章 辅佐人工智能的第二次统计学革命

435 / 11.1 听司马贺讲讲到底什么是“学习”

438 / 11.2 群星璀璨达特茅斯会议

443 / 11.3 感知器的诞生与“学习理论”

446 / 11.4 瓦普尼克提出的统计学习理论“高观点”

451 / 11.5 专家系统堪比行业专家

453 / 11.6 辛顿对瓦普尼克的反击

456 / 11.7 乐存与卷积神经网络

463 / 11.8 1995年瓦普尼克开创支持向量机

467 / 11.9 辛顿发起深度学习的成功逆袭

471 / 11.10 “女性化”的学习方法——转导推理

473 / 11.11 天下没有免费的午餐

474 / 11.12 通往通用人工智能之路

478 / 注释

482 / 参考文献


485 / 第12章 谷歌式大数据分析

489 / 12.1 大数据确切指什么

491 / 12.2 大数据的统计限制“邦弗朗尼原理”

494 / 12.3 大数据时代重要的思维——关联规则 

499 / 12.4 佩奇和布林创始谷歌网页排名算法

507 / 12.5 谷歌的广告算法

509 / 12.6 谷歌云计算之MapReduce算法

516 / 12.7 云计算后谷歌公司去向哪里

518 / 12.8 “谷歌式”科技将取代人类智慧吗

520 / 12.9 大数据对我们日常生活的影响

522 / 注释

525 / 参考文献


526 / 图片信息