310.「真是易如反掌。如果你明天拿起一本书的纸质版本,你绝对可以肯定你读到的和今天的完全一样。但你今天在网上读到的东西,你不能肯定明天读到时是否依然相同。」
书籍名称:《大数据》
基础信息:(美国)道恩•E.霍尔姆斯 / 2020 / 译林出版社
豆瓣评分:6.2/10
豆瓣链接:https://book.douban.com/subject/35218469/
读完时间:2021-04-07 18:51:07
我的评分:2.0/5.0
我的标签:牛津通识读本,#2021,微信读书
免责声明:本页面所发布的笔记仅用于分享我在阅读过程中的摘录、总结和反思。内容大多为书中原文或书中观点的简要提炼,并不代表我个人的立场、意见或价值观。书中观点仅供参考,如需深入了解或采纳,请参考书籍的原始内容。
阅读笔记:
牛津通识读本:大数据(中文版)
道恩·E.霍尔姆斯
第一章 数据爆炸
什么是数据?公元前431年,斯巴达向雅典宣战。修昔底德在对战争的描述中,记载了被围困于城中的忠于雅典的普拉蒂亚部队,如何翻越由斯巴达领导的伯罗奔尼撒军队所建的围墙而最终得以逃脱的过程。要做到这一点,他们需要知道城墙的高度,以便制造高度合适的梯子。伯罗奔尼撒军队所建城墙的大部分都覆盖着粗糙的灰泥卵石,但他们最终还是找到了一处砖块清晰可见的区域。接下来,大量的士兵被赋予了一项任务,就是每个人分别去计数这些裸露砖块的层数。要在远离敌人攻击的距离之外完成判断,误差难以避免。但正如修昔底德所解释的那样,考虑到计数的是众多的个体,最常出现的那个数应该是可靠的。这个最常出现的数,我们今天称之为众数,普拉蒂亚人正是使用它来计量围墙的高度。由于使用的墙砖的大小是已知的,因此适合翻越城墙所需高度的梯子也顺理成章地打造了出来。随后,数百的军人得以成功逃脱。此事可以被视为数据收集和分析最为生动的范例,也因而载入史册。但是,正如我们在本书的后续章节中将要看到的,数据的收集、存储和分析甚至比修昔底德的时代1还要早几个世纪。
虽然我们可以将这些早期的计数方法设想并描述为使用数据,但英文词data(数据)实际上是源于拉丁语的复数词,其单数形式为datum。今天,datum已经很少使用,“数据”的单数和复数都用data表示。
相比之下,像照片、视频、推文和文档这些非结构化数据就不太容易归类。
第二章 大数据为什么不一般?
道格·莱尼在2001年的文章中提出使用三个“v”来表征大数据:数量大(volume)、种类多(variety)和速度快(velocity)。
通常情况下,如果一个数据集大到不能使用传统的计算和统计方法进行16收集、存储和分析时,我们就可以说它满足了数量标准。
在描绘大数据时,“v”不再固定,具有了可选择性,在莱尼最初的3v之外,竞争性的新词汇有“脆弱性”(vulnerability)和“可行性”(viability)等词,其中最重要的或许是“价值”(value)和“可视化”(visualization)。
第三章 大数据存储
海杜普分布式文件系统
分布式文件系统(DFS)为分布在多个节点的众多计算机上的大数据提供了高效且可靠的存储。谷歌公司于2003年10月发表了一篇研究论文,该文是针对谷歌文件系统的推出而专门撰写的。在该论文的启发下,当时在雅虎工作的道格·卡廷和他的同事——华盛顿大学的研究生迈克·卡弗雷拉,开始了30海杜普分布式文件系统的开发。海杜普是最受欢迎的分布式文件系统之一,它是一个名为海杜普生态系统的更大型开源软件项目的一部分。海杜普的命名取之于卡廷儿子的黄颜色大象软玩具,以流行的编程语言Java编写。在你使用脸书、推特或易贝(eBay)的时候,海杜普就会一直在后台运行。它不仅存储半结构化和非结构化数据,并且提供数据分析平台。当我们使用海杜普分布式文件系统时,数据分布在许多节点上——通常是数万个节点,遍布于世界各地的数据中心。图4显示了单个海杜普分布式文件系统集群的基本结构,该集群由一个主管理节点和许多从属的数据节点组成。
以“added”为例,“a”出现一次,“e”也出现一次,“d”有三次。因为“d”出现的频次最高,它的编码应该最短。
第四章 大数据分析法
布隆过滤器背后的基本思想是,基于数据元素列表来构建一个系统,用以回答“列表中是否有X?”的问题。对于大数据集来说,搜索整个集合可能会费时太多而不具有实用性,因此布隆过滤器被当成了新的解决方案。该方法基于概率,并非100%准确,算法对某个元素是否属于列表进行判断,虽然会存在一定的误差,但它确实是一种从数据中提取有用知识的快速、可靠和47利于有效存储的好方法。
第七章 大数据安全与斯诺登事件
真是易如反掌。如果你明天拿起一本书的纸质版本,你绝对可以肯定你读到的和今天的完全一样。但你今天在网上读到的东西,你不能肯定明天读到时是否依然相同。