今夜,我们聊聊大数据(3) – 大数据的起源

大数据和其他很多概念一样,和科幻小说也有点渊源,不得不说,科幻小说的作家们都是具有无比的想象力。

最早提出大数据概念的是我在少年时代就非常崇拜的科幻小说作家:艾萨克·阿西莫夫,这位拿过七次科幻小说最高奖雨果奖的大师在其科幻巨作《基地》中提出了“心理史学”,利用宇宙级大数据分析预知世界文明的未来。1965年《基地》系列得到雨果奖“史上最佳科幻小说系列”

300px-Isaac_Asimov_on_Throne

阿西莫夫和坎贝尔(其编辑)联手为“基地系列”打造出一门全新的统计科学,称之为“心理史学”,这门学问由书中数学家 哈里·谢顿 穷尽毕生之力创建,根据大规模的人类活动数据,预测未来走向,规模一旦小于一颗星球或是一座帝国,结果就会失准。谢顿运用此一科学,预见银河帝国的殒落,整片银河将因此进入长达三万年的黑暗时期,直到第二帝国建立。

阿西莫夫从1942年写到1986,共有14册长篇,和数不清的短篇小说。我在国内的购书网站上看到过好几个版本的译作,值得一读。

在这部科幻小说中,人类的计算能力已经达到了无以伦比的境界,不是天气预报、商品推荐、个人信用这些了,而是国家、星球、宇宙的发展。所以将《基地》小说作为大数据的起源也算实至名归(目前的技术和作者的想象还相差甚远)。

科幻小说中的场景还是需要靠真实世界中辛勤努力,这方面的接棒者则是著名的 Google 公司。

2003年,Google在19th ACM Symposium on Operating Systems Principles (SOSP‘03)上发表论文,提出了 Google File System(GFS),支持以搜索引擎为典型实例的大规模、分布式、数据密集应用,解决了海量数据的底层存储和检索问题。2004年,Google 接着在 6th Symposium on Operating Systems Design & Implementation (OSDI 2004)上发表论文,提出了著名的 Map Reduce 计算架构及其实现,解决了海量数据的分布式计算处理问题。2006年,Google 又在 OSDI2006 上发表论文,提出了 Big table 架构及其实现,解决了海量数据,尤其是海量超链接数据的结构化存储和检索问题。

Google 的上述三篇经典论文,真正突破了云计算和大数据应用的主要瓶颈,奠定了这两个相关领域的应用基础和研究基础。这三篇论文所发表的研究成果,是 Google 公司每天都在实际运行的系统、无数用户每天都在实际应用的技术,经受住了实践的检验。这三篇论文对于云计算和大数据两个领域的研究和产业应用的影响是深远的。

这三篇论文出来之后,掀起了云计算和大数据应用和研究的热潮,Amazon、微软等纷纷推出了自己云计算平台。作为对 Google 上述三篇论文的开源实现,Hadoop 的出现让更多的草根研究者也有机会玩儿云计算和大数据,一时间各种层次的学术论文和应用系统汗牛充栋。

我们今天几乎所有对大数据的应用实践,不管是 Amazon 的 aws,还是国内的阿里云等等,技术基础都源于此。单就这一点来说,我们要感谢 Google。

Hadoop 是非 Google 体系中大数据平台的基石之作,其衍生出非常庞杂的体系,之后将继续介绍 Hadoop 是如何诞生以及壮大,Yahoo 和 Apache 在其中的伟大作用,以及这个奇怪的单词到底什么意思。

  • 艾萨克·阿西莫夫部分文字介绍和照片来自维基百科-艾萨克·阿西莫夫条目
    ** Google 三篇论文介绍部分来自于:应该做什么样的研究:以Google为例 (http://blog.sciencenet.cn/blog-64396-649988.html)

发表评论

电子邮件地址不会被公开。 必填项已用*标注