Bigtable: The beginning of Big Data

Bigtable is a distributed storage system for managing structured data that is designed to scale to a very large size: petabytes of data across thousands of commodity servers. GFS的出现虽然解决了海量数据的存储问题,但是还是

Google File System

Google File System (GFS) 是 Google 为满足大规模数据存储和处理需求而设计的分布式文件系统。GFS 的设计目标是处理大量数据并提供高吞吐量的数据访问,这对于 Google 这样的公司在运行其搜索引擎和其他大规模应用时至关重要。 设立一个master可以极大的简化系统的设计,可以很方便地进行全局信息的管理。然而单一的master很容易成为系统的瓶颈,所以只能让其尽可能少

Hadoop:前世今生

Streaming system A type of data processing engine that is designed with infinite datasets in mind. Hadoop的起源:Nutch Lucene 全文检索 1997年,Doug Cutting,后来hadoop的创始人之一,用Java写了Lucene并将其开源,目标是为各种应用软件加入全文检索功能。L