当前位置：首页>正文

hadoop是怎么存储大数据的为什么hadoop大数据能在3秒内计算出结果

2023-05-06 01:18:31 互联网未知

hadoop是怎么存储大数据的

Hadoop本身是分布式框架，如果在hadoop框架下，需要配合hbase，hive等工具来进行大数据计算。如果具体深入还要了解HDFS，Map/Reduce，任务机制等等。如果要分析还要考虑其他分析展现工具。

大数据还有分析才有价值

用于分析大数据的工具主要有开源与商用两个生态圈。开源大数据生态圈：1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生，早期Hadoop生态圈逐步形成。2、. Hypertable是另类。它存在于Hadoop生态圈之外，但也曾经有一些用户。3、NoSQL，membase、MongoDb商用大数据生态圈：1、一体机数据库/数据仓库：IBM PureData(Netezza), OracleExadata, SAP Hana等等。2、数据仓库：TeradataAsterData, EMC GreenPlum, HPVertica 等等。3、数据集市：QlikView、 Tableau 、以及国内的Yonghong Data Mart 。

为什么hadoop大数据能在3秒内计算出结果

大数据一般是指这样的数据:数据量巨大，需要运用新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产
。大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。
目前人们谈论最多的是大数据技术和大数据应用，大数据工程和大数据科学尚未被重视。
大数据工程指大数据的规划建设及其运营管理的系统工程大数据科学关注的是大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。

大数据引发存储限制 Hadoop如何走得更远

Hadoop是一个开源项目，它提供了处理大数据的平台。虽然Hadoop的出现已经有一段时日了，但是很多企业现在才开始使用Hadoop。
Hadoop平台旨在解决海量数据引起的问题，尤其是那些混合了复杂、非结构化、结构化信息的数据，这些数据的结构导致其不适合存储在表中。Hadoop在需要支持深度和计算广泛的分析比如集群和定位的情况下运作良好。那么Hadoop对那些寻求充分利用大数据的IT专业人员意味着什么？简单的回答是Hadoop解决了与大数据相关联的最常见的问题：高效的存储和访问海量数据。
Hadoop的内在设计允许其作为一个能够在大量不共享任何内存和磁盘的计算机之间工作的平台运行。考虑到这一点，就能很容易看到Hadoop如何提供额外的价值——网络管理员可以简单的购买许多商品服务器，将它们放在机架上，然后在每台服务器上运行Hadoop软件。
更何况，Hadoop有助于减少大型数据集相关联的管理开销。在操作上，一旦企业的数据加载到了Hadoop平台，软件就会把数据分解成可管理的片段，然后自动将这些数据分配给不同的服务器。数据天然的分布式性质意味着从单一的服务器访问数据是不可能的。Hadoop跟踪数据驻留的位置，并通过创建多个存储副本进一步保护这些信息。这样，系统的伸缩性增强了：如果某个服务器脱机或者失败了，数据可以自动复制已知的正常副本。
Hadoop如何走得更远？
Hadoop进一步分多个步骤处理数据。例如，限制关联传统的、集中式的数据库系统，该数据库系统可能包括了连接到具有多个处理器的服务器级系统的大型磁盘驱动器。在这种情况下，由于磁盘的性能限制，数据分析是有限的，并且，最终还要忍受可购买的处理器数量。
在部署了Hadoop后，集群中的每个服务器都可以通过Hadoop传播分布在集群中的数据的功能参与数据的处理过程。换句话说，一个索引作业向集群中的每个服务器发送代码，然后每个服务器在属于自己的一块数据上进行相关操作，随后处理结果作为一个整体交付。有了Hadoop，过程被视为MapReduce，在MapReduce中，代码和进程被映射到了所有的服务器上而操作结果被减少到了单个数据集上。
Hadoop之所以能够处理海量数据就是因为这个过程。Hadoop传播数据并且能够利用所有的可用集群处理器并行工作来处理复杂计算问题。

基于hadoop的云存储实例

基于Hadoop平台的云存储应用实践

http://cio.itxinwen.com/case_studies/2012/0327/402100.html

云计算（Cloud Computing）是一种基于因特网的超级计算模式，在远程的数据中心里，成千上万台电脑和服务器连接成一片电脑云。用户通过电脑、笔记本、手机等方式接人数据中心，按自己的需求进行运算。目前，对于云计算仍没有普遍一致的定义。结合上述定义，可以总结出云计算的一些本质特征，即分布式计算和存储特性、高扩展性、用户友好性、良好的管理性。

1云存储架构图

橘色的作为存储节点（Storage Node）负责存放文件，蓝色作为控制节点（（Control Node）则是负责文件索引，并负责监控存储节点间容量及负载的均衡，这两个部分合起来便组成一个云存储。存储节点与控制节点都是单纯的服务器，只是存储节点的硬盘多一些，存储节点服务器不需要具备RAID的功能，只要能安装Linux即可，控制节点为了保护数据，需要有简单的RAID level O1的功能。

云存储不是要取代现有的盘阵，而是为了应付高速成长的数据量与带宽而产生的新形态存储系统，因此云存储在设计时通常会考虑以下三点：

（1）容量、带宽的扩容是否简便

扩容是不能停机，会自动将新的存储节点容量纳入原来的存储池。不需要做繁复的设定。

图1云存储架构图

（2）带宽是否线形增长

使用云存储的客户，很多是考虑未来带宽的增长，因此云存储产品设计的好坏会产生很大的差异，有些十几个节点便达到饱和，这样对未来带宽的扩容就有不利的影响，这一点要事先弄清楚，否则等到发现不符合需求时，已经买了几百TB，后悔就来不及了。

（3）管理是否容易。

2云存储关键技术

云存储必须具备九大要素：①性能②安全性③自动ILM存储④存储访问模式⑤可用性⑥主数据保护⑦次级数据保护⑧存储的灵活⑨存储报表。

云计算的发展离不开虚拟化、并行计算、分布式计算等核心技术的发展成熟。下面对其介绍如下：

（1）集群技术、网格技术和分布式文件系统

云存储系统是一个多存储设备、多应用、多服务协同工作的集合体，任何一个单点的存储系统都不是云存储。

既然是由多个存储设备构成的，不同存储设备之间就需要通过集群技术、分布式文件系统和网格计算等技术，实现多个存储设备之间的协同工作，使多个的存储设备可以对外提供同一种服务，并提供更大更强更好的数据访问性能。如果没有这些技术的存在，云存储就不可能真正实现，所谓的云存储只能是一个一个的独立系统，不能形成云状结构。

（2）CDN内容分发、P2P技术、数据压缩技术、重复数据删除技术、数据加密技术

CDN内容分发系统、数据加密技术保证云存储中的数据不会被未授权的用户所访问，同时，通过各种数据备份和容灾技术保证云存储中的数据不会丢失，保证云存储自身的安全和稳定。如果云存储中的数据安全得不到保证，也没有人敢用云存储了。

（3）存储虚拟化技术、存储网络化管理技术

云存储中的存储设备数量庞大且分布多在不同地域，如何实现不同厂商、不同型号甚至于不同类型（例如FC存储和IP存储）的多台设备之间的逻辑卷管理、存储虚拟化管理和多链路冗余管理将会是一个巨大的难题，这个问题得不到解决，存储设备就会是整个云存储系统的性能瓶颈，结构上也无法形成一个整体，而且还会带来后期容量和性能扩展难等问题。

hadoop是怎么存储大数据的为什么hadoop大数据能在3秒内计算出结果