当前位置:首页>正文

hadoop用什么模型做用 能简述下hadoop的主要组件吗

2023-06-15 12:38:35 互联网 未知

hadoop用什么模型做用

MapReduce模型
MapReduce模型,在并行计算领域最著名的就是MPI模型,MPI是一种消息传递编程模型,在大规模科学计算领域已经成功应用了数年,而MapReduce则是一种近几年出现的相对较新的并行编程技术,但是MapReduce计算模型也是建立在数学和计算机科学基础上的,实践已经证明这种并行编程模型具有简单、高效的特点,最为重要的两个概念就是Map和Reduce,最基本的处理思想就是“分而治之,然后归约”。
Hadoop会将一个大任务分解为可以同时执行的多个小任务,从而达到并行计算的目的。举个简单的例子,对于一个大型任务,单机处理需要1024分钟,而分解为1024个子任务并行执行就可在1分钟完成处理。在对处理的数据集的要求上,相比于传统关系数据库的结构化数据,MapReduce模型的Hadoop框架适合半结构化或非结构化的数据。
Hadoop通过自动分割将要执行的问题(程序)、拆解成Map(映射)和Reduce(化简)的方式,其分解过程的实质是将问题分为几个部分,划分为可以应用于程序的数据,再将数据分解,然后对分解的数据进行并行操作,在自动分割后通过Map程序将数据映射成不相关的区块,分配(调度)给大量的计算机进行处理以达到分散运算的效果,再通过Reduce程序将结果汇总整合,输出开发者需要的结果。

能简述下hadoop的主要组件吗

目前开源hadoop只包含hdfs,mr,和yarn,yarn是hadoop2新增组件。
hdfs是hadoop分布式文件系统,主要采用多备份方式存储文件,可以对接hive和hbase等产品并存储对应数据。
mapreduce是大数据处理并行框架,用户可以编写自己的程序调用mr框架并行的处理大数据,在调用过程中可以调整m和r的数目。不过总的来说编程相对复杂,因此诞生了hive.
yarn作为新生控件,主要管理hadoop各个模块运行过程中的任务调度,目前主要有公平调度与容量调度两种模型.

如果需要其他组件,需要单独下载安装。