实战CentOS系统部署Hadoop集群服务

Hadoop是一个由Apache基金会所开发的分布式系统基础架构,Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有高容错性特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序;HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。

实战CentOS系统部署Hadoop集群服务


HDFS架构图

一、Hadoop框架简介

Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。

HDFS(Hadoop Distribution File System),称为Hadoop分布式文件系统,主要特点:

HDFS最小以64MB的数据块存储文件,相比其他文件系统中的4KB~32KB分块大得多。

HDFS在时延的基础上对吞吐量进行了优化,它能够高效处理了对大文件的读请求流,但不擅长对众多小文件的定位请求

HDFS对普通的“一次写入,多次读取”的工作负载进行了优化。

每个存储节点运行着一个称为DataNode的进程,它管理着相应主机上的所有数据块。这些存储节点都由一个称为NameNode的主进程来协调,该进程运行于一台独立进程上。

与磁盘阵列中设置物理冗余来处理磁盘故障或类似策略不同,HDFS使用副本来处理故障,每个由文件组成的数据块存储在集群众的多个节点,HDFS的NameNode不断监视各个DataNode发来的报告。

1、MapReduce工作原理

客户端,提交MapReduce作业;jobtracker,协调作业的运行,jobtracker是一个java应用程序,它的主类是JobTracker;tasktracker。运行作业划分后的任务,tasktracker是一个java应用程序,TaskTracker是主类。

2、Hadoop优点

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

高可靠性:Hadoop按位存储和处理数据的能力值得人们信赖。

高扩展性:Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

高容错性:Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

低成本:与一体机、商用数据仓库以及QlikView、Yonghong Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

Hadoop官网:

二、先决条件

保持Hadoop集群每个节点配置环境一致,安装java,配置ssh。

实验环境:

Platform:xen vm

OS: CentOS 6.8

Software: hadoop-2.7.3-src.tar.gz, jdk-8u101-linux-x64.rpm

Hostname   IP Address   OS version   Hadoop role   Node role  
linux-node1   192.168.0.89   CentOS 6.8   Master   namenode  
linux-node2   192.168.0.90   CentOS 6.8   Slave   datenode  
linux-node3   192.168.0.91   CentOS 6.8   Slave   datenode  
linux-node4   192.168.0.92   CentOS 6.8   Slave   datenode  

#把需要的软件包下载下来上传到集群的各个节点上

三、集群的构架和安装

1、Hosts文件设置

#Hadoop集群中的每个节点的hosts文件都需要修改

[root@linux-node1 ~]# cat /etc/hosts 127.0.0.1  localhost localhost.localdomain linux-node1 192.168.0.89 linux-node1 192.168.0.90 linux-node2 192.168.0.91 linux-node3 192.168.0.92 linux-node4

2、安装java

内容版权声明:除非注明,否则皆为本站原创文章。

转载注明出处:https://www.heiqu.com/f1c16702be57e9fd4928f64643a40703.html