详细解析 hadoop 分布式布局

发布时间：2022-05-13 12:34:17 所属栏目：云计算来源：互联网

导读：详细解析 hadoop 分布式布局： 1.硬件环境共有 3 台机器,均使用的 linux 系统,Java 使用的是 jdk1.6.0。配置如下: hadoop1.example.com:192.168.2.1(NameNode) hadoop2.example.com:192.168.2.2(DataNode) hadoop3.example.com:192.168.2.3 (DataNode) had

8. HDFS 操作

运行 bin/目录的 hadoop 命令,可以查看 Haoop 所有支持的操作及其用法,这里以几个简单的操作为例。

建立目录:

复制
[hadoop@hadoop1 hadoop]$bin/hadoop dfs -mkdir testdir

在 HDFS 中建立一个名为 testdir 的目录,复制文件:

复制
[hadoop@hadoop1 hadoop]$bin/hadoop dfs -put /home/large.zip testfile.zip

把本地文件 large.zip 拷贝到 HDFS 的根目录 /user/hadoop/ 下 , 文件名为testfile.zip,查看现有文件：

复制
[hadoop@hadoop1 hadoop]$bin/hadoop dfs -ls

9.hadoop 在线更新节点:

新增节点：

1）. 在新增节点上安装 jdk,并创建相同的 hadoop 用户,uid 等保持一致

2）. 在 conf/slaves 文件中添加新增节点的 ip

3）. 同步 master 上 hadoop 所有数据到新增节点上,路径保持一致

4）. 在新增节点上启动服务:

复制
$ bin/hadoop-daemon.sh start datanode
$ bin/hadoop-daemon.sh start tasktracker

5）. 均衡数据:

$ bin/start-balancer.sh

（1)如果不执行均衡,那么 cluster 会把新的数据都存放在新的 datanode 上,这样会降低 mapred的工作效率

（2)设置平衡阈值,默认是 10%,值越低各节点越平衡,但消耗时间也更长

复制
$ bin/start-balancer.sh -threshold 5

在线删除datanode节点:

1）. 在 master 上修改 conf/mapred-site.xml

复制
<property>

<name>dfs.hosts.exclude</name>

<value>/home/hadoop/hadoop-1.2.1/conf/datanode-excludes</value>

</property>

2）. 创建 datanode-excludes 文件,并添加需要删除的主机,一行一个

192.168.2.4

3）. 在 master 上在线刷新节点

复制
$ bin/hadoop dfsadmin -refreshNodes

此操作会在后台迁移数据,等此节点的状态显示为 Decommissioned,就可以安全关闭了。

4）. 你可以通过以下命令查看 datanode 状态

复制
$ bin/hadoop dfsadmin -report

在做数据迁移时,此节点不要参与 tasktracker,否则会出现异常。

在线删除tasktracker 节点:

1）. 在 master 上修改 conf/mapred-site.xml

复制
<property>

<name>mapred.hosts.exclude</name>

<value>/home/hadoop/hadoop-1.2.1/conf/tasktracker-excludes</value>

</property>

2. 创建 tasktracker-excludes 文件,并添加需要删除的主机名,一行一个

hadoop4.example.com

3. 在 master 上在线刷新节点

复制
$ bin/hadoop mradmin -refreshNodes

4. 登录 jobtracker 的网络接口,进行查看。

（编辑：揭阳站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

云计算 3.0 的进展面临	适配混合云货拉拉的数
Gartner 六个步骤制定	云平台定价对比 AWS v