详细解析 hadoop 分布式布局
发布时间:2022-05-13 12:34:17 所属栏目:云计算 来源:互联网
导读:详细解析 hadoop 分布式布局: 1.硬件环境 共有 3 台机器,均使用的 linux 系统,Java 使用的是 jdk1.6.0。 配置如下: hadoop1.example.com:192.168.2.1(NameNode) hadoop2.example.com:192.168.2.2(DataNode) hadoop3.example.com:192.168.2.3 (DataNode) had
8. HDFS 操作 运行 bin/目录的 hadoop 命令,可以查看 Haoop 所有支持的操作及其用法,这里以几个简单的操作为例。 建立目录: 复制 [hadoop@hadoop1 hadoop]$bin/hadoop dfs -mkdir testdir 在 HDFS 中建立一个名为 testdir 的目录,复制文件: 复制 [hadoop@hadoop1 hadoop]$bin/hadoop dfs -put /home/large.zip testfile.zip 把 本 地 文 件 large.zip 拷 贝 到 HDFS 的 根 目 录 /user/hadoop/ 下 , 文 件 名 为testfile.zip,查看现有文件: 复制 [hadoop@hadoop1 hadoop]$bin/hadoop dfs -ls 9.hadoop 在线更新节点: 新增节点: 1). 在新增节点上安装 jdk,并创建相同的 hadoop 用户,uid 等保持一致 2). 在 conf/slaves 文件中添加新增节点的 ip 3). 同步 master 上 hadoop 所有数据到新增节点上,路径保持一致 4). 在新增节点上启动服务: 复制 $ bin/hadoop-daemon.sh start datanode $ bin/hadoop-daemon.sh start tasktracker 5). 均衡数据: $ bin/start-balancer.sh (1)如果不执行均衡,那么 cluster 会把新的数据都存放在新的 datanode 上,这样会降低 mapred的工作效率 (2)设置平衡阈值,默认是 10%,值越低各节点越平衡,但消耗时间也更长 复制 $ bin/start-balancer.sh -threshold 5 在线删除datanode节点: 1). 在 master 上修改 conf/mapred-site.xml 复制 <property> <name>dfs.hosts.exclude</name> <value>/home/hadoop/hadoop-1.2.1/conf/datanode-excludes</value> </property> 2). 创建 datanode-excludes 文件,并添加需要删除的主机,一行一个 192.168.2.4 3). 在 master 上在线刷新节点 复制 $ bin/hadoop dfsadmin -refreshNodes 此操作会在后台迁移数据,等此节点的状态显示为 Decommissioned,就可以安全关闭了。 4). 你可以通过以下命令查看 datanode 状态 复制 $ bin/hadoop dfsadmin -report 在做数据迁移时,此节点不要参与 tasktracker,否则会出现异常。 在线删除tasktracker 节点: 1). 在 master 上修改 conf/mapred-site.xml 复制 <property> <name>mapred.hosts.exclude</name> <value>/home/hadoop/hadoop-1.2.1/conf/tasktracker-excludes</value> </property> 2. 创建 tasktracker-excludes 文件,并添加需要删除的主机名,一行一个 hadoop4.example.com 3. 在 master 上在线刷新节点 复制 $ bin/hadoop mradmin -refreshNodes 4. 登录 jobtracker 的网络接口,进行查看。 (编辑:揭阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
站长推荐