🐘 Hadoop — 集群管理

v1.0.0

一站式 Hadoop 集群运维助手,支持 HDFS 文件操作、YARN 作业调优与分布式任务诊断,自动读取日志与配置, destructive 操作需二次确认,不触碰 Kerberos 凭据。

0· 424·0 当前·0 累计
ivangdavila 头像by @ivangdavila (Iván)·MIT-0
下载技能包
License
MIT-0
最后更新
2026/4/18
0
安全扫描
VirusTotal
可疑
查看报告
OpenClaw
安全
high confidence
该技能需求与指令均与 Hadoop 集群管理一致;所需二进制文件与文件 I/O 符合其声明用途,无未解释的凭据或安装要求。
评估建议
该技能对 Hadoop 管理而言逻辑连贯。若安装:请确保代理运行主机已合法将 hdfs/yarn/hadoop 加入 PATH 并拥有集群网络访问权限;预计技能会读取 /var/log 与 /etc/hadoop/conf 进行诊断,并在 ~/hadoop/ 下创建内存文件。文档说明破坏性命令(rm -rf、强制退出安全模式、删除 DataNode 数据、杀应用)需您显式确认——除非理解后果,否则勿批准破坏性操作。因技能不请求凭据,请继续自行管理 Kerberos keytab/票据。如需更强保障,可向所有者追溯来源(谁维护此技能)或将代理运行于沙箱管理节点而非任意工作站。...
详细分析 ▾
用途与能力
名称、描述与所需二进制文件(hdfs、yarn、hadoop)匹配文档能力(HDFS 操作、YARN 作业管理、诊断)。未请求无关凭据或工具。
指令范围
指令明确告知代理执行管理性 hdfs/yarn 命令并读取集群日志/配置(如 /var/log、/etc/hadoop/conf)。这适用于集群诊断,但意味着代理将读取系统级文件并可能建议破坏性管理操作(文档说明破坏性命令需用户显式确认)。
安装机制
无安装规范或外部下载——仅指令型技能。除技能自身在 ~/hadoop/ 下的内存文件外,安装程序不会向磁盘写入任何内容,且已文档说明。
凭证需求
技能未请求环境变量或凭据。文档说明凭据(Kerberos keytab)应单独管理且技能不存储凭据——这与其管理角色相称。
持久化与权限
技能在 ~/hadoop/ 下持久化状态(memory.md 与集群笔记),属合理行为。非常驻技能,使用默认自主调用;因其可执行管理命令,用户需在提示时确认破坏性操作。
安全有层次,运行前请审查代码。

License

MIT-0

可自由使用、修改和再分发,无需署名。

运行时依赖

🖥️ OSLinux · macOS

版本

latestv1.0.02026/2/26

Initial release

可疑

安装命令

点击复制
官方npx clawhub@latest install hadoop
镜像加速npx clawhub@latest install hadoop --registry https://cn.longxiaskill.com

技能文档

安装 如果 ~/hadoop/ 不存在或为空,请先阅读 setup.md,然后自然地开始对话。 ## 何时使用 用户使用 Hadoop 生态(HDFS、YARN、MapReduce、Hive)时。Agent 负责集群诊断、作业优化、存储管理及分布式处理故障排查。 ## 架构 记忆保存在 ~/hadoop/。结构见 memory-template.md。 `` ~/hadoop/ ├── memory.md # 集群配置、常见问题、偏好 ├── clusters/ # 各集群笔记与配置 │ └── {name}.md # 特定集群上下文 └── scripts/ # 自定义诊断脚本 ` ## 速查表 | 主题 | 文件 | |-------|------| | 安装流程 | setup.md | | 记忆模板 | memory-template.md | | HDFS 操作 | hdfs.md | | YARN 调优 | yarn.md | | 故障排查 | troubleshooting.md | ## 核心规则 ### 1. 先验证集群状态 任何操作前检查集群健康: `bash hdfs dfsadmin -report yarn node -list ` 永远不要假设集群正常。一个 dead DataNode 会改变一切。 ### 2. 先存储后计算 HDFS 问题会级联导致作业失败。务必检查: `bash hdfs dfs -df -h # 容量 hdfs fsck / -files -blocks # 块健康 ` 作业报“No space left”是存储问题,不是代码。 ### 3. 了解 Resource Calculator YARN 按配置的调度器分配资源。先确认当前调度器: `bash yarn rmadmin -getServiceState rm1 cat /etc/hadoop/conf/yarn-site.xml | grep scheduler ` Default(Capacity)与 Fair 调度器行为差异巨大。 ### 4. 复制因子上下文 默认 replication=3。临时数据建议设为 1-2 节省空间: `bash hdfs dfs -setrep -w 1 /tmp/scratch/ ` 关键数据需验证复制是否生效: `bash hdfs fsck /data/critical -files -blocks -replicaDetails ` ### 5. 日志位置意识 Hadoop 日志分散在各节点。关键路径: | 组件 | 日志路径 | |-----------|----------| | NameNode | /var/log/hadoop-hdfs/hadoop-hdfs-namenode-.log | | DataNode | /var/log/hadoop-hdfs/hadoop-hdfs-datanode-.log | | ResourceManager | /var/log/hadoop-yarn/yarn-yarn-resourcemanager-.log | | NodeManager | /var/log/hadoop-yarn/yarn-yarn-nodemanager-.log | | Application | yarn logs -applicationId | ### 6. 安全模式处理 NameNode 启动或块数过低时进入安全模式: `bash hdfs dfsadmin -safemode get # 查看状态 hdfs dfsadmin -safemode leave # 退出(若块正常) ` 若块确实缺失,切勿强制退出。 ### 7. 内存设置至关重要 90% 的“job killed”源于内存: `bash # Container 设置 yarn.nodemanager.resource.memory-mb # 每节点总量 yarn.scheduler.minimum-allocation-mb # 最小 container mapreduce.map.memory.mb # Map 任务 mapreduce.reduce.memory.mb # Reduce 任务 ` 先检查这些再怀疑代码。 ## HDFS 操作 ### 常用命令 `bash # 浏览 hdfs dfs -ls /path hdfs dfs -du -h /path # 带人类可读大小 hdfs dfs -count -q /path # 配额信息 # 数据移动 hdfs dfs -put local.txt /hdfs/ # 上传 hdfs dfs -get /hdfs/file.txt . # 下载 hdfs dfs -cp /src /dst # HDFS 内复制 hdfs dfs -mv /src /dst # HDFS 内移动 # 维护 hdfs dfs -rm -r /path # 删除(进回收站) hdfs dfs -rm -r -skipTrash /path # 删除(直接) hdfs dfs -expunge # 清空回收站 ` ### 块管理 `bash # 查找损坏块 hdfs fsck / -list-corruptfileblocks # 删除损坏文件(确认无法恢复后) hdfs fsck /path/file -delete # 强制复制 hdfs dfs -setrep -w 3 /important/data/ ` ## YARN 作业管理 ### 应用生命周期 `bash # 列出应用 yarn application -list # 运行中 yarn application -list -appStates ALL # 所有状态 # 应用详情 yarn application -status # 杀掉卡住应用 yarn application -kill # 获取日志(完成后) yarn logs -applicationId yarn logs -applicationId -containerId ` ### 队列管理 `bash # 列出队列 yarn queue -list # 队列状态 yarn queue -status # 将应用移到其他队列 yarn application -movetoqueue -queue ` ## 常见陷阱 - 满集群下删除不带 -skipTrash → 回收站仍占空间,集群持续满 - container 内存低于 JVM 堆 → 立即被 kill,报错迷惑 - 慢作业忽略 speculative execution → 重复任务浪费资源 - 忙集群跑 fsck → 影响性能,请在维护窗口执行 - 假设 HDFS = POSIX 语义 → 不支持原地追加、随机写 - 调度忘记时区 → Oozie/Airflow 作业在错误时间触发 ## 安全与隐私 本地保留的数据: - 集群笔记保存在 ~/hadoop/clusters/ - 偏好与环境上下文 命令会访问: - hdfs/yarn 命令连接你的 Hadoop 集群 - 部分命令读取系统路径(/var/log、/etc/hadoop/conf) - 破坏性命令需用户显式确认 本 skill 不会: - 存储凭据(请单独使用 kinit/keytab) - 向集群外发起 API 调用 - 未经询问执行破坏性命令 ## 相关技能 用户确认后可用 clawhub install 安装: - linux — 系统管理 - docker — 容器化部署 - bash — shell 脚本 ## 反馈 - 若觉得有用:clawhub star hadoop - 保持更新:clawhub sync`

数据来源ClawHub ↗ · 中文优化:龙虾技能库