我只用一个 Docker,就把多机 GPU + 模型 + 磁盘监控全安排了

我只用一个 Docker,就把多机 GPU + 模型 + 磁盘监控全安排了

_

Homelab越来越复杂:主服务器跑本地大模型、几台 Pi 做边缘任务、Windows 机器负责备份……
GPU 被哪个模型占着?容器偷偷吃显存?磁盘哪个文件夹在疯长?多台机器状态来回切换看,实在太麻烦。

今天推荐一个超级轻量的开源项目 —— HomeLab Monitor

1781074215438.png

📦 项目介绍

一个 Docker 容器就能实现单页面全览,支持:

  • GPU 深度监控
  • 容器真实占用
  • 多机 SSHAgent 采集
  • SQLite 历史数据
  • Discord / ntfy 告警
  • 内置 30+ 模型服务器识别

极简、好用,强烈推荐!🚀

✨ 核心亮点

  • Agent:仅需 SSH 密钥即可监控多台 Linux / Pi / Windows 机器
  • GPU + AI 模型深度洞察:显存 / 功耗 / 温度 + 精确到哪个容器 / 模型服务器占用
  • 磁盘树状图:类似 WizTree,可钻取大文件
  • systemd 服务状态:失败的服务优先显示
  • 历史数据 + 告警SQLite 本地存储,支持边缘触发告警
  • 最新特性:内置只读 MCP 服务器,让 ClaudeAI Agent 也能“看懂”你的 Homelab

⚙️ 精简安装步骤(60 秒搞定)

1. 拉取 docker-compose 文件

在任意目录执行:

curl -fsSLO https://raw.githubusercontent.com/SikamikanikoBG/homelab-monitor/main/docker-compose.yml

1781074524640.png

2. 启动容器

docker compose up -d

1781075246506.png

3. 浏览器访问

打开 http://你的主机IP:9800 即可看到完整仪表盘。

1781075534537.png

1781075534219.png

1781075534397.png

📌 特别说明

  • GPU 用户注意:提前安装 NVIDIA Container Toolkit(官方文档有一键命令)
  • 数据会自动保存在 ./data 目录
  • 升级只需:
    docker compose pull && docker compose up -d
    

Windows 用户可通过 WSL2 运行 Hub 监控其他机器。

多机配置,两句话搞定

打开“主机”选项卡,将中心服务器自动生成的SSH密钥粘贴到每个远程服务器上,中心服务器就会开始轮询——无需代理,只需SSH+Python 3(Windows 系统下为 PowerShell)。中心服务器通过SSH发送一个小型独立探测包;远程服务器上不会保留任何数据。

1781076647882.png

配置

docker-compose.yml 中的 environment 下设置以下变量(均为可选):

变量默认值说明
SAMPLE_INTERVAL10采样间隔(秒)
RETENTION_DAYS180历史数据保留天数
PRESSURE_FREE_MB2048低于此值的空闲显存视为“压力”状态
PORT9800仪表盘端口
MCP_PORT9810内置只读 MCP 服务器端口
ENABLE_MCP1设为 0 可在不启用 MCP 服务器的情况下运行仪表盘
WATCH_CONTAINERS额外监控的容器(用于扫描 OOM),多个以逗号分隔
WATCH_SERVICES始终显示的 systemd 服务单元(即使是厂商服务),多个以逗号分隔
CHECK_UPDATEStrue设为 false 可禁用每日 GitHub 版本检查(无外发请求)

连接AI代理(MCP

你的Homelab现在对AI代理来说变得可读了——客户端只需指向一个URL,就能查看每一台主机、容器、GPU 和磁盘。只读模式,无需额外配置。

1781076054513.png

HomeLab Monitor 不再只是你的仪表盘;它同样为你的 AI 代理提供了上下文。一个只读的 MCP 服务器直接内置于同一个容器中(运行在 :9810 端口)——因此 ClaudeClaude Code 或任何 MCP 客户端只需一行代码即可连接,并通过 12 个命名工具探索你的整个 Homelab,覆盖范围与你从仪表盘上看到的一致:

  • 主机
  • 容器
  • systemd 服务
  • GPU 及其占用者
  • 每个进程的 RAM
  • AI 模型服务器
  • 磁盘树状图
  • 历史数据与告警

🖥️ 实际使用效果

进入页面后,你能立刻看到:

  • GPU 实时状态 + 模型占用详情
  • 各容器真实 RAM + VRAM(非缓存)
  • 磁盘占用树状图(可点击钻取)
  • 多机统一视图 + 服务健康状态

1781076210181.png

所有数据一目了然,手机通过公网IP也能顺畅访问。

🎯 谁适合使用?

  • 跑本地大模型、纠结 VRAM 的玩家
  • 多机 Homelab 运维爱好者
  • 追求极简、不想折腾 Prometheus + Grafana 的朋友
  • 想让 AI Agent 辅助管理基础设施的尝鲜者

Homelab监控终于可以回归简单高效。
一个容器,解放你的双手,去折腾更有趣的事吧! 🚀

你目前用什么方案监控 Homelab?欢迎评论区交流,一起优化我们的私人云!

💥 服务器磁盘98%告警!3秒定位吃空间元凶,这条命令直接救命 2026-06-03

评论区