快速开始
将 CastSlice 安装到 Kubernetes 集群,五分钟内开始在 AI 工作负载间共享 GPU。
前置条件
安装 CastSlice 前,请确保以下组件已就绪:
任何 CNCF 兼容集群——EKS、GKE、AKS 或本地环境。
或能够暴露 nvidia.com/gpu 资源的同类设备插件。
需要集群管理员权限,用于应用资源清单并检查 Pod 状态。
还没有 GPU?可以使用本地测试(无 GPU)指南验证 Webhook 变更逻辑。
安装 CastSlice
CastSlice 使用 cert-manager 自动将 TLS 证书注入 Mutating Webhook 配置。
单文件 install.yaml 包含 Namespace、Deployment、Service、Certificate(cert-manager)和 MutatingWebhookConfiguration。
1/1 Running 表示 cert-manager 证书已签发、TLS 已注入 Webhook,且 /readyz 就绪探针已通过。
为工作负载启用 GPU 切片
在 Pod 的 metadata.annotations 中添加 castops.io/optimize: "true",并可选地通过 castops.io/workload-type 控制切片数量。对于 Deployment,需添加在 Pod 模板(spec.template.metadata.annotations)上,而非 Deployment 自身的 metadata。
或使用显式 ratio 进行精细控制:
Pod 创建后,检查其实际资源规格,确认改写已完成:
nvidia.com/gpu 已按正确比例改写为 nvidia.com/gpu-shared——GPU 切片已激活。卸载
从集群中卸载 CastSlice:
此操作将删除 MutatingWebhookConfiguration,之后新建的 Pod 将不再被变更。已运行的 Pod 不受影响,因为准入检查发生在创建时。