CastSlice 是零侵入的 Kubernetes Mutating Webhook,自动将完整 GPU 请求转换为共享 GPU 切片——无需修改任何应用。
CastSlice 运行在 Kubernetes 控制平面,透明拦截 Pod 创建请求。
单条 kubectl 命令完成安装。cert-manager 自动注入 TLS 证书。
为任意 Pod 或 Deployment 添加一个注解,无需改代码,无需重启。
CastSlice 拦截 CREATE 请求,在 Pod 调度前将 nvidia.com/gpu 自动改写为共享资源。
立即开始在 AI 工作负载间共享 GPU 所需的一切。
Webhook 拦截 Pod CREATE 请求并实时改写资源规格,应用完全无感知。
只有带有 castops.io/optimize: "true" 注解的 Pod 才会被变更,其余全部透传。
适用于任何 CNCF 兼容的 Kubernetes 集群——EKS、GKE、AKS 或本地裸金属环境。
利用 cert-manager 自动注入和轮换 TLS 证书,无需手动管理证书。
提供 /healthz 和 /readyz 端点,Pod 仅在 webhook 服务器完全就绪后才变为 Ready 状态。
Webhook 配置为 failurePolicy: Ignore——即使 CastSlice 宕机,Pod 也能正常调度。
为任意 Pod 或 Deployment 模板添加 castops.io/optimize: "true"。
CastSlice 在准入阶段检测到该注解后,自动将 nvidia.com/gpu 资源限制改写为 nvidia.com/gpu-shared——让 NVIDIA MPS 或时间片技术将多个 Pod 打包到同一张物理卡上。
无需修改容器镜像、入口点或业务逻辑,应用完全无感知。
阅读文档 →apiVersion: apps/v1 kind: Deployment metadata: name: ollama-inference spec: template: metadata: annotations: castops.io/optimize: "true" # ← opt-in spec: containers: - name: ollama image: ollama/ollama resources: limits: # CastSlice rewrites this ↓ nvidia.com/gpu: 1
CastSlice 正在持续开发中,以下是计划中的功能。
静态切片——对已注解的 Pod 将 nvidia.com/gpu 改写为 gpu-shared。
根据工作负载类型(training、inference、batch、dev)动态分配切片数量,或通过 slice-ratio 显式指定。
实时 GPU 利用率指标与"节省费用"计数器。
计划中基于命名空间和标签的切片规则,无需修改注解。
计划中