当前位置:首页  科技

科技

Rafay Systems 通过简化基于 GPU 的容器工作负载的操作

2022-03-21 15:45:50
导读 公司新闻:使用 Rafay 快速启动并轻松管理大规模生产级 Kubernetes 集群,用于 AI 和机器学习应用程序Kubernetes Operations的领先

公司新闻:使用 Rafay 快速启动并轻松管理大规模生产级 Kubernetes 集群,用于 AI 和机器学习应用程序

Kubernetes Operations的领先平台提供商 Rafay Systems宣布通过添加强大的新指标和仪表板以更深入地了解 GPU 运行状况和性能,扩展了业界唯一的大规模运行具有 GPU 支持的 Kubernetes 集群的交钥匙解决方案。

Rafay Kubernetes 操作平台 (KOP) 现在具有一个完全集成的 GPU 资源仪表板,可以可视化关键的 GPU 指标,因此开发人员和运营团队可以无缝地监控、操作和提高基于 GPU 的容器工作负载的性能——所有这些都来自一个统一的平台。对于需要能够在云端和边缘/远程位置配置和操作支持 GPU 的 AI 和机器学习应用程序的企业来说,Kubernetes 已迅速成为首选的编排层。

根据 2022 年 Gartner® 新兴技术:边缘技术提供强大的机会领域 — 采用者调查结果*,“投资和采用边缘技术的受访组织的主要目标是提高员工生产力 (41%) 和自动化业务流程 (39% )。这与 Gartner 现有的研究(参见新兴技术:Edge AI 中的用例模式)一致,即边缘 AI 被用于改进业务流程、提供自动化和生产力提升,从而转化为可衡量的投资回报率,例如成本节约。”*

但是,随着企业快速增加 AI 和机器学习工作负载的数量,解决可见性和监控等若干挑战有助于防止应用程序部署出现重大延迟以及与集群中闲置或性能不佳的 GPU 相关的成本浪费。

例如,一家越来越依赖由人工智能驱动的实时视频检测应用程序的工厂需要一种标准化的方法,供跨职能团队管理 IT 基础设施和应用程序。以下挑战通常会导致运营脆弱性和缺乏可重复性,从而阻碍生产力:

对需要按需 GPU 指标来调整和优化 GPU 工作负载的开发人员和操作人员的访问和可见性存在缺陷或过度限制。

招聘或培训专家团队并花费数月时间开发、运营和维护定制的监控基础设施以收集和集中汇总 GPU 指标的斗争。

开发和维护与企业单点登录 (SSO) 系统的集成以提供对指标和仪表板的基于角色的访问的复杂性。

考虑由外部实体(例如,合作伙伴和 ISV)开发和维护的组织支持 GPU 的工作负载。这些实体还需要查看 GPU 指标,以确保工作负载以最佳状态运行。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。