发布者认证信息(营业执照和身份证)未完善,请登录后完善信息登录
 总算理解OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习 - 三农网
Hi,你好,欢迎来到三农网
  • 产品
  • 求购
  • 公司
  • 展会
  • 招商
  • 资讯
当前位置: 首页 » 资讯 » 中国新农村 找商家、找信息优选VIP,安全更可靠!
总算理解OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习
发布日期:2021-11-20 22:13:26  浏览次数:15

为了满足 GPT-3、CLIP 和 DALL+ 等大型模型的需要,以及类似于神经语言模型的缩放定律的快速小规模迭代研究,OpenAI 将基础设施 k8s 集群扩展到 7500 各节点。

据其描述,对于大型机器学习作业来说,一个节点通常由单个 pod 占据,并且 OpenAI 部署的集群具有二等分带宽,因此尽管其有许多节点,但是调度程序的压力相对较低,仅在一项新任务一次性创建数百个 pod 时会有调度压力。

除此之外,OpenAI 还详细说明了其在扩展 k8s 集群时的重要工作内容,比如通过改用基于别名的 IP 寻址来解决大量节点的联网问题,在专用节点上部署 etcd 和 API 服务器以分散负载,定位使用 Prometheus 和 Grafana 收集指标时的 OOM 问题,设计对集群的健康检查,以及在团队中合理分配集群资源等。

不过,OpenAI 也指出,在扩展 k8s 集群时,目前仍有一些问题要解决,比如大规模时 Prometheus 的内置 TSDB 存储引擎压缩速度过慢,并且需要很长的时间才能重新启动 WAL(写入预录),以及扩展集群时,由于每个 pod 都会被计算为需要一定带宽而带来的网络带宽压力。然而,尽管还有很多地方需要改进,但 k8s 凭借其出色的扩展能力,仍然能满足其研究需求。

本文转自OSCHINA

本文标题:OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习

本文地址:/news//openai-scale-k8s-7500

 

VIP企业最新发布
全站最新发布
最新VIP企业
背景开启

三农网是一个开放的平台,信息全部为用户自行注册发布!并不代表本网赞同其观点或证实其内容的真实性,需用户自行承担信息的真实性,图片及其他资源的版权责任! 本站不承担此类作品侵权行为的直接责任及连带责任。

如若本网有任何内容侵犯您的权益,请联系 QQ: 1130861724

网站首页 | 实时热点 | 侵权删除 | 付款方式 | 联系方式 | 法律责任 | 网站地图 ©2022 zxb2b.com 三农网,中国大型农产品交易电商平台 鄂公网安备42018502006996 SITEMAPS | 鄂ICP备14015623号-20

返回顶部