Post

2025-09-27-NeoCloud不止是GPU云服务,更是企业AI算力困境的破局者

2025-09-27-NeoCloud不止是GPU云服务,更是企业AI算力困境的破局者
“NeoCloud” 指的是主要提供 GPU 即服务 (GPUaaS) 的云提供商。随着人工智能 (AI) 的兴起,一波专注于 GPUaaS 的新云提供商应运而生。虽然“NeoCloud”一词的确切来源及其最初的用法尚不清楚,但它已逐渐成为专门提供 GPUaaS 服务的云提供商的行业术语。 亚马逊网络服务 (AWS)、微软 Azure 和谷歌云等传统云提供商提供全面的云服务组合。与这些巨头不同,NeoClouds 专注于提供专门针对数据密集型工作负载(尤其是与人工智能、机器学习 (ML) 和分析相关的工作负载)的严苛要求而定制的基础设施。 最初,这些“新云”竞相构建 GPU 云并堆叠硬件,希望仅提供基础设施并赚取“轻松钱”。遗憾的是,许多人低估了提供稳定性能的挑战。留下来的供应商明白,高性能计算 (HPC) 和 AI 团队不会信任未经优化的基础设施,他们愿意为可靠、稳定、高性能的 AI 基础设施支付高昂的费用。

Neoclouds 的主要特点

  • GPU 基础设施: Neoclouds 非常注重提供来自 Nvidia(如 Hopper 和 Blackwell)和其他供应商的强大且通常是最新一代的 GPU,这对于要求苛刻的 AI 和数据密集型任务至关重要。
  • 针对 AI 进行优化:与超大规模企业不同,Neoclouds 专门构建其基础设施、网络和软件堆栈以满足特定 AI 任务的独特需求,从而提供更好的性能和效率。
  • 性能与创新: Neoclouds 的衡量标准在于其能否提供最可靠、最稳定、性能最高的 AI 基础架构。该领域的激烈竞争促使这些提供商采用最具创新性的解决方案,无论是最新的 GPU 还是最先进的软件。
  • 灵活的商业模式: Neoclouds 采用按需付费的定价模式,无需在 GPU 硬件上进行大量资本支出。

Neocloud 市场领导者

  • CoreWeave:规模最大、最具主导地位的厂商,专注于针对 AI 工作负载优化的高性能 GPU 资源,将自己定位为传统云提供商的替代品
  • Lambda Labs:少数同时提供云端和本地 GPU 解决方案的公司之一,提供专为深度学习和 AI 研究量身定制的 GPU 云服务,并获得了大量行业投资的支持
  • Crusoe:提供由闲置能源和可再生能源驱动的可持续 GPU 计算,并与科技巨头合作建设以 AI 为中心的数据中心
  • WhiteFiber: Bit Digital 旗下领先的 GPU 云提供商,旨在重新定义高性能 AI 基础架构。与传统云提供商不同,WhiteFiber 优化了从数据中心到计算、存储、网络和主干网的整个堆栈的性能。
  • Nebius:从 Yandex 业务中脱颖而出,是一家快速发展的欧洲供应商,利用 Nvidia GPU,旨在挑战传统的云供应商
  • Together AI:专注于开源大型语言模型(LLM)和推理优化的云基础设施

企业为何需要 Neoclouds

Neoclouds 填补了现代计算环境中的一个关键空白,即数据密集型应用程序需要强大的计算能力。传统云提供商提供的传统云基础设施难以高效处理 AI 工作负载、复杂分析和实时模拟,从而导致性能瓶颈和效率低下。Neoclouds 利用最佳的基础设施、网络和软件堆栈,解决了这些挑战,为企业提供有效运行 AI 密集型应用程序所需的基础设施。

Neoclouds 的主要挑战

  • GPU 成本高:获取业界最强大的 GPU(而每推出一款新型号,其价值都会迅速贬值)需要大量资金,这为新供应商的进入设置了较高的门槛。
  • 高昂的能源成本:耗电的

    人工智能工作负载导致高昂的电力成本,需要可持续的解决方案。

  • 多租户环境:Neoclouds 的成功取决于提供峰值性能,以最佳作业完成时间 (JCT) 衡量。这需要可预测、无损的 GPU 连接,这在动态多租户环境中是一项重大挑战。
  • 市场竞争:Neocloud 数量的不断增长以及超大规模企业之间持续的竞争引发的价格战正在挤压利润率,并迫使 Neocloud 更加注重运营效率。
  • 供应商锁定和生态系统限制:Nvidia 主导着 GPU、网络和软件供应,造成了供应商锁定。持续的供应短缺,尤其影响到规模较小的 NeoCloud,不仅会延迟新的集群部署,还会限制其谈判能力,并阻碍成本控制。

neoclouds 提供以下主要优势:

  • 高性能:事实证明,在 Neocloud 和超大规模网络中,它能够比替代以太网解决方案提供作业完成时间 (JCT) 改进
  • 统一结构:在单一结构下无缝集成计算和存储,与传统的分段式 AI 基础设施相比,简化了操作
  • 快速部署:从第一天起即可实现高性能,只需进行少量网络微调,从而加快价值实现时间
  • 开放式架构:基于广泛认可的以太网协议,兼容任何 NIC、GPU 和光学硬件组件
  • 多租户环境:固有的流量隔离,有效缓解常见的多租户问题,如“吵闹邻居”效应
  • 端到端支持: DriveNets 基础设施服务 (DIS) 团队帮助客户快速构建 GPU 集群——从硬件选择和采购到安装和微调

结论

Neoclouds 代表着一类专业的云服务提供商,专注于 GPU 即服务,以满足 AI 和数据密集型应用的严苛需求。虽然 Neoclouds 解决了传统云服务提供商面临的性能限制,但也面临着诸多实际挑战,包括高昂的 GPU 采购成本、巨大的能耗、多租户环境的复杂性、日益激烈的市场竞争以及对少数供应商(例如 Nvidia)的依赖。
This post is licensed under CC BY 4.0 by the author.