小合
小合
发布于 2025-09-09 / 56 阅读
0
0

如何入坑AI Infra?

1、什么是AI Infra?

AI Infra,全称是 Artificial Intelligence Infrastructure,即 人工智能基础设施

它指的是支持人工智能(尤其是机器学习/深度学习)模型从数据准备到训练,再到部署和运维的全生命周期所需的一整套底层硬件、软件、工具和系统。

AI Infra 主要包括以下内容:

  • AI 训练框架 & 推理引擎;

  • AI 编译 & 计算架构;

  • AI 硬件 & 体系结构。

2、AI Infra岗位招聘情况

大疆:

高级机器学习平台专家(AI Infra)上海市,深圳市 | 技术类 | 研发团队 | 2025-04-22

工作职责

1. 负责业界/学界SOTA方案调研和原型验证;

2. 结合公司业务特点,给出AI Infra建设规划(重点是训练&推理优化);

3. 针对不同技术方案的成本、收益,给出方案选型建议;

4. 方案落地过程中进行风险把控和方向纠偏;

5. 指导一线工程师解决新方案落地过程中的卡点。

任职要求

1. 硕士及以上学历,具备计算机科学、信息工程、电子工程、机器人学等相关专业背景;

2. 了解深度学习算法基本原理,熟悉神经网络基本架构和各算子计算方式,有视觉类训练&推理任务优化经验,有7B/70B规模大模型训练&推理优化经验;

3. 熟悉FSDP/DeepSpeed/Megatron等分布式训练框架;有 CUDA 开发经验,有TensorRT/Triton/Cutlass相关经验;

4. 具有开阔的技术视野以及较强的技术规划能力和落地能力,能指导一线工程师解决高难度技术问题;

5. 具备良好的沟通能力和团队合作习惯。

华为:
职位描述:

  • Golang

  • Java

  • 人工智能

  • 大模型

  • Python

1、在AI基础组件团队,负责大规模AI集群基础组件建设,赋能AI集群极致性能与可靠性。
2、调研与掌握最新技术与工具,充分挖掘硬件特性。
3、紧跟业内前沿,持续优化AI基础组件。
岗位要求

- 精通GO/Python,有良好的数据结构和算法基础
- 具备丰富的模型训练经验,熟悉多种训练框架(DeepSpeed、Megatron等),有实际落地经验。
- 具备深度学习基本知识,熟悉Transformer、GPT等模型结构;
- 有容器、K8S等云原生技术实践者优先。

阿里巴巴(可转正实习/校招招聘):

邮箱:
wuzhengbiao.wzb@alibaba-inc.com
岗位:
算法工程师、研发工程师(C++ Java Python)
涉及方向(排名不分前后):NLP、CV、推理加速、训练加速、分布式计算、高性能计算、异构计算、GPU编程、CPU编程、kernel优化、并行计算、网络、数据库、大数据统统都要!

​1. 负责AI异构计算平台研发,结合国内外AI芯片,打造AIGC部署全流程的优化,实现AI算力的通用化和普惠。
​2. 分析AIGC业务场景性能瓶颈,软硬件协同优化,实现极致性能的大模型推理引擎。
​3. 洞悉人工智能及深度学习的应用发展趋势,参与下一代机器学习产品设计。

​职位要求:
​1. 对GPU有深入理解,有丰富的CUDA编程和优化经验;精通C++语言,熟悉python,熟悉Linux环境 
​2. 熟悉主流深度学习框架(例如PyTorch),在AIGC训练和推理性能优化方面有实操经验
​3. 计算机、电子类相关专业硕士以上学历。

拥有以下特长者优先
​a. 有TensorRT/Cutlass/Triton/VLLM/SGLang等框架开发和性能优化经验。
b. 有深度学习框架开发经验,如Tensorflow,PyTorch等。
​c. 有异构计算、编译等体系结构领域开发经验。
​d. 计算机、机器学习领域博士(或者有高质量文章发表

3、给Infra从业者的一些建议

建议靠近模型、靠近硬件,这是AI Infra和其他Infra最大的区别。最好是真正对这个领域感兴趣,并且又足够的主观能动性去做各种co-design。AI Infra处在这个未知,就需要垂直联合优化,才能做出好的工程。最终,最能利用计算的方法, 长远来说才是赢家。

推荐文章《Richard Sutton的The Bitter Lesson》,它是站在算法人的角度来看问题,说的是“最终,最能利用计算的方法,长远来说才是赢家”。短期内的各种奇技淫巧,起始都不本质。即如何把硬件的计算力发挥出来,如何设计模型去最大化利用计算,这是最本质的。

摩尔定律开始时看不出差距,但长久累计,差距巨大。如今英伟达算力是CPU的十倍、百倍,AI、元宇宙、区块链等所有需要大算力的新应用都得跑在它上面,所以最重要的是摩尔定律。怎么换取摩尔定律的持续,怎么设计模型和系统软件,使之能跟随摩尔定律,把硬件性能发挥到极致。这对Infra团队意义重大。

扩展阅读:

  1. 2025 中国 AI Infra 平台市场发展研究报告

  2. bytedance/UI-TARS-desktop: The Open-Source Multimodal AI Agent Stack: Connecting Cutting-Edge AI Models and Agent Infra

  3. deepseek-ai/open-infra-index: Production-tested AI infrastructure tools for efficient AGI development and community-driven innovation

  4. 目录-面向AI-Infra的Cuda零基础入门 - 飞书云文档

  5. 《自制大模型推理框架》课程目录-支持LLama3和Qwen3 - 飞书云文档

  6. SimAI万卡集群模拟器,LLM大模型训练 通信计算模拟,阿里巴巴 SimAI: Unifying Architecture Design and Perfor_哔哩哔哩_bilibili


评论