AML 内推
写在前面
博主目前在字节跳动从事大规模机器学习系统相关工作,也欢迎大家投递简历,加入我们团队。本文列举了当前 AML 正在招聘的岗位,欢迎大家通过我内推投递。
下面是关于 AML 的一些个人观察:
- AML 服务的是字节整个的推荐和广告系统,包括目前的大模型,场景足够丰富与复杂
- AML 团队技术氛围很浓厚,除了很多工程上非常厉害的同学,还有很多在学界很厉害的研究员
- AML 几乎管理了字节所有的 GPU,有足够的训练与推理的机器和练范式给你使用,不管是 GPU 还是 CPU
关于 AML 的更多信息,你可以参考:
在招职位
- AML 多模态算法工程师
- AML 大模型系统工程师
- AML 机器学习系统调度编排工程师
- AML 机器学习训练框架研发工程师
- AML 机器学习推理框架研发工程师
- AML 机器学习编译优化工程师
- AML 机器学习存储架构工程师
- AML 分布式系统优化研发工程师
- AML 机器学习系统后端开发工程师
- 机器学习平台产品解决方案架构师-火山引擎
- 机器学习平台架构师-火山引擎
- AML 研发项目经理 - PMO
AML 多模态算法工程师
职位描述
- 参与研发前沿算法、端云协同等下一代人工智能技术;
- 关注和推进技术在业务场景中的广泛应用,包括但不限于搜索、推荐、广告、审核、联邦学习等;
- 深入调研和关注多模态/NLP/CV 等方向的前沿技术。
职位要求
- 有自然语言处理、计算机视觉、视频理解、推荐系统、广告系统、联邦学习或者参与过大型在线机器学习统平台等研究或者技术背景同学优先;
- 有预训练基础技术,包括高效训练和封装部署服务化,NLP、CV、视频等相关的预训练模型及其下游应用优先;
- 熟练掌握 pytorch、tensorflow 等深度学习框架,python 或者 java 等编程语言;
- 有领域顶级会议文章 (NeurIPS、ICML、ICLR、CVPR、ICCV、ACL、KDD 等)、相关实习经验或者 ACM 竞赛获奖者优先。
内推链接
AML 大模型系统工程师
职位描述
负责公司大模型的系统研发,研究相关技术在搜索、推荐、广告、创作、对话和客服等领域的全新应用和解决方案,满足用户不断增长的智能交互需求,全面提升用户在未来世界的生活和交流方式。主要工作方向包括:
- 负责超大规模机器学习系统架构的设计开发,解决系统高并发、高可靠性、高可扩展性等技术难关;
- 覆盖机器学习系统多个子方向领域的工作,包括:资源调度、模型训练、模型推理、数据管理、工作流编排等;
- 负责机器学习系统前瞻技术的调研和引入,比如:最新硬件架构、异构计算系统、编译优化技术的引入落地;
- 与算法部门深度合作,进行算法与系统的联合优化。
职位要求
- 优秀的代码能力、数据结构和基础算法功底,熟练 C/C++或 Python,ACM/ICPC、NOI/IOI 等比赛获奖者优先;
- 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch);
- 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
- 有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
- 良好的沟通协作能力,能和团队一起探索新技术,推进技术进步。
加分项
- 在大模型领域,参与过大影响力的项目或论文者优先;
- 熟悉 NLP、CV 相关的算法和技术,熟悉大模型训练、RL 算法者优先;
- 有以下某一方向领域的经验:CUDA,RDMA,AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),ML for System,Distributed Storage。
内推链接
AML 机器学习系统调度编排工程师
职位描述
- 负责机器学习系统资源调度的设计和开发,服务于各方向场景(NLP/CV/Speech 等)的模型训练、模型评估和模型推理;
- 负责多种异构资源(GPU、CPU、其他异构硬件)的最优化编排,实现稳定资源、潮汐资源、混布资源、多云资源的合理化使用;
- 负责通过技术手段实现计算资源、RDMA 高速网络资源、存储资源的最优调度,充分发挥大规模分布式集群的计算能力;
- 负责多机房、多地域、多云场景的在离线任务/服务调度,实现全球负载的合理化分布。
职位要求
- 熟练掌握 Linux 环境下的 Go/Python/Shell 等 1 至 2 种以上语言;
- 熟悉 Kubernetes 架构和生态,熟悉 Docker/Containerd/Kata/Podman 等容器技术,有丰富的机器学习系统实践和开发经验;
- 掌握分布式系统原理,参与过大规模分布式系统的设计、开发和维护;
- 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
- 有强烈的工作责任心,较好的学习能力、沟通能力和自驱力,能够快速的响应和行动;
- 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项
符合其中任意加分项者优先:
- 熟悉至少一种主流的机器学习框架(TensorFlow / PyTorch );
- 有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking)。
内推链接
AML 机器学习训练框架研发工程师
职位描述
AML 是公司的机器学习中台,为推荐/广告/搜索等业务提供推荐/广告/CV/语音/NLP 的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML 还在 AI for Science,科学计算等领域做一些前沿研究。
- 负责字节跳动 AML 机器学习训练框架的研究与开发,服务于全公司各个产品;
- 参与机器学习训练框架底层组件的抽象,设计,优化与落地;
- 与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
职位要求
- 熟练掌握 Linux 环境下的 C/C++与 Python 语言;
- 接触过至少一种机器学习框架(Tensorflow / PyTorch / MxNet 或其他自研框架);
- 有以下至少一项的背景知识与经验:GPU 编程,编译器,高性能网络,分布式存储,集群调度;
- 具有独立解决问题的能力,良好的团队合作精神;
- 有强烈的工作责任心,较好的学习能力、沟通能力和自驱力;
- 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项
- 深入研究过至少一种机器学习框架(Tensorflow / PyTorch / MxNet 或其他自研框架)的底层架构和机制;
- 熟悉至少一种经典深度学习模型及其应用场景,如 ResNet 50,BERT,或者了解 GAN,强化学习,图神经网络,AutoML 等;
- 有研究生或博士阶段的计算机系统方向(包含分布式系统,并行计算,编程语言与编译器,网络,存储等)研究背景;
- 有软硬件联合设计的经验;
- 能使用数学工具分析深度学习训练中的优化算法。
内推链接
AML 机器学习推理框架研发工程师
职位描述
AML 是字节跳动公司的机器学习中台,为抖音/今日头条/西瓜视频等业务提供推荐/广告/CV/语音/NLP 的训练和推理系统。为公司内业务部门提供强大的机器学习算力,并在这些业务的问题上研究一些具有通用性和创新性的算法。同时,也通过火山引擎将一些机器学习/推荐系统的核心能力提供给外部企业客户。此外,AML 还在 AI for Science,科学计算等领域做一些前沿研究。
- 负责字节跳动 AML 机器学习在线服务框架的研究与开发,服务于公司各个产品;
- 高效部署,优化计算机视觉、语音识别、语音合成、自然语言处理等字节跳动核心业务模型;
- 与公司各算法部门深度合作,分析业务性能瓶颈和系统架构特征,软硬件结合优化,实现极致性能。
职位要求
- 熟练掌握 Linux 环境下的 C/C++、Python 语言;
- 具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
- 能够熟练使用至少一种主流的机器学习框架 (TensorFlow / PyTorch 等),熟悉框架内部实现;
- 熟悉至少一种经典深度学习模型及其应用场景,如 ResNet、BERT 等;
- 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档;
加分项
- 对深度学习训练和推理模型调试、调优有实操经验;
- 理解 GPU 硬件架构,理解 GPU 软件栈(CUDA,cuDNN),具备 GPU 性能分析的经验;
- 熟悉各类深度学习网络和算子底层实现细节;
- 熟悉并行计算算法,擅长各类并行编程;
- 熟悉模型剪枝、量化等优化方法;
- 熟悉 TVM、MLIR、XLA 等模型优化工具;
- 了解 GAN,强化学习,图神经网络,AutoML 等。
内推链接
AML 机器学习编译优化工程师
职位描述
- 参与 AI 编译器相关项目的技术方案规划,设计在离线全系统的计算图优化链路;
- 针对搜索/推荐/广告场景,优化模型训练/推理的计算图执行效率;
- 与全公司算法部门深度合作,为重点项目进行算法与系统的联合优化。
职位要求
- 熟悉开源 ML 编译器代码(如 XLA/MLIR/TVM),并有相关开发经验;
- 具有 CPU/GPU 下的算子 Kernel 开发和性能优化经验;
- 具有扎实的 C/C++编程能力和数据结构和算法知识;
- 具有独立解决问题的能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神。
加分项
- 有软硬件联合设计的经验;
- 深入研究过至少一种机器学习框架(Tensorflow / PyTorch / MxNet 或其他自研框架)的底层架构和机制。
内推链接
AML 机器学习 DSA 研发工程师
职位描述
负责机器学习系统中 DSA AI 加速器研发工作,研究方向包括从机器学习平台/系统出发,更好的评估、引入、使用 DSA AI 加速器,以更高的性价比支撑业务 AI 模型训练、推理。
主要工作方向包括:
- 负责评估、引入符合机器学习平台/系统以及业务要求的 DSA 加速器;
- 负责开发 DSA 加速器在机器学习平台/系统中的使用流程,对上支撑业务算法,对下屏蔽硬件细节;
- 负责 DSA 领域前瞻技术的调研和引入,比如:最新 DSA 架构、并行计算模式、异构计算系统、编译技术等;
- 和业务部分深度合作,进行性能、精度联合优化。
职位要求
- 熟练掌握 Linux 环境下的 C/C++、Python 语言;
- 具备扎实的计算机科学功底和编程能力,熟悉常见算法和数据结构,具有良好的编程习惯;
- 能够熟练使用至少一种主流的机器学习框架 (TensorFlow / PyTorch 等),熟悉框架内部实现;
- 熟悉至少一种经典深度学习模型及其应用场景,如 ResNet、BERT 等;
- 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项
- 了解 AI DSA 架构,了解常见 AI 芯片架构及其优、缺点,了解常见 AI 编译器方案及其优、缺点(如 XLA、TVM、MLIR);
- 了解 GPU 硬件架构,了解 GPU 软件栈(CUDA,cuDNN),具备 GPU 性能分析的能力;
- 了解常见并行计算模型及算法,了解各类并行编程模型及其优、缺点;
- 了解模型剪枝、量化等优化方法原理,具备相关模型优化经验。
内推链接
AML 机器学习存储架构工程师
职位描述
- 通用性/架构设计取舍:如何构建一个统一的中台系统,但同时可以支持多个业务在不同场景 (低成本/高可用性/高吞吐/高性能/大空间)的诉求;
- 多级/分级存储的架构复杂度:不仅限于显存/内存/外存;
- 跟进前沿的软件/硬件架构演进与尝试;
- 作为站内中台,多代际/多机房/多套餐/不同库存大量资源的规划与利用率优化;对于模型规模/服务流量感应后做出的自动/动态调优问题;
- 多个子系统的多种目标的优化:训练部分的功能性、可用性、容错性;serving 部分的成本、容量、性能;系统同步部分的数据一致性、实效性、带宽容量;
- 针对一些索引/存储结构不断追求极致:诸如无锁化/渐进式数据结构的无限追求;
- 对于 CAP 定理不断的挑战与追求。
职位要求
- 熟练掌握 Linux 环境下的 C++/Python 编程语言的使用;
- 掌握分布式系统原理,参与过大规模分布式系统的设计、开发、维护和持续优化,能够识别大型复杂分布式系统中的潜在问题;
- 参与过推荐/搜索/机器学习等分布式系统工作,涉及过诸如资源调度、任务编排、模型训练、模型推理、特征抽取、MLsys,AiOps 等内容;
- 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分,良好的团队合作精神;
- 有强烈的工作责任心,较好的学习能力、沟通能力、自驱力和执行力;
- 有良好的工作文档习惯,及时按要求撰写更新工作流程及技术文档。
加分项
- 参与过类似 ParameterServer 系统优化,或者搜索系统的索引结构优化;
- 了解 Redis、LevelDB/RocksDB、Mongo 等开源存储类项目;或者有 HDFS、Ceph 等大型分布式存储系统使用/优化经历;
- 熟悉主流的机器学习框架(TensorFlow / PyTorch / MXNet);
- 有以下某一方向领域的经验:AI Infrastructure,HW/SW Co-Design,High Performance Computing,ML Hardware Architecture (GPU, Accelerators, Networking),Machine Learning Frameworks,ML for System,Distributed Storage;
- 对于 Linux kernel,操作系统,有深入了解/追查能力;
- 有 ACM/OI 竞赛背景。
内推链接
AML 分布式系统优化研发工程师
职位描述
- 分布式 ML 系统的优化和研发,特别是多卡,多机训练和推理的加速;
- 高速网络技术研发在机器学习/推荐系统等公司关键业务上的应用;
- 增强分布式机器学习系统的弹性扩缩容能力,提高系统可扩展性和容错能力;
- 通过技术创新推动高速网络技术的持续演进,打造下一代的 GPU 计算平台。
职位要求
- 精通计算机网络和 RDMA 网络编程,分布式训练通信系统比如说 NCCL, Horovod/BytePS;
- 精通高性能编程语言,比如 C/C++, CUDA 等;
- 了解 collective communication(e.g.,allreduce)算法,了解模型并发训练算法者优先;
- 有数据中心网络,高性能通信框架等开发经验者优先;
- 有分布式系统开发经验者优先。
内推链接
AML 机器学习系统后端开发工程师
职位描述
- 负责机器学习系统的后端服务和平台的开发以及系统性能调优;
- 负责解决系统高容量、低延时、高可用等技术难题;
- 参与构建大规模分布式的高性能计算集群,集成最先进的 GPU、高速网络、高性能存储;
- 团队覆盖机器学习系统多个方向的工作,包括:资源调度、任务编排、模型训练、模型推理、数据加速、工作流编排、系统高可用等。
职位要求
- 本科及以上学历,计算机相关专业;
- 熟练掌握 Linux 环境下的 Go/Python/Shell 等 1 至 2 种以上语言;
- 熟悉 Django、Flask 相关技术,有前后端相关开发经验;
- 掌握扎实的计算机基础知识,深入理解数据结构、算法和操作系统知识;
- 有优秀的逻辑分析能力,能够对业务逻辑进行合理的抽象和拆分;
- 有强烈的求知欲,优秀的学习和沟通能力。
加分项
- 熟悉 Kubernetes 架构,有相关的开发经验;
- 熟悉 Docker/Container 容器化相关技术,有相关开发经验;
- 掌握分布式系统原理,参与过大规模分布式系统的开发和维护。
机器学习平台产品解决方案架构师-火山引擎
职位描述
- 跟踪通用机器学习、联邦学习等方向的行业发展、产品动态、客户需求、技术发展趋势,产出产品市场洞察报告,协同产研确定产品发展方向,为产品力和产品商业化负责;
- 深入理解客户需求,灵活组合火山引擎 AML 团队的产品和技术能力,为客户提供有竞争力的价值,追求双赢;
- 负责通用机器学习、联邦学习等方向产品线的需求输入、产品形态、市场定位、商业模式、定价策略等;
- 参与产品线生命周期的各个环节,协调并驱动内部资源,跟进产品进度,按计划推动完成产品上线;
- 深度洞察客户需求,根据用户需求场景,设计出满足用户需求的产品解决方案,助力客户 AI 模型训练和推理效率提升;
- 负责产品线上线下的推广,包括对内产品培训和对外产品介绍,产品运营趋势分析和优化等。
职位要求
- 本科及以上学历,有机器学习平台产品相关经验,对于行业及产品的发展有深入思考;
- 对云原生架构、IaaS 资源池化、GPU 算力资源有一定的技术背景;
- 逻辑性强,有很好的商业敏感度和行业知识;
- 有较强的自我驱动能力和跨部门协作的能力,喜欢挑战性工作,开放包容,有创新精神;
- 有 toB 机器学习平台产品从 0-1 孵化、公有云/私有云大型项目经验优先。
内推链接
机器学习平台架构师-火山引擎
职位描述
- 负责火山引擎-机器学习平台的设计和开发工作,打造国内领先的聚焦 AI 开发者体验的机器学习平台;
- 从机器学习系统架构、云原生架构、公有云架构,等多个层面,进行技术探索和攻坚,帮助客户实现高性能、高资源利用率的高性能计算平台。
职位要求
- 两年以上 Linux Golang/C/C++/Python/Java 的开发经验;
- 对如下一个或多个领域有浓厚的兴趣,并愿意付出自己的时间进行深入研究和探索:
- 机器学习框架:Pytorch 等机器学习框架、GPU 等异构计算芯片及优化、MLOps、CV/NLP/搜广推等领域模型算法等;
- 云原生:Kubernetes 及容器系统、大规模训练任务和推理服务编排和调度、镜像加速等;
- 公有云:云存储、网络虚拟化、云安全、技术商品化探索等。
内推链接
AML 研发项目经理 - PMO
职位描述
- 对 AML 团队的横向项目整体实施负责,全生命周期参与并领导项目的规划、推进和交付,参与和管理大型机器学习合作项目;
- 代表 AML 团队,与包括头条,抖音,广告技术等业务团队沟通,全流程跟进重要机器学习合作项目的顺利实施与交付;
- 代表 AML 团队,与包括计算引擎,分布式存储,经营分析等诸多基础团队协作,共同管理和规划 AML 团队的高优先合作项目,完善预算管理和分配机制,共同迭代中长期基础发展路线;
- 秉承“数据驱动”的价值理念,用“打造产品”的观念和严谨态度,发展完善机器学习中台的核心指标体系;
- 指导培训 AML 团队的骨干成员,提高项目管理水平,优化团队协作效率,促进知识分享。
职位要求
- 本科及以上学历,3 年及以上项目管理/互联网技术/产品等相关经验;
- 优秀的沟通能力,能够带领项目讨论,并引导参与方达成有效共识;
- 善于深入思考问题,具备优秀的逻辑思维和分析能力;
- 学习能力强,具备良好的业务理解能力,独立承担项目管理工作;
- 【加分项】具备流利的英文交流能力;
- 【加分项】具备扎实的数据分析能力。
内推链接
Linked Mentions
-
No backlinks found.