工作职责:
岗位职责:
1. 大模型基础架构设计与研发:
* 负责大模型基础架构的设计、研发和优化,包括模型训练、推理过程中的高效计算资源调度、内存优化、网络传输优化等。
* 参与大模型推理服务的搭建与部署,确保系统的高可用性、高性能和可扩展性。
2. 推理优化与性能提升:
* 负责大模型推理过程中的性能优化,优化模型推理速度、内存消耗和计算资源使用。
* 根据不同的应用场景,优化推理算法和模型压缩技术,实现低延迟和高吞吐量的推理服务。
3. 主流推理框架的应用与定制:
* 熟悉并使用主流的大模型推理框架(如TensorRT、ONNX Runtime、DeepSpeed等),并能够根据需求进行定制化开发与优化。
* 结合实际业务需求,灵活调整推理框架的配置和参数,提升整体推理效率。
4. 分布式系统开发与优化:
* 设计并实现大模型推理在分布式系统中的高效调度与协同工作,确保大规模并发请求的处理能力。
* 优化分布式系统的通信、负载均衡、容错能力等,提升系统的整体稳定性和性能。
5. 系统调优与故障排查:
* 定期进行系统性能评估和瓶颈分析,提出系统优化方案并实施。
* 能够快速定位和解决系统性能瓶颈和推理过程中的各类问题,确保系统高效、稳定运行。
6. 技术创新与团队协作:
* 跟踪大模型基础架构领域的最新研究与技术进展,提出创新性的技术方案。
* 与团队成员密切合作,共同推动技术解决方案的实施与落地。
岗位要求:
1. 教育背景:
* 计算机科学、软件工程、人工智能等相关专业本科及以上学历。
2. 工作经验:
* 3年以上分布式系统、基础架构研发或大规模深度学习系统开发经验,具备扎实的系统设计和优化能力。
3. 技术能力:
* 熟悉大模型基础架构,包括大规模训练、推理的计算资源调度和优化策略。
* 熟悉主流大模型推理框架(如vLLM、TensorRT、ONNX Runtime、DeepSpeed、Triton等),能够根据需求进行定制化优化。
* 具有分布式系统开发经验,能独立设计和优化分布式计算框架,具备负载均衡、容错等系统调优能力。
* 深刻理解大模型推理中的性能瓶颈,能够使用各种技术手段(如模型压缩、量化、并行化等)提升推理性能。
4. 编程能力:
* 精通Python、C++等编程语言,具备良好的编程习惯和代码质量意识。
* 熟悉常见的深度学习框架(如PyTorch、TensorFlow)及其推理相关的API,能够进行高效的代码开发。
5. 系统调优与故障排查能力:
* 具有系统性能调优经验,能够进行深入的故障排查与性能瓶颈分析,提出高效的解决方案。
* 熟悉常用的性能分析工具(如Perf、gdb、TensorBoard等),能够快速诊断和解决系统中的问题。
6. 团队合作与沟通能力:
* 具备良好的团队协作能力,能够与跨部门团队协同工作,推动技术方案的落地实施。
* 良好的沟通能力,能够清晰表达技术方案和优化思路。
7. 其他要求:
* 强烈的责任心和自驱力,能够在高压环境下保持高效的工作状态。
* 对大模型和人工智能领域充满热情,愿意在快速发展的技术环境中持续学习和成长。