職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
崗位職責:
1.負責大模型訓練框架、推理引擎及資源調度平臺(GPU/Kubernetes 等)的架構設計與研發,保障系統高效、穩定、可擴展;
2.與算法團隊深度合作,針對大模型訓練/推理場景進行算法系統聯合優化,提升訓練速度與推理吞吐;
3.主導分布式訓練、混合并行、算子優化等關鍵技術攻關,持續提升 GPU 利用率并降低計算成本;
4.跟蹤業界前沿,開展前瞻性技術調研與原型驗證,保持實驗室在大模型系統方向的技術領先;
5.輸出高質量技術文檔和規范,推動團隊技術共享與持續改進。
任職要求:
1.精通 Linux 環境下的 C/C 與 Python 編程;
2.具備以下至少一項經驗:分布式訓練、CUDA 算子優化、深度學習訓練/推理框架二次開發、在線推理服務、Kubernetes/GPU 集群調度;
3.具有獨立解決復雜系統問題的能力,良好的團隊協作與溝通能力;
4.強烈的責任心和自驅力,優秀的學習能力;
5.具備規范的文檔編寫習慣,能夠及時更新技術文檔和流程。
加分項:
1.深入研究過至少一種深度學習框架(TensorFlow / PyTorch / JAX 等)的底層機制;
2.參與過 10B 級以上大模型訓練并進行算法或系統調優;
3.熟悉云原生 DevOps、容器化技術及 K8s 生態;
4.具有系統方向(分布式系統、并行計算、網絡或存儲等)研究背景且在頂會發表論文;
5.對 LLM 推理加速與工程落地有豐富經驗者優先。
1.負責大模型訓練框架、推理引擎及資源調度平臺(GPU/Kubernetes 等)的架構設計與研發,保障系統高效、穩定、可擴展;
2.與算法團隊深度合作,針對大模型訓練/推理場景進行算法系統聯合優化,提升訓練速度與推理吞吐;
3.主導分布式訓練、混合并行、算子優化等關鍵技術攻關,持續提升 GPU 利用率并降低計算成本;
4.跟蹤業界前沿,開展前瞻性技術調研與原型驗證,保持實驗室在大模型系統方向的技術領先;
5.輸出高質量技術文檔和規范,推動團隊技術共享與持續改進。
任職要求:
1.精通 Linux 環境下的 C/C 與 Python 編程;
2.具備以下至少一項經驗:分布式訓練、CUDA 算子優化、深度學習訓練/推理框架二次開發、在線推理服務、Kubernetes/GPU 集群調度;
3.具有獨立解決復雜系統問題的能力,良好的團隊協作與溝通能力;
4.強烈的責任心和自驅力,優秀的學習能力;
5.具備規范的文檔編寫習慣,能夠及時更新技術文檔和流程。
加分項:
1.深入研究過至少一種深度學習框架(TensorFlow / PyTorch / JAX 等)的底層機制;
2.參與過 10B 級以上大模型訓練并進行算法或系統調優;
3.熟悉云原生 DevOps、容器化技術及 K8s 生態;
4.具有系統方向(分布式系統、并行計算、網絡或存儲等)研究背景且在頂會發表論文;
5.對 LLM 推理加速與工程落地有豐富經驗者優先。
工作地點
地址:蘇州相城區中荷(蘇州)科技創新港11


職位發布者
HR
蘇州英格瑪制造外包有限公司

-
中介服務
-
500-999人
-
私營·民營企業
-
獅山路22號