量化私募急招分布式机器学习平台专家 全职
岗位职责:
1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练;
2.主导分布式训练相关的技术选型,比如适配业务的并行策略、存储方案等;
3.持续分析大规模集群的训练性能,解决数据读取、显存、通信等核心瓶颈,同 时跟踪前沿分布式训练技术,推动平台架构持续演进;
4.对接算法团队,配合算法团队适配不同的机器学习任务,并做针对性的优化。
5.监控系统运行状态,识别潜在风险,建立预防机制以减少故障发生。
职位要求
1.计算机科学、电子工程、软件工程或相关理工科本科及以上学历,5 年以上工 作经验
2.熟悉Python/Golang/C++中至少一种语言,掌握主流深度学习框架(如 PyTorch)
3.熟悉在分布式环境中快速定位故障根源,如网络延迟、节点失效或数据同步问 题,具备日志分析、性能剖析和调试工具使用经验(如 Prometheus、Grafana)
4.熟悉机器学习训练全链路工具(如 Kubernetes+Slurm 混合调度、机器学习平 台)、熟悉分布式训练框架(如 DeepSpeed、Megatron)、掌握 CUDA 性能调优或者 GPU 架构等。
5.有大规模 AI 训练集群(1000+节点)项目的设计、实施管理经验
6.具备金融行业或大型互联网公司 HPC 运维经验
7.具备较强的责任心和团队合作意识、具有良好的学习能力和分析解决问题能力
8.精通分布式队列系统实现原理,有 Slurm/YARN、RAY 等资源管理系统经验者优先
量化私募急招分布式机器学习平台专家 全职岗位职责: 1.负责规划设计高性能分布式机器学习训练平台的整体架构,支撑大规模数据处 理和模型训练; 2.主导分布式训练相关的技术选型,比如适配业务的并行
张小明
前端开发工程师
Obsidian Tasks 插件深度使用指南:打造高效任务管理系统
Obsidian Tasks 插件深度使用指南:打造高效任务管理系统 【免费下载链接】obsidian-tasks Task management for the Obsidian knowledge base. 项目地址: https://gitcode.com/gh_mirrors/ob/obsidian-tasks Obsidian Tasks 是一款专为 Obsidian 知识库设计的…
“豆包手机被微信拒绝,阿里系也紧随其后!背后到底藏着怎样的产业博弈?”
在智能手机行业,硬件厂商的创新往往面临两个最大的挑战:如何在设计和功能上打破现有格局,并能有效融入已经成熟的应用生态中。豆包手机的“被拒绝事件”正好反映了这个问题。最近,豆包手机在推出之后,先是遭遇了微信的…
Charticulator终极指南:5步掌握专业级图表定制艺术
Charticulator终极指南:5步掌握专业级图表定制艺术 【免费下载链接】charticulator Interactive Layout-Aware Construction of Bespoke Charts 项目地址: https://gitcode.com/gh_mirrors/ch/charticulator 在数据可视化领域,Charticulator作为一…
EmotiVoice语音多样性评测:同一文本不同情绪自由切换
EmotiVoice语音多样性评测:同一文本不同情绪自由切换 在虚拟助手越来越“会聊天”的今天,人们开始不满足于它只是“把话说对”——我们更希望它能“说得动情”。当你说“我累了”,它是否能用温柔的语气回应?当你宣布胜利时&#x…
EmotiVoice能否生成脱口秀风格语音?幽默语调模拟挑战
EmotiVoice能否生成脱口秀风格语音?幽默语调模拟挑战 在短视频和播客内容爆炸式增长的今天,一段能让人会心一笑的语音,可能比千字文案更有传播力。而脱口秀——这种高度依赖语气起伏、节奏把控与情绪反差的语言艺术,正成为检验AI语…
15、WRT54G路由器的网络应用与硬件改造全解析
WRT54G路由器的网络应用与硬件改造全解析 1. CDMA连接与SSH访问设置 在使用CDMA连接时,若连接中断后重新连接,ppp0接口可能会从提供商处获得不同的IP地址。为了定期更新IP地址信息,可将 /usr/bin/ppp-ip.sh 添加到crontab中。以下是具体操作步骤: - 使用 crontab –e…