陈旭天

chenxutian@buaa.edu.cn

17369720372

教育经历

北京航空航天大学 | 2025/9 – 至今人工智能硕士 | 北京，中国

暨南大学 | 2021/9 – 2025/7 人工智能学士 | 珠海，中国

美团无人车业务部 | 2026/3 – 2026/10 决策规划算法实习生 | 北京，中国

Tiny-llm | 2026/04 – 2026/6

PlayTask | github.com/Blossom0913/PlayTask

ASC2022 | 2021/11 – 2022/6 团队成员 | 珠海，中国

项目目标：在有限算力（8× Tesla V100 16GB）和功耗约束下，完成 47 亿参数”源1.0”大语言模型的预训练，并实现 55% 的训练加速（从 45h 降至 28h）。
内存优化：主导应用 ZeRO-Offload 与 ZeRO Stage 1 技术，成功将 75.2GB 的模型状态（参数、梯度、优化器状态）卸载至CPU内存，在仅 8×16GB 显存上跑通 47 亿参数模型，解决了 CUDA OOM 瓶颈。
训练加速：部署 Megatron-DeepSpeed 框架，设计并实施 4路张量并行 + 2路流水线并行的策略，相较单纯8路张量并行，将训练吞吐从 4.08 samples/s 提升至 4.66 samples/s。引入混合精度训练 (AMP)，在 NVIDIA Tensor Core 上利用 FP16 算术加速计算，并解决精度溢出问题。用 Intel MKL 数学库编译 PyTorch，并将其与针对CPU卸载优化的 DeepSpeed CPU Adam 优化器结合，显著加速了 CPU 端的优化器计算步骤。

广东省智能科学与技术研究院 | 2025/2 – 2025/9 算法实习生 | 珠海，中国

作为前三作者，研究成果已申请2项软件著作权：物流仓库多智能体机器人路径规划系统 与 基于积分任务管理与账单追踪的轻量化工具平台。
设计小鼠社会行为分类的实验框架，使用 DeepLabCut 标注身体关键点协同，并以 LightGBM 对比 LSTM、CNN、GMM 等模型的性能；项目代码：DLC_train。
使用AutoDock Tools处理受体蛋白靶点，完成约 430 万个小分子的分子对接（Docking）实验，为药物研发的大规模计算任务，通过结合能和状态筛选药物分子；设计并行框架并在 4 块 RTX 2080Ti 上部署，源代码：Dock。

多智能体路径规划 | 2024/3 – 2024/7 研究助理 | 珠海，中国

构建 AGV 平台与本地服务器的消息交互架构，在真实业务约束下保持车队状态同步。
复现浙江大学 APRIL 实验室的 CL-CBS 多智能体路径规划算法基线，并改进后应用于仿真 AGV 平台。论文：CL-MAPF：具有运动学与时空约束的类车机器人多智能体路径规划。
与团队调研并分析 CL-CBS 在真实业务场景的可行性，修复缺陷并提出较原始算法（如 Hybrid A*）更快的策略，周期约 3 个月。

编程语言： Python, C/C++, Java, Rust, Kotlin

技术技能： PyTorch, TensorFlow, DeepSpeed, Megatron, CUDA, Git, SSH, Linux

核心能力： 分布式训练，混合精度训练，大模型内存优化，模型推理与部署