董自飞
范德堡大学数据科学硕士 | 机器学习、医学影像、量化研究
我目前在寻找 2026 年开始的全职岗位,方向包括机器学习、应用 AI、量化研究,以及数据密集型工程岗位。
我的经历横跨医学影像、LLM 管线、量化建模和端到端数据系统,主导过胸片分割、低剂量 X 光去噪,以及金融披露文本理解与信号抽取项目。

简介
我做过的很多机器学习问题都有一个共同点:数据条件不好,但输出结果必须可靠。在医学影像里,这意味着要处理任意位姿胸片、不完整标注、合成数据生成和低剂量重建;在量化和应用 AI 场景里,这意味着要在噪声很高的金融披露文本和纵向数据上搭建可用的 LLM 管线和结构化数据流程。
我比较有优势的地方,是能把建模深度和工程执行结合起来。我可以从数据处理、实验设计一路做到训练、评估和管线搭建,比较适合既看技术含量、又强调落地能力的团队。
代表经历
首席研究员 - 西北大学 AIMP 实验室
2025 年 12 月 - 至今- 主导 2.5D 低剂量 X 光去噪项目,重点解决运动鲁棒性、幻觉伪影抑制和临床可用重建质量问题。
- 从 0 到 1 推进 AnyCXR,构建面向任意采集位姿和不完整标注胸片的鲁棒解剖分割系统。
- 搭建大规模合成数据和预处理流水线,处理超过 8TB 的异构影像数据,提升跨视角泛化能力。
量化研究员 - 联博基金 x 范德堡大学
2026 年 1 月 - 至今- 设计基于大语言模型的因子提取系统,将 10 年 EDGAR 披露文本转成结构化、可解释的投资信号。
- 构建 5,000+ 高质量金融语义标注数据集,用于监督微调与多 Agent 推理探索。
- 研究 RL 对齐与过程监督方法,提升长金融文本推理质量。
数据架构师与工程师 - 范德堡大学 Ultimate Consequences 实验室
2025 年 3 月 - 至今- 搭建端到端数据基础设施,包括数据库设计、自动化 R 数据采集和 LLM 辅助验证流程。
- 支持 639 名个体生命史与死亡率数据的稳定管理和分析。
- 重构遗留 R 流程为可复用数据管线,减少手工流程并提升协作效率。
量化研究实习生 - 宁波金戈量锐资产管理有限公司
2025 年 6 月 - 2025 年 8 月- 构建 10 年高维高噪声时序数据的端到端处理流程,覆盖清洗、对齐、特征生成与建模。
- 用 Numba 和 NumPy 优化矩阵密集型训练流程,实现约 10 倍加速。
- 将广义特征神经网络用于高噪声时序预测,并在全量数据上完成验证。
代表工作
AnyCXR
低剂量 X 光去噪
结合扩散模型与潜空间先验的 2.5D 低剂量 X 光去噪
在运动强、采集难的临床场景中,结合扩散式去噪、潜空间先验和不确定性融合的重建工作。
- 构建基于 Brownian Bridge Diffusion 和 RQ-VAE 的去噪管线
- 设计平滑与门控机制,提升层间一致性并抑制幻觉伪影
- 强调非刚性运动区域下的稳定性和结构保真
PyTorch扩散模型表征学习医学 AI生成式重建
EDGAR LLM 管线
基于大模型的金融披露文本因子提取系统
面向 10-K、10-Q 和 8-K 披露文本的应用研究系统,结合长文本推理、监督微调和评估流程抽取结构化信号。
- 构建主题理解与五档情绪分类标注数据集
- 搭建跨 10 年披露文本的结构化信号管线
- 探索过程监督和回测结合的推理增强流程
LLMNLP金融文本SFT评估
技能栈
机器学习与建模
PyTorch
LLM
扩散模型
医学影像
弱监督
表征学习
数据与系统
Python
NumPy
Pandas
Numba
R
SQL
应用方向
量化研究
金融 NLP
合成数据
纵向数据分析
实验设计
评估管线
教育背景
数据科学硕士
2024 年 8 月 - 2026 年 5 月(预计)范德堡大学
GPA 3.8/4.0
计算机科学与统计双学士
2021 年 5 月 - 2024 年 5 月北卡罗来纳大学教堂山分校
GPA 3.625/4.0,优秀毕业生
计算机科学
2020 年 8 月 - 2021 年 5 月凯斯西储大学
转学前 GPA 4.0/4.0