梁文锋署名,DeepSeek 发布最新论文
在 6 月中旬获得 500 亿融资后仅十几天,6 月 27 日,DeepSeek 团队联合北京大学发布论文《DSpark: Confidence-Scheduled Speculative Decoding with Semi-Autoregressive Generation》。这不是一次模型版本的迭代,而是在原有 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 基础上增加了一个推测解码模块,重点在于工程落地层面的优化。随 DSpark 一同开源的 DeepSpec,是一个用于训练和评估推测解码草稿模型的全栈代码库,包含数据准备工具、草稿模型实现、训练代码和评估脚本,支持 MIT 许可。目前 DeepSpec 已内置 DSpark、DFlash 和 Eagle3 三种实现。值得注意的是,DeepSeek 创始人梁文锋位列论文作者名单。在完成首轮融资的当下,创始人依然亲自参与技术论文撰写,这在 AI 行业并不多见。
 
 
Back to Top