优惠论坛

标题: DeepSeek-R1 发布一周年之际曝光新模型MODEL1 [打印本页]

作者: 比推快讯    时间: 2026-1-21 08:17
比推消息,据量子位报道,DeepSeek-R1 发布一周年之际对新模型MODEL1进行了曝光。DeepSeek 在 GitHub 更新 FlashMLA 代码,横跨 114 个文件中有 28 处提到 MODEL1,与 V32 作为不同的模型出现。已知 V32 是 DeepSeek-V3.2,MODEL1 很可能是新的架构。代码中的具体差异体现在 KV 缓存布局、稀疏性处理和 FP8 解码方面,在内存优化上有多处不同。



风险提示: 本新闻涉及的内容仅供参考,不构成投资建议。依据发布的信息以及所表达的意见行事所造成的一切后果由行事者自负。文章链接




欢迎光临 优惠论坛 (https://tcelue.cc/) Powered by Discuz! X3.1