揭秘DeepSeek 一个更极致的中国技术理想主义故事

  • 打印
  • 收藏
收藏成功

DeepSeek 对模型架构进行了全方位创新。它提出的一种崭新的MLA(一种新的多头潜在注意力机制)架构,把显存占用降到了过去最常用的MHA 架构的5%~13%,同时,它独创的DeepSeekMoESparse结构,也把计算量降到极致,所有这些最终促成了成本的下降。

中国的7家大模型创业公司中,DeepSeek(深度求索)最不声不响,但它又总能以出其不意的方式被人记住。(剩余8397字)

monitor