deepseek

1年前更新 9,645 0 0

DeepSeek-V2：幻方量化旗下深度求索推出的开源大模型和聊天助手

收录时间：

2024-06-13

deepseek

DeepSeek-V2是一款由DeepSeek AI公司开发的混合专家(MoE)语言模型，它旨在探索通用人工智能（AGI）的本质。这个模型以其训练成本低和推理高效为特点，参数量达到236B，每个token激活21B参数，支持128K token的上下文长度。

性能对比：DeepSeek-V2在AlignBench基准测试中超过了GPT-4，接近GPT-4-turbo，在MT-Bench中与LLaMA3-70B相媲美，优于Mixtral 8x22B。
擅长领域：模型特别擅长数学、代码和推理任务。
任务表现：在NEEDLE IN A HAYSTACK任务中，即使上下文窗口达到128K，DeepSeek-V2也能表现良好。在LiveCodeBench上，它获得了较高的Pass@1分数。
预训练和微调：DeepSeek-V2使用了一个由8.1T token组成的高质量、多源预训练语料库，并在150万个对话上进行了监督微调（SFT），以及通过群组相对策略优化（GRPO）进一步优化模型。

DeepSeek-V2 API的定价为每百万token输入0.14美元（约1元人民币）

输出0.28美元（约2元人民币，32K上下文）。

这个价格相比GPT-4-Turbo定价，仅为后者的近百分之一。

文章中提到DeepSeek-V2采用Transformer架构，并在注意力模块和前馈网络（FFN）上采用了创新的架构，包括：

此外，DeepSeek-V2基于HAI-LLM框架进行训练，采用多种并行技术以减少通信开销，并使用定制的CUDA内核提高训练效率。

文章还提到了DeepSeek-V2 Chat (SFT)和DeepSeek-V2 Chat (RL)在不同评估基准上的性能表现，展示了模型在对话生成和一致性方面的有效性。

官网地址：https://www.deepseek.com/
项目地址：https://github.com/deepseek-ai/DeepSeek-V2
论文标题：DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

参考资料：https://www.jiqizhixin.com/articles/2024-05-07-3

数据统计