
Copysmith
企业级和电商文案生成
DeepSeek-V2是一款由DeepSeek AI公司开发的混合专家(MoE)语言模型,它旨在探索通用人工智能(AGI)的本质。这个模型以其训练成本低和推理高效为特点,参数量达到236B,每个token激活21B参数,支持128K token的上下文长度。
DeepSeek-V2 API的定价为每百万token输入0.14美元(约1元人民币)
输出0.28美元(约2元人民币,32K上下文)。
这个价格相比GPT-4-Turbo定价,仅为后者的近百分之一。
文章中提到DeepSeek-V2采用Transformer架构,并在注意力模块和前馈网络(FFN)上采用了创新的架构,包括:
此外,DeepSeek-V2基于HAI-LLM框架进行训练,采用多种并行技术以减少通信开销,并使用定制的CUDA内核提高训练效率。
文章还提到了DeepSeek-V2 Chat (SFT)和DeepSeek-V2 Chat (RL)在不同评估基准上的性能表现,展示了模型在对话生成和一致性方面的有效性。
参考资料:https://www.jiqizhixin.com/articles/2024-05-07-3