DeepSeek,全称杭州深度求索人工智能基础技术研究有限公司,成立于2023年7月17日,是一家创新型科技公司,专注于开发先进的大语言模型(LLM)和相关技术。
以下是关于 DeepSeek 的技术特点:
• 高效模型:DeepSeek 的最新模型 DeepSeek-V3 在推理速度和性能上取得了显著突破。它是一个拥有 6710 亿参数的混合专家(MoE)语言模型,每次激活 370 亿参数。在多个基准测试中,DeepSeek-V3 的表现优于其他开源模型,并与全球最先进的闭源模型相媲美。
• 低成本训练:DeepSeek-V3 的训练成本远低于其他大型模型。例如,与 Meta 的 Llama 3.1 模型相比,DeepSeek-V3 的训练仅需约 600 万美元的计算资源,仅为 Meta 的十分之一 。