2024年1月28日

DeepSeek发布突破性开源多模态模型

最后修改时间:2018年10月20日

Janus-Pro:引领AI多模态技术革新

人工智能领域迎来重大突破!2024年1月28日,DeepSeek在Hugging Face平台震撼发布全新开源多模态AI模型Janus-Pro。这款创新模型提供1B和7B两种参数规模版本,其中Janus-Pro-7B在多项权威基准测试中展现出卓越性能,成功超越了包括OpenAI的DALL-E 3和Stable Diffusion在内的主流模型。

作为一款集图像理解与生成于一体的先进系统,Janus-Pro采用了基于SigLIP-L的图像理解技术,并借鉴LlamaGen实现高质量图像生成。值得注意的是,即便是OpenAI的GPT-4,目前也尚未开放其图像生成功能。

技术演进之路

DeepSeek在多模态AI领域持续深耕,展现出强劲的技术创新实力:

2024年初,团队首次推出Janus基础版本,这是一款突破性的开源多模态模型(MLLM)。其创新之处在于实现了视觉编码解耦,为多模态理解和生成开辟了新途径。该版本基于DeepSeek-LLM-1.3b-base构建,在约500B文本标记的海量语料上完成训练。在图像处理方面,模型采用SigLIP-L作为视觉编码器,支持384x384分辨率的图像输入,并使用16倍下采样率进行图像生成。

2024年11月,DeepSeek发布了JanusFlow,这是一个革命性的统一图像生成框架。它的独特之处在于采用极简设计理念,巧妙地将自回归语言模型与先进的生成模型方法相结合。研究表明,该框架能够在现有大型语言模型架构中直接训练,无需复杂的结构改造。

Janus-Pro:技术突破与创新

2025年伊始,Janus系列迎来重大升级——Janus-Pro正式发布。这一版本在架构设计上继承了原有的优势,同时引入多项创新:

核心技术特点:

  • 创新的自回归框架设计
  • 视觉编码路径解耦技术
  • 统一的转换器架构
  • 灵活的多模态处理能力

技术实现细节:

  1. 视觉编码解析作为核心设计原则
  2. 采用独立编码方法处理原始输入
  3. 统一自回归Transformer架构
  4. 创新的特征处理流程:
    • 使用siglip编码器提取图像语义特征
    • 2D到1D的特征转换
    • 智能特征映射与适配
    • VQ令牌技术的应用
    • 多模态特征序列的融合处理

性能与评测

Janus-Pro的训练过程极其严谨,采用了基于PyTorch的HAI-LLM框架。具体训练配置:

  • 1.5B版本:16节点集群,7天训练周期
  • 7B版本:32节点集群,14天训练周期
  • 硬件配置:每节点配备8张A100(40GB)GPU

在权威基准测试中,Janus-Pro展现出卓越性能:

  1. 多模态理解能力:

    • MMBench测试分数:79.2
    • 显著超越:
      • Janus(69.4)
      • TokenFlow(68.9)
      • Morph(75.2)
  2. 图像生成能力:

    • GenEval得分:0.80
    • 优于:
      • Janus(0.61)
      • DALL-E 3(0.67)
      • Stable Diffusion 3 Medium(0.74)
  3. 指令跟踪能力:

    • GenEval总体准确率:80%
    • 超越竞品:
      • Transfusion(63%)
      • SD3-Medium(74%)
      • DALL-E 3(67%)
    • DPG-Bench得分:84.19(领先所有对标方案)

开源与展望

目前,Janus-Pro的完整代码已在GitHub开放获取: https://github.com/deepseek-ai/Janus

业界普遍认为,DeepSeek此次在多模态领域的突破性进展,尤其是在文生图、文生视频等方向的创新,很可能引发包括OpenAI、Meta在内的科技巨头的强烈关注。

特别提示:由于近期遭受大规模网络攻击,DeepSeek目前暂时限制了非中国大陆手机号的注册。海外用户如需注册,需要使用虚拟号码。已注册用户不受影响,可继续正常使用平台服务。