Janus-Pro：引领AI多模态技术革新

人工智能领域迎来重大突破！2024年1月28日，DeepSeek在Hugging Face平台震撼发布全新开源多模态AI模型Janus-Pro。这款创新模型提供1B和7B两种参数规模版本，其中Janus-Pro-7B在多项权威基准测试中展现出卓越性能，成功超越了包括OpenAI的DALL-E 3和Stable Diffusion在内的主流模型。

作为一款集图像理解与生成于一体的先进系统，Janus-Pro采用了基于SigLIP-L的图像理解技术，并借鉴LlamaGen实现高质量图像生成。值得注意的是，即便是OpenAI的GPT-4，目前也尚未开放其图像生成功能。

技术演进之路

DeepSeek在多模态AI领域持续深耕，展现出强劲的技术创新实力：

2024年初，团队首次推出Janus基础版本，这是一款突破性的开源多模态模型（MLLM）。其创新之处在于实现了视觉编码解耦，为多模态理解和生成开辟了新途径。该版本基于DeepSeek-LLM-1.3b-base构建，在约500B文本标记的海量语料上完成训练。在图像处理方面，模型采用SigLIP-L作为视觉编码器，支持384x384分辨率的图像输入，并使用16倍下采样率进行图像生成。

2024年11月，DeepSeek发布了JanusFlow，这是一个革命性的统一图像生成框架。它的独特之处在于采用极简设计理念，巧妙地将自回归语言模型与先进的生成模型方法相结合。研究表明，该框架能够在现有大型语言模型架构中直接训练，无需复杂的结构改造。

Janus-Pro：技术突破与创新

2025年伊始，Janus系列迎来重大升级——Janus-Pro正式发布。这一版本在架构设计上继承了原有的优势，同时引入多项创新：

核心技术特点：

创新的自回归框架设计
视觉编码路径解耦技术
统一的转换器架构
灵活的多模态处理能力

技术实现细节：

视觉编码解析作为核心设计原则
采用独立编码方法处理原始输入
统一自回归Transformer架构
创新的特征处理流程：
- 使用siglip编码器提取图像语义特征
- 2D到1D的特征转换
- 智能特征映射与适配
- VQ令牌技术的应用
- 多模态特征序列的融合处理

性能与评测

Janus-Pro的训练过程极其严谨，采用了基于PyTorch的HAI-LLM框架。具体训练配置：

1.5B版本：16节点集群，7天训练周期
7B版本：32节点集群，14天训练周期
硬件配置：每节点配备8张A100（40GB）GPU

在权威基准测试中，Janus-Pro展现出卓越性能：

多模态理解能力：
- MMBench测试分数：79.2
- 显著超越：
  - Janus（69.4）
  - TokenFlow（68.9）
  - Morph（75.2）
图像生成能力：
- GenEval得分：0.80
- 优于：
  - Janus（0.61）
  - DALL-E 3（0.67）
  - Stable Diffusion 3 Medium（0.74）
指令跟踪能力：
- GenEval总体准确率：80%
- 超越竞品：
  - Transfusion（63%）
  - SD3-Medium（74%）
  - DALL-E 3（67%）
- DPG-Bench得分：84.19（领先所有对标方案）

开源与展望

目前，Janus-Pro的完整代码已在GitHub开放获取： https://github.com/deepseek-ai/Janus

业界普遍认为，DeepSeek此次在多模态领域的突破性进展，尤其是在文生图、文生视频等方向的创新，很可能引发包括OpenAI、Meta在内的科技巨头的强烈关注。

特别提示：由于近期遭受大规模网络攻击，DeepSeek目前暂时限制了非中国大陆手机号的注册。海外用户如需注册，需要使用虚拟号码。已注册用户不受影响，可继续正常使用平台服务。