2024年1月28日
DeepSeek发布突破性开源多模态模型
最后修改时间:2018年10月20日
Janus-Pro:引领AI多模态技术革新
人工智能领域迎来重大突破!2024年1月28日,DeepSeek在Hugging Face平台震撼发布全新开源多模态AI模型Janus-Pro。这款创新模型提供1B和7B两种参数规模版本,其中Janus-Pro-7B在多项权威基准测试中展现出卓越性能,成功超越了包括OpenAI的DALL-E 3和Stable Diffusion在内的主流模型。
作为一款集图像理解与生成于一体的先进系统,Janus-Pro采用了基于SigLIP-L的图像理解技术,并借鉴LlamaGen实现高质量图像生成。值得注意的是,即便是OpenAI的GPT-4,目前也尚未开放其图像生成功能。
技术演进之路
DeepSeek在多模态AI领域持续深耕,展现出强劲的技术创新实力:
2024年初,团队首次推出Janus基础版本,这是一款突破性的开源多模态模型(MLLM)。其创新之处在于实现了视觉编码解耦,为多模态理解和生成开辟了新途径。该版本基于DeepSeek-LLM-1.3b-base构建,在约500B文本标记的海量语料上完成训练。在图像处理方面,模型采用SigLIP-L作为视觉编码器,支持384x384分辨率的图像输入,并使用16倍下采样率进行图像生成。
2024年11月,DeepSeek发布了JanusFlow,这是一个革命性的统一图像生成框架。它的独特之处在于采用极简设计理念,巧妙地将自回归语言模型与先进的生成模型方法相结合。研究表明,该框架能够在现有大型语言模型架构中直接训练,无需复杂的结构改造。
Janus-Pro:技术突破与创新
2025年伊始,Janus系列迎来重大升级——Janus-Pro正式发布。这一版本在架构设计上继承了原有的优势,同时引入多项创新:
核心技术特点:
- 创新的自回归框架设计
- 视觉编码路径解耦技术
- 统一的转换器架构
- 灵活的多模态处理能力
技术实现细节:
- 视觉编码解析作为核心设计原则
- 采用独立编码方法处理原始输入
- 统一自回归Transformer架构
- 创新的特征处理流程:
- 使用siglip编码器提取图像语义特征
- 2D到1D的特征转换
- 智能特征映射与适配
- VQ令牌技术的应用
- 多模态特征序列的融合处理
性能与评测
Janus-Pro的训练过程极其严谨,采用了基于PyTorch的HAI-LLM框架。具体训练配置:
- 1.5B版本:16节点集群,7天训练周期
- 7B版本:32节点集群,14天训练周期
- 硬件配置:每节点配备8张A100(40GB)GPU
在权威基准测试中,Janus-Pro展现出卓越性能:
-
多模态理解能力:
- MMBench测试分数:79.2
- 显著超越:
- Janus(69.4)
- TokenFlow(68.9)
- Morph(75.2)
-
图像生成能力:
- GenEval得分:0.80
- 优于:
- Janus(0.61)
- DALL-E 3(0.67)
- Stable Diffusion 3 Medium(0.74)
-
指令跟踪能力:
- GenEval总体准确率:80%
- 超越竞品:
- Transfusion(63%)
- SD3-Medium(74%)
- DALL-E 3(67%)
- DPG-Bench得分:84.19(领先所有对标方案)
开源与展望
目前,Janus-Pro的完整代码已在GitHub开放获取: https://github.com/deepseek-ai/Janus
业界普遍认为,DeepSeek此次在多模态领域的突破性进展,尤其是在文生图、文生视频等方向的创新,很可能引发包括OpenAI、Meta在内的科技巨头的强烈关注。
特别提示:由于近期遭受大规模网络攻击,DeepSeek目前暂时限制了非中国大陆手机号的注册。海外用户如需注册,需要使用虚拟号码。已注册用户不受影响,可继续正常使用平台服务。