Skip to content

Releases: PaddlePaddle/PaddleMIX

v2.1.0

22 Oct 12:42
6afaf05
Compare
Choose a tag to compare

更新内容

  • 发布自研多模数据能力标签模型PP-InsCapTagger;可用于数据的分析和过滤,试验案例表明在保持模型效果的条件下可减少50%的数据量,大幅提高训练效率。

  • 新增Qwen2-VLInternVL2Stable Diffusion 3 (SD3)等前沿模型。

  • 多模态大模型InternVL2、LLaVA、SD3、SDXL适配昇腾910B,提供国产计算芯片上的训推能力。

What's Changed

New Contributors

Full Changelog: https://github.com/PaddlePaddle/PaddleMIX/commits/v2.1.0

v2.0.0

29 Jul 14:54
Compare
Choose a tag to compare

多模态理解

  1. 新增模型:LLaVA: v1.5-7b, v1.5-13b, v1,6-7b,CogAgent, CogVLM, Qwen-VL, InternLM-XComposer2
  2. 数据集增强:新增chatml_dataset图文对话数据读取方案,可自定义chat_template文件适配,支持混合数据集
  3. 工具链升级:新增Auto模块,统一SFT训练流程,兼容全参数、lora训练。新增mixtoken训练策略,SFT吞吐量提升5.6倍。支持Qwen-VL,LLaVA推理部署,较torch推理性能提升2.38倍

多模态生成

  1. 视频生成能力:支持Sora相关技术,支持DiT、SiT、UViT训练推理,新增NaViT、MAGVIT-v2模型; 新增视频生成模型SVD、Open Sora,支持模型微调和推理; 新增姿态可控视频生成模型AnimateAnyone、即插即用视频生成模型AnimateDiff、GIF视频生成模型Hotshot-XL;
  2. 文生图模型库:新增高速推理文图生成模型LCM,适配SD/SDXL训练和推理;
  3. 工具链升级:发布ppdiffusers 0.24.1版本,新增peft,accelerate后端; 权重加载/保存全面升级,支持分布式、模型切片、safetensors等场景。
  4. 生态兼容:提供基于ppdiffusers开发的ComfyUI插件,支持了常见的模型加载转换、文生图、图生图、图像局部修改等任务。新增Stable Diffusion 1.5系列节点;新增Stable Diffusion XL系列节点。新增4个图像生成的workflow案例。

DataCopilot(多模态数据处理工具箱)

  1. 多模态数据集类型MMDataset,支持加载和导出Json、H5、Jsonl等多种数据存储格式,内置并发(map, filter)数据处理接口等
  2. 多模态数据格式工具,支持自定义数据结构,数据转换,离线格式检查
  3. 多模态数据分析工具,支持基本的统计信息,数据可视化功能,以及注册自定义功能