模型库 - MaxModel

模型库

模型库收录了来自全球最优秀的开源模型，涵盖了文本对话、图像处理、计算机视觉、
语音识别、视频等多个领域

分类不限

自然语言计算机视觉音频与语音推荐系统时间序列多模态

开源协议不限

Apache-2.0MITCCOpenrailGpl-3.0Bsd-3-clause

框架不限

TransformersPyTorchSafetensorsTensorBoard其它

语言不限

英文中文其它

已选条件

17 个模型符合条件

OmniGen-2

PyTorch多模态英文Apache-2.0中文

革命性的"全能型"生图引擎：无需复杂插件，一句话搞定所有视觉任务。

智源研究院

Hunyuan3D-2-mini

多模态其它其它中文

腾讯出品：高精度文/图生 3D 模型，支持工业级网格拓扑。

腾讯

Framepack

多模态计算机视觉MIT其它英文中文

专业级 AI 视频帧处理工具，打造丝滑连贯的 AI 视频创作流。

Lvmin Zhang

FireRedTTS-2

PyTorchMIT音频与语音英文中文

小红书开源：基于大模型的超自然语音合成，复现网红级配音质感。

小红书

DeepSeek OCR

PyTorch计算机视觉英文TransformersApache-2.0中文

下一代 AI 视觉引擎，支持超高精度文字识别与深度文档理解。

DeepSeek

Fish-Speech

PyTorch音频与语音英文Apache-2.0中文

基于大模型范式的革命性语音合成，实现电影级音色克隆。

Fish Audio

UniPic-2

PyTorch多模态英文Apache-2.0中文

一站式 AI 图像生成与智能编辑，像对话一样自由创作与修图。

昆仑万维

SenseVoiceSmall

PyTorch音频与语音英文Apache-2.0中文

阿里通义出品：全能语音识别，支持 50+ 语言及情感标签识别。

阿里

Qwen3-32b (vLLM)

英文TransformersApache-2.0自然语言中文

Qwen3 是 Qwen 系列中的最新一代大型语言模型，提供了一系列密集型和混合专家（MoE）模型。基于在训练数据、模型架构和优化技术方面的广泛进步，基于 vLLM 实现毫秒级极速响应。

阿里

GPT-SoVITS

PyTorchMIT音频与语音英文中文

强大的少样本语音克隆工具，完美复刻音色、情感与语调。

RVC

FaceFusion 热门

PyTorch计算机视觉MIT英文

下一代专业级 AI 换脸与人像高清增强工具。

开源-众创

vllm-qwen3-8b 热门

英文TransformersApache-2.0自然语言Safetensors中文

阿里通义千问 Qwen3 轻量版，基于 vLLM 实现毫秒级极速响应。

阿里

vllm-qwen3-0.6b 热门

英文TransformersApache-2.0自然语言Safetensors中文

阿里通义千问 Qwen3 轻量版，基于 vLLM 实现毫秒级极速响应

阿里

Index-TTS 2 热门

PyTorchMIT音频与语音英文中文

哔哩哔哩出品：拥有超强方言演绎力与情感张力的大模型语音合成。

Bilibili

CosyVoice2

PyTorch音频与语音英文TransformersApache-2.0中文

阿里通义出品：支持毫秒级响应与超真实情感的情感语音合成。

阿里

Wan-2.2 热门

计算机视觉其它英文其它中文

阿里万相出品：新一代视频生成大模型，打造好莱坞级动态视觉大片。

阿里

DreamO 热门

PyTorch计算机视觉英文Apache-2.0

字节跳动出品：支持人物 ID 保持、虚拟试穿与多条件图像定制的全能框架。

字节跳动