开源

音频大模型-中国

Step-Audio是由阶跃星辰团队开发的首个产品级开源语音交互模型

Step-Audio是由阶跃星辰团队开发的首个产品级开源语音交互模型。主要特点...

视频大模型-中国

Step-Video-T2V 是阶跃星辰开源视频生成模型，具有 300 亿个参数，能够生成最长达 204 帧的视频

Step-Video-T2V 是阶跃星辰开源视频生成模型，具有 300 亿个参数...

音频大模型-全球

Zonos是一个开源的文本到语音（TTS）模型，提供高质量、自然的语音生成，支持多种语言，并具备即时语音克隆的能力

Zonos是一个开源的文本到语音（TTS）模型，提供高质量、自然的语音生成，支持...

语言大模型-全球

Mistral Small 3是由法国初创公司Mistral AI推出的一款新型开源语言模型，具有240亿个参数

Mistral Small 3是由法国初创公司Mistral AI推出的一款新型...

多模态模型-中国

Janus-Pro是DeepSeek团队最近发布的一款多模态AI模型，旨在实现统一的多模态理解与生成

Janus-Pro是DeepSeek团队最近发布的一款多模态AI模型，旨在实现统...

视觉模型-中国

Qwen2.5-VL是阿里通义千问团队推出的最新旗舰视觉语言模型，具有显著的技术进步和多种应用能力

Qwen2.5-VL是阿里通义千问团队推出的最新旗舰视觉语言模型，具有显著的技术...

语言大模型-中国

Qwen2.5-1M是阿里云通义千问团队于2025年1月发布的一款开源大型语言模型，旨在处理长达100万Tokens的上下文

Qwen2.5-1M是阿里云通义千问团队于2025年1月发布的一款开源大型语言模...

多模态模型-中国视觉模型-中国

MiniMax-01系列是Hailuo AI推出的一系列开源大型语言模型和视觉多模态模型

MiniMax-01系列是Hailuo AI推出的一系列开源大型语言模型和视觉多...

多模态模型-中国

MiniCPM-o是一个最新的端侧多模态大模型系列，旨在处理图像、视频、文本和音频等多种输入，并生成高质量的文本和语音输出

MiniCPM-o是一个最新的端侧多模态大模型系列，旨在处理图像、视频、文本和音...

视觉模型-全球

Moondream是一款创新的开源视觉语言模型，旨在提供高效的图像处理和理解能力

Moondream是一款创新的开源视觉语言模型，旨在提供高效的图像处理和理解能力...

视觉模型-中国

QVQ-72B-Preview是由Qwen团队开发的一款实验性研究模型，旨在增强视觉推理能力

QVQ-72B-Preview是由Qwen团队开发的一款实验性研究模型，旨在增强...

语言大模型-全球

Falcon 3是由阿联酋科技创新研究院（TII）推出的一款先进的人工智能模型，旨在实现高效能人工智能的普及化

Falcon 3是由阿联酋科技创新研究院（TII）推出的一款先进的人工智能模型，...