模型

音频大模型-全球

Octave TTS 是由 Hume AI 开发的一种新型文本到语音（TTS）模型，旨在生成具有情感和个性化的 AI 语音

Octave TTS 是由 Hume AI 开发的一种新型文本到语音（TTS）模...

视频大模型-中国

Wan2.1是阿里云最近发布的开源视频生成模型，具有显著的性能优势，能够在个人电脑上运行，支持多种视频生成任务

Wan2.1是阿里云最近发布的开源视频生成模型，具有显著的性能优势，能够在个人电...

语言大模型-中国

QWQ-MAX-PREVIEW是阿里巴巴最近推出的一款基于Qwen2.5-Max的深度推理模型，提升复杂推理任务的能力，包括数学问题解决和高效编码

QWQ-MAX-PREVIEW是阿里巴巴最近推出的一款基于Qwen2.5-Max...

语言大模型-全球

Claude 3.7 Sonnet是Anthropic推出的最新混合推理模型，结合了快速响应和深入思考的能力

Claude 3.7 Sonnet是Anthropic推出的最新混合推理模型，结...

视频大模型-中国

Hailuo I2V-01-Director模型是一款先进的AI视频生成工具，旨在提升用户在视频创作中的控制能力和艺术表现

Hailuo I2V-01-Director模型是一款先进的AI视频生成工具，旨...

视觉模型-全球

PaliGemma 2 Mix是Google最近推出的一款多任务视觉-语言模型（VLM），旨在支持多种视觉和语言任务

PaliGemma 2 Mix是Google最近推出的一款多任务视觉-语言模型（...

语言大模型-全球

Grok 3是由xAI公司于2025年2月18日正式发布的最新一代人工智能模型

Grok 3是由xAI公司于2025年2月18日正式发布的最新一代人工智能模型....

音频大模型-中国

Step-Audio是由阶跃星辰团队开发的首个产品级开源语音交互模型

Step-Audio是由阶跃星辰团队开发的首个产品级开源语音交互模型。主要特点...

视频大模型-中国

Step-Video-T2V 是阶跃星辰开源视频生成模型，具有 300 亿个参数，能够生成最长达 204 帧的视频

Step-Video-T2V 是阶跃星辰开源视频生成模型，具有 300 亿个参数...

音频大模型-全球

Zonos是一个开源的文本到语音（TTS）模型，提供高质量、自然的语音生成，支持多种语言，并具备即时语音克隆的能力

Zonos是一个开源的文本到语音（TTS）模型，提供高质量、自然的语音生成，支持...

语言大模型-全球

Mistral Small 3是由法国初创公司Mistral AI推出的一款新型开源语言模型，具有240亿个参数

Mistral Small 3是由法国初创公司Mistral AI推出的一款新型...

多模态模型-中国

Janus-Pro是DeepSeek团队最近发布的一款多模态AI模型，旨在实现统一的多模态理解与生成

Janus-Pro是DeepSeek团队最近发布的一款多模态AI模型，旨在实现统...