AI大模型

天谱乐

天谱乐是全球首个多模态音乐生成大模型。它支持文生音乐、音频生音乐，还首创了图片、视频生音乐功能。用户可以通过输入文字、上传图片或视频等方式，快速生成长达3.5分钟的歌曲或音乐视频。
YuE

YuE是开源AI音乐生成模型，能够将歌词转化为完整的歌曲。它支持多种音乐风格（如流行、金属、爵士、嘻哈等）和多语言（英语、中文、日语、韩语）。YuE 通过语义增强音频分词器、双分词技术、歌词链式思维生成和三阶段训练方案，解决了长
StreamMultiDiffusion

StreamMultiDiffusion是一个革命性的实时交互式多文本到图像生成框架，它结合了基于区域的语义控制技术和加速技术，能够根据用户在特定区域输入的文本提示实时生成图像。
TangoFlux

TangoFlux是一款由新加坡科技设计大学（SUTD）和英伟达（NVIDIA）联合开发的高效文本到音频生成模型。它能够快速将文本提示词转换为高质量的音频内容，支持多种音效和背景音乐的生成。
InspireMusic

InspireMusic是由阿里巴巴通义实验室开源的音乐生成技术，旨在打造一个集音乐生成、歌曲生成和音频生成能力为一体的开源 AIGC 工具包。它基于多模态大模型技术，支持通过简单的文字描述或音频提示快速生成多种风格的高质量音乐作品。
BAAI Emu

Emu是由北京智源人工智能研究院（BAAI）开发的多模态大模型，旨在通过统一的框架处理图像、文本和视频等多种模态数据。Emu 模型的核心特点是其强大的多模态生成和理解能力，能够实现从多模态输入到多模态输出的无缝转换。
SkyReels-V2

SkyReels-V2 是由昆仑万维 SkyReels 团队开发的全球首个使用扩散强迫（Diffusion-forcing）框架的无限时长电影生成模型。它结合了多模态大语言模型（MLLM）、多阶段预训练、强化学习等前沿技术，能够生成高质量、无限时长的视频内容。
StarVector

StarVector是一个由 ServiceNow Research、Mila – Quebec AI Institute 和 ETS Montreal联合开发的开源多模态视觉语言模型，专门用于将图像和文本转换为高质量的可缩放矢量图形（SVG）代码。
CogVideo

CogVideo是由智谱 AI 联合清华大学开发的一种开源文本到视频生成模型，基于 Transformer 架构，是一个 94 亿参数的Transformer模型。它通过继承预训练的文本到图像模型 CogView2，并在此基础上进行扩展和训练。
日日新SenseNova

日日新SenseNova是商汤科技推出的一系列多模态融合大模型，旨在通过强大的多模态处理能力，实现文本、图像、视频等多种信息的原生融合，突破传统模型的限制。
Seed-TTS

Seed-TTS 是一系列高质量文本到语音（TTS）模型，旨在生成高度逼真、自然流畅的语音。该模型基于深度学习和神经网络技术，通过大规模数据训练和复杂的算法设计，能够生成与人类语音几乎无法区分的语音。
天工SkyMusic

天工SkyMusic是由昆仑万维推出的国内首个音乐SOTA（State-of-the-Art）模型，基于其“天工3.0”超级大模型构建。它采用先进的大模型音乐音频生成技术，能够实现端到端的音乐创作，包括乐器、人声、旋律等元素的一体化生成。
GPT-4o

GPT-4o是OpenAI推出的一款强大的多模态语言模型，其名称中的“o”代表“Omni”，即全能的意思，凸显了其多功能的特性。能够实时进行音频、视觉和文本推理等多模态交互，该模型可以实时响应用户对话，甚至在语音对话中能捕捉用户声音中的情
GPTs

GPTs（Generative Pre-trained Transformers）是由OpenAI开发的一系列基于生成式预训练变换器架构的人工智能模型。这些模型通过大规模的无监督学习，能够生成自然语言文本，并在多种自然语言处理任务中表现出色。
腾讯混元

腾讯混元大模型（Tencent Hunyuan）是由腾讯公司全链路自主研发的通用大语言模型，具备强大的中文理解与创作能力、逻辑推理能力以及可靠的任务执行能力。该模型拥有万亿参数规模，采用混合
Gemini 2.0 Pro

Gemini 2.0 Pro 是谷歌推出的高性能多模态 AI 模型，属于 Gemini 家族的最新成员。它在编程性能、复杂提示处理、多模态交互和深度推理能力等方面表现出色，是目前谷歌最先进的 AI 模型之一。
DALL·E 3

DALL-E 3 是由 OpenAI 推出的最新一代文本生成图像模型，能够根据用户提供的文本描述生成高质量、细节丰富的图像。它在图像生成的精准度、细节处理以及文本与图像之间的关联性方面相较于前代产品有了显著提升。
MovieGen

Movie Gen 是一套基础模型，旨在生成具有同步音频的高质量视频。这项研究的重点是扩展基于 Transformer 的模型，并使用 Flow Matching 进行训练，在文本到视频合成、视频个性化、视频编辑、视频到
Gemini

谷歌Gemini是由Google DeepMind开发的下一代生成式人工智能模型家族，具有多模态能力，能够处理文本、图像、音频和视频等多种形式的输入。
Grok

Grok 是马斯克旗下的xAI公司最新推出的多功能人工智能助手，一个与 ChatGPT 类似的聊天机器人，关键的区别之处在于 Grok 可以实时访问
MegaTTS3

MegaTTS3是由字节跳动与浙江大学联合开发的零样本语音合成系统，采用轻量级扩散模型，参数量仅为0.45亿。该系统能够高效生成高质量的语音，并支持中文、英文及中英混合语音合成。
360智脑

360智脑是由360公司开发的千亿参数规模的通用大语言模型，具备强大的自然语言处理和多模态交互能力，能够覆盖大模型应用的所有场景。
讯飞星火

讯飞星火是由科大讯飞推出的新一代认知智能大模型，具有强大的跨领域知识和语言理解能力，能够基于自然对话方式理解与执行任务。
MiniMax

MiniMax 是由国内领先的通用人工智能科技公司 MiniMax 团队开发的一系列先进的人工智能模型，专注于多模态通用大模型的研发。
Sora

Sora是一个功能强大的视频生成模型，具备高分辨率支持、多模态输入、视频编辑和互动能力。它通过扩散 Transformer 模型和时空编码块技术，实现了高效且高质量的视频生成。
谷歌Veo 2

谷歌的 Veo 2 是一款先进的人工智能视频生成模型，由 Google DeepMind 开发，旨在通过文本提示或图像生成高质量、逼真的视频。
可灵大模型

可灵大模型（Kling）是由快手AI团队自主研发的先进视频生成大模型，专注于提供高质量视频内容生成服务。它采用多种先进技术，为用户带来独特的视频创作体验。
通义千问

通义千问（英文：Qwen）是由阿里巴巴通义千问团队开发的大规模语言和多模态系列模型。它能够执行自然语言理解、文本生成、视觉理解、音频理解、工具调用、角色扮演、智能体等多种任务。
‌Agent TARS

‌Agent TARS大模型是一个开源的多模态AI智能体，能够通过视觉解析网页内容，并与命令行和文件系统无缝集成。它支持多种操作系统，包括Windows、macOS、Android、iOS及网页应用等。
实在TARS

实在智能的TARS大模型是面向垂直行业领域的自主训练的类ChatGPT大语言模型，基于垂直行业的千亿级高质量Tokens进行训练。
文心一言

百度文心一言是百度推出的知识增强大语言模型，一款生成式对话产品，被誉为“中国版ChatGPT”。文心一言（ERNIE Bot）是百度基于文心大模型技术推出的一款生成式对话产品，它位于百度人工智能四层架构的模型层，具备跨模态、跨语言的深度语
DeepSeek

DeepSeek是国内首个全面对标GPT-4技术架构的AI大模型。DeepSeek系列涵盖从7B到超千亿参数的完整模型矩阵，在数学推理、代码生成、多轮对话等核心能力上达到国际领先水平。
GPT-4

GPT-4是由OpenAI开发的大型多模态模型。GPT-4是基于Transformer架构的预训练模型，能够接受图像和文本输入，并输出文本。它在模型规模和性能上都比前代产品有了显著提升。

共 1页33条记录