Qwen2.5
中国
AI大模型通用大模型

Qwen2.5

Qwen2.5超大语言模型,强大的自然语言处理和多模态

标签:

Qwen2.5是由阿里云通义团队推出的一系列先进的人工智能模型,具有多种功能和版本,以下是其主要介绍:

模型版本
Qwen2.5语言模型:提供多种规模的版本,包括0.5B、1.5B、3B、7B、14B、32B、72B等参数规模的模型。这些模型在大规模数据集上进行了预训练,数据集包含多达18T tokens。它们支持高达128K tokens,并能生成最多8K tokens的内容。
Qwen2.5-Coder:专注于编程能力,有1.5B、7B等版本,即将推出32B。该模型在包含5.5T tokens的编程相关数据上进行了训练,使较小的编程专用模型也能在编程评估基准测试中表现出色。
Qwen2.5-Math:专注于数学能力,有1.5B、7B、72B等版本。支持中文和英文,并整合了多种推理方法,包括CoT(Chain of Thought)、PoT(Program of Thought)和TIR(Tool-Integrated Reasoning)。
Qwen2.5-VL:是视觉语言模型,有3B、7B和72B等版本。在视觉理解、多模态交互以及自动化任务执行等方面表现出色,能够识别常见物体、分析图像中的文本和图表、理解长视频等。
Qwen2.5-Max:是旗舰版AI模型,基于全新的MoE(Mixture of Experts)模型结构,预训练数据量突破20万亿tokens。

功能特点
多语言支持:Qwen2.5语言模型支持包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等29种以上语言。
指令执行与角色扮演:对各种system prompt更具适应性,增强了角色扮演实现和聊天机器人的条件设置功能。
长文本生成与结构化数据理解:在生成长文本(超过8K标记)、理解结构化数据(例如表格)以及生成结构化输出特别是JSON方面取得了显著改进。
多模态交互:Qwen2.5-VL能够处理图像、文本和视频等多种模态的数据。例如,它可以理解1小时以上的视频,通过精确定位相关视频片段来捕捉事件。此外,它还能通过生成边框或点来精确定位图像中的对象,并为坐标和属性提供稳定的JSON输出。
文档解析:Qwen2.5-VL设计了一种名为QwenVL HTML的独特文档解析格式,可提取基于HTML的布局信息,适用于杂志、研究论文、网页甚至手机截图等多种场景。
智能代理能力:Qwen2.5-VL可以直接作为视觉Agent进行操作,推理并动态使用工具,支持在计算机和手机上完成多步骤的复杂任务,如自动查询天气、预订机票、发送消息等。

相关导航