全模态能力
2026 年 3 月底,通义千问团队发布了 Qwen3.5-Omni——一个真正的全模态(Omnimodal)AI 模型。与此前按模态分离的模型不同,Qwen3.5-Omni 在一个统一架构中同时处理文本、图像和音频输入。
核心能力
- 超长音频处理:支持超过 10 小时的音频输入
- 多语言语音:支持 113 种语言的语音识别
- 多模态融合:在同一个对话中混合处理文本、图片和音频
对 OpenClaw 用户的意义
OpenClaw 已通过 Model Studio(modelstudio Provider)支持接入通义千问系列模型。Qwen3.5-Omni 的发布意味着 OpenClaw 用户可以获得更强的多模态处理能力:
- 在聊天中直接发送语音消息,AI 用文字回复
- 发送图片让 AI 分析内容
- 处理会议录音、播客等长音频内容
行业趋势
Qwen3.5-Omni 的发布是 2026 年 AI 模型从"多模态"走向"全模态"的标志性事件之一。此前 Google 的 Gemini 3.1 也主打原生多模态推理能力。全模态模型的普及将让 AI 助手更自然地处理现实世界中的混合信息。
同期值得关注的行业动态还包括:Gartner 预测到 2028 年,50% 的 GenAI 部署将具备 LLM 可观测性(当前仅 15%),反映出企业对 AI 透明度和可解释性的重视正在快速增长。