商汤日日新大模型凭借多模态长思维链、全局记忆和强化学习技术突破,在推理能力和成本效率上表现卓越,其多模态推理能力国内领先,支持10分钟视频理解,并以超低推理成本满足多样化场景需求。
商汤日日新V6大模型通过多模态长思维链训练、全局记忆及强化学习技术,实现了显著的性能提升。该模型拥有超过200B高质量多模态长思维链数据,支持最长64K的思维链推理,显著优于传统单模态模型。在纯文本推理、多模态推理等核心任务中,其表现与GPT-4.5和Gemini 2.0 Pro等国际一流模型比肩,尤其在多模态任务中表现突出,如数据分析能力大幅领先GPT-4o,多模态深度推理能力国内排名第一。
在技术实现上,日日新V6采用6000亿参数的MoE原生多模态通用架构,实现了文本、图像、视频等异构数据的高效融合,首次将多种模态信息在模型架构和训练过程中深度融合,避免传统方法中“跷跷板效应”。其自研的多模态统一时序表征技术,通过视觉、听觉、语言及时间轴逻辑的对齐,支持10分钟级视频的全帧率解析,成为国内首个实现此类能力的模型,标志着视频理解技术的重大突破。
面向实际应用,日日新V6推出了轻量级全模态交互模型SenseNova V6 Omni,专攻复杂交互场景。该模型在角色扮演、翻译点读、文旅导游等场景中表现优异,尤其在数学解题中,不仅识别手写体,还能针对性地剖析错误并提供一对一指导。其视频理解功能可自动剪辑精彩内容并生成解说文案,广泛应用于影视解说、游戏录屏分析等领域,显著提升了内容创作效率。
成本与效率上,商汤联合国产芯片实现多模态推理成本与大语言模型持平,为技术普惠奠定基础。通过国产化适配和优化,商汤持续降低算力门槛,推动大模型在中小企业和边缘场景中的普及。
商汤日日新V6凭借其技术突破、多模态能力及行业场景的深度适配,已成为国内大模型领域的标杆之一,广泛适用于智能客服、教育、医疗、自动驾驶等场景,为行业智能化转型提供了高效、低成本的解决方案。未来,随着技术迭代与生态扩展,其商业价值与社会效益将进一步释放。