豆包使用的是字节跳动自主研发的豆包大模型1.5系列,包含通用语言处理、视觉理解、实时语音交互等多模态模型,综合性能超越GPT-4o和Claude 3.5等顶尖模型,并以高性价比推动AI技术普惠。其核心亮点包括:稀疏MoE架构实现7倍性能杠杆、千tokens输入成本低至行业1%、原生动态分辨率支持任意图像输入。
- 通用模型:豆包1.5-Pro在知识问答(MMLU_PRO)、编程(FullStackBench)、中文处理(C-Eval)等基准测试中全面领先,推理能力接近人类专家水平;Lite版本以轻量级成本实现旗舰性能,适合高并发场景。
- 视觉模型:豆包1.5-Vision-Pro通过动态分辨率技术和多模态对齐训练,可精准解析复杂图表、极端长宽比图像,图文理解能力超越GPT-4o-0806。
- 语音模型:端到端实时语音对话支持情绪表达与即时打断,延迟低于20毫秒,已全量应用于豆包APP。
- 深度思考模型:2025年新增的Agent专用模型具备“看图思考”能力,可分析航拍图、流程图等复杂视觉信息,数学推理得分追平OpenAI o3-mini-high。
当前豆包模型已形成覆盖文本、图像、语音的完整技术矩阵,日均处理tokens超12万亿。企业可通过火山引擎调用API,以0.0008元/千tokens的极低成本接入。建议开发者优先测试Pro版本以获得**性能,并关注官方更新的OS Agent解决方案。