京东即将开源视觉语言实时交互模型
京东团队即将开源视觉语言实时交互模型 JoyAI-VL-Interaction。记者从一份在开源社区和海外 AI 技术圈受到关注的技术报告获悉,JoyAI-VL-Interaction 把多模态大模型从"一问一答",推进到"实时流式交互",适合需要 AI 持续在场的场景。报告将 JoyAI-VL-Interaction 与豆包、Gemini 的 App 内视频通话助手进行了人工评测,覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。在 58 个案例中,JoyAI-VL-Interaction 对豆包的总体胜率为 77.6%,对 Gemini 的总体胜率为 87.9%。其中,在监控预警场景中,对两个基线均取得 100%胜率。
京东团队即将开源视觉语言实时交互模型 JoyAI-VL-Interaction。记者从一份在开源社区和海外 AI 技术圈受到关注的技术报告获悉,JoyAI-VL-Interaction 把多模态大模型从"一问一答",推进到"实时流式交互",适合需要 AI 持续在场的场景。报告将 JoyAI-VL-Interaction 与豆包、Gemini 的 App 内视频通话助手进行了人工评测,覆盖监控预警、实时计数、实时翻译、时间感知、直播解说和引导、长程记忆六类场景。在 58 个案例中,JoyAI-VL-Interaction 对豆包的总体胜率为 77.6%,对 Gemini 的总体胜率为 87.9%。其中,在监控预警场景中,对两个基线均取得 100%胜率。