北京市西城区文兴东街2号
深圳云开·全站apply体育官方平台,kaiyun登录入口登录APP下载,kaiyun体育平台安全技术股份有限公司
成都市云开·全站apply体育官方平台,kaiyun登录入口登录APP下载,kaiyun体育平台安全实业有限公司
苹果引领AI新潮流:StreamBridge端侧视频大语言模型框架,让视频实时AI响应
随着科技的飞速发展,人工智能(AI)在各个领域的应用日益广泛。近日,科技媒体marktechpost的一篇博文引起了我们的关注。据报道,苹果公司与复旦大学联手,推出了一种名为StreamBridge的端侧视频大语言模型(Video-LLMs)框架,该框架将助力AI理解直播流视频,引领AI新潮流。
首先,我们来探讨一下直播流视频理解的挑战与需求开yun体育官网入口登录APP下载。传统视频大语言模型擅长处理静态视频,但在实时感知的场景下,如机器人技术、自动驾驶等,要求模型能快速理解直播视频流内容,并做出反应。现有的模型在处理多轮实时理解和主动响应方面存在两大难题。
为了解决这些问题,苹果与复旦的研究者们开发了StreamBridge框架。该框架通过引入内存缓冲区和轮次衰减压缩策略,支持长上下文交互。这一创新不仅提升了模型的交互性能,还使其在处理最新视频片段时保留了历史视觉和对话上下文。
此外,该框架还引入了一个轻量化的独立激活模型,无缝集成现有视频大语言模型,实现了主动响应功能。这一创新不仅提升了模型的性能,还使其在无明确指令的情况下及时输出反馈。
为了进一步提升流式视频理解能力,研究团队还推出了Stream-IT数据集。该数据集包含约60万个样本,融合了视频与文本序列,支持多样化的指令格式。这一创新为研究者们提供了丰富的资源,有助于提升流式视频理解能力。
为了验证StreamBridge框架的效果,我们在主流离线模型如LLaVA-OV-7B、Qwen2-VL-7B和Oryx-1.5-7B上进行测试开云真人APP网站。结果显示,Qwen2-VL在OVO-Bench和Streaming-Bench上的平均分分别提升至71.30和77.04,超越了GPT-4o和Gemini 1.5 Pro等专有模型。这一成果证明了StreamBridge在流式视频理解领域的强大潜力。开云真人APP网站
Oryx-1.5也取得了显著进步,而LLaVA-OV性能略有下降。然而,通过对Stream-IT数据集的微调,所有模型的表现均得到了提升。这进一步证明了StreamBridge在实时视频理解领域的优势。
总的来说,StreamBridge端侧视频大语言模型框架的推出,将为AI领域带来新的突破。它将助力AI理解直播流视频,使机器人技术、自动驾驶等实时感知场景的性能得到显著提升。作为引领AI新潮流的成果,StreamBridge将为未来带来更多可能性,让我们拭目以待!
以上便是关于StreamBridge端侧视频大语言模型框架的详细介绍。苹果公司与复旦大学的研究者们通过这一创新成果,再次证明了他们在AI领域的领先地位。随着StreamBridge的广泛应用,我们期待看到更多令人兴奋的科技成果涌现。开yun体育官网入口登录APP下载