重温 2024 年亚马逊云科技 re:Invent 的精彩瞬间,一键查看主题演讲及创新讲座的精彩回放

 ✕

生成式 AI 赋能下的视觉分析解决方案指南

在亚马逊云科技上构建集成大语言模型的多模态视频分析应用程序

生成式 AI 赋能下的视觉分析
解决方案指南

在亚马逊云科技上构建集成大语言模型的多模态视频分析应用程序

概览

概览

该指南展示了如何通过部署包括大语言模型(LLM)在内的接口节点,在亚马逊云科技上构建多模态视频分析应用程序。您可以结合多种服务来从 IP 摄像头接收视频流或上传视频和图像。在前端,您可以自由编辑提示来分析视频或图像。完成分析后,您可以有一个后处理组件,利用 LLM Agent 输入自然语言进行自定义操作,例如发送短信或向边缘设备发送通知。此外,您还可以存储视频分析结果,并使用 LLM 回答有关视频内容的问题。
生成式 AI 赋能下的视觉分析能够对视频内容进行深入分析和理解。可识别视频中的对象、场景和活动、并分析行为进行近实时的通知告警。此外,方案能够自动生成视频摘要,提供关键词标签,甚至识别情感和意图,极大地提高了视频搜索和分类的效率。

该指南展示了如何通过部署包括大语言模型(LLM)在内的接口节点,在亚马逊云科技上构建多模态视频分析应用程序。您可以结合多种服务来从 IP 摄像头接收视频流或上传视频和图像。在前端,您可以自由编辑提示来分析视频或图像。完成分析后,您可以有一个后处理组件,利用 LLM Agent 输入自然语言进行自定义操作,例如发送短信或向边缘设备发送通知。此外,您还可以存储视频分析结果,并使用 LLM 回答有关视频内容的问题。
生成式 AI 赋能下的视觉分析能够对视频内容进行深入分析和理解。可识别视频中的对象、场景和活动、并分析行为进行近实时的通知告警。此外,方案能够自动生成视频摘要,提供关键词标签,甚至识别情感和意图,极大地提高了视频搜索和分类的效率。



应用场景

应用场景

01
安防类智能摄像头厂商

可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警

01
安防类智能摄像头厂商

可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警

02
看护类智能摄像头厂商

婴儿、老人看护与危险分析。鸟类,野生动物活动总结与 Vlog 生成

02
看护类智能摄像头厂商

婴儿、老人看护与危险分析;鸟类、野生动物活动总结与 Vlog 生成

03
智能家居厂商

说明书图像问答、设备故障图像判定、智能家居场景分析

03
智能家居厂商

说明书图像问答、设备故障图像判定、智能家居场景分析

面临的挑战

面临的挑战

视频分析与理解

传统计算机视觉与机器学习模型往往只能识别图像中物体种类,无法对视频与图片内容进行分析与理解。

警报与消息推送

视频分析的结果需要实时或定时进行警报触发判定,条件达成则需要进行警报推送;触发警报的条件应最终用户来说各不相同,实际场景难以满足用户个性化需求。

视频内容总结与问答

用户可以对视频内容进行总结,以每日文字报告的或者Vlog(video blog)的形式。也可以基于视频内容,通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。

开发与成本

触发警报后消息后处理的业务流有多种形式,需要大量的研发资源投入到工作流开发中;同时客户需要定义如何触发视频事件,将有效的视频片段进行推送,平衡大模型推理成本与视频分析效果。

优势

优势

全面的视频内容分析与理解能力

通过大语言模型对视频和图像内容进行深入分析,不仅识别物体种类,还可以理解视频中的事件、动作和异常情况。

智能的警报与消息推送机制

支持根据用户设定的个性化规则,实时或定时分析视频内容,自动触发警报并推送相关信息,大幅提高安全监控和看护的效率。

视频内容问答功能

用户可以基于视频内容通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。

控制成本

通过智能分析和推送机制,有效利用视频资源。

架构图及说明

第 1 步

用户在网站上获取数据、编辑提示词、执行分析、设置后处理操作以及进行视频内容问答,该网站托管在 Amazon Amplify 上。

第 2 步

网站将请求传递给 Amazon API Gateway,并从 API Gateway 接收响应。

第 3 步

API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video StreamsAmazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 Amazon IoT Greengrass 管理边缘端的机器学习模型。

第 4 步

API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于 Amazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。

第 5 步

如果用户通过输入自然语言设置了消息后处理操作,大语言模型 智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。

第 6 步

用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。

第 7 步

用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。

架构图及说明

第 1 步

用户在网站上获取数据、编辑提示词、执行分析、设置后处理操作以及进行视频内容问答,该网站托管在 Amazon Amplify 上。

第 2 步

网站将请求传递给 Amazon API Gateway,并从 API Gateway 接收响应。

第 3 步

API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video Streams 或 Amazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 Amazon IoT Greengrass 管理边缘端的机器学习模型。

第 4 步

API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于 Amazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。

第 5 步

如果用户通过输入自然语言设置了消息后处理操作,大语言模型 智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。

第 6 步

用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。

第 7 步

用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域