概览
概览
该指南展示了如何通过部署包括大语言模型(LLM)在内的接口节点,在亚马逊云科技上构建多模态视频分析应用程序。您可以结合多种服务来从 IP 摄像头接收视频流或上传视频和图像。在前端,您可以自由编辑提示来分析视频或图像。完成分析后,您可以有一个后处理组件,利用 LLM Agent 输入自然语言进行自定义操作,例如发送短信或向边缘设备发送通知。此外,您还可以存储视频分析结果,并使用 LLM 回答有关视频内容的问题。
生成式 AI 赋能下的视觉分析能够对视频内容进行深入分析和理解。可识别视频中的对象、场景和活动、并分析行为进行近实时的通知告警。此外,方案能够自动生成视频摘要,提供关键词标签,甚至识别情感和意图,极大地提高了视频搜索和分类的效率。
该指南展示了如何通过部署包括大语言模型(LLM)在内的接口节点,在亚马逊云科技上构建多模态视频分析应用程序。您可以结合多种服务来从 IP 摄像头接收视频流或上传视频和图像。在前端,您可以自由编辑提示来分析视频或图像。完成分析后,您可以有一个后处理组件,利用 LLM Agent 输入自然语言进行自定义操作,例如发送短信或向边缘设备发送通知。此外,您还可以存储视频分析结果,并使用 LLM 回答有关视频内容的问题。
生成式 AI 赋能下的视觉分析能够对视频内容进行深入分析和理解。可识别视频中的对象、场景和活动、并分析行为进行近实时的通知告警。此外,方案能够自动生成视频摘要,提供关键词标签,甚至识别情感和意图,极大地提高了视频搜索和分类的效率。
应用场景
应用场景
可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警
可疑人员、陌生车辆、包裹丢失等安全事件分析、判定与报警
婴儿、老人看护与危险分析。鸟类,野生动物活动总结与 Vlog 生成
婴儿、老人看护与危险分析;鸟类、野生动物活动总结与 Vlog 生成
说明书图像问答、设备故障图像判定、智能家居场景分析
说明书图像问答、设备故障图像判定、智能家居场景分析
面临的挑战
面临的挑战
传统计算机视觉与机器学习模型往往只能识别图像中物体种类,无法对视频与图片内容进行分析与理解。
视频分析的结果需要实时或定时进行警报触发判定,条件达成则需要进行警报推送;触发警报的条件应最终用户来说各不相同,实际场景难以满足用户个性化需求。
用户可以对视频内容进行总结,以每日文字报告的或者Vlog(video blog)的形式。也可以基于视频内容,通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。
触发警报后消息后处理的业务流有多种形式,需要大量的研发资源投入到工作流开发中;同时客户需要定义如何触发视频事件,将有效的视频片段进行推送,平衡大模型推理成本与视频分析效果。
优势
优势
通过大语言模型对视频和图像内容进行深入分析,不仅识别物体种类,还可以理解视频中的事件、动作和异常情况。
支持根据用户设定的个性化规则,实时或定时分析视频内容,自动触发警报并推送相关信息,大幅提高安全监控和看护的效率。
用户可以基于视频内容通过自然语言进行问答,获取所需的信息,增强视频数据的利用价值。
通过智能分析和推送机制,有效利用视频资源。
架构图及说明
用户在网站上获取数据、编辑提示词、执行分析、设置后处理操作以及进行视频内容问答,该网站托管在 Amazon Amplify 上。
API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video Streams 或 Amazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 Amazon IoT Greengrass 管理边缘端的机器学习模型。
API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于 Amazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。
如果用户通过输入自然语言设置了消息后处理操作,大语言模型 智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。
用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。
用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。
架构图及说明
用户在网站上获取数据、编辑提示词、执行分析、设置后处理操作以及进行视频内容问答,该网站托管在 Amazon Amplify 上。
网站将请求传递给 Amazon API Gateway,并从 API Gateway 接收响应。
API Gateway 将请求导向视频流和上传组件,该组件通过 Amazon Kinesis Video Streams 或 Amazon IoT Core 集成来自 IP 摄像头的视频数据,并通过 Amazon IoT Greengrass 管理边缘端的机器学习模型。
API Gateway 将包含视频帧和提示的分析请求转发给视觉分析组件。该组件配备了 Amazon Lambda 函数和基于 Amazon Sagemaker 的模型库,可处理请求并将语言模型的结果返回给 API Gateway。
如果用户通过输入自然语言设置了消息后处理操作,大语言模型 智能体 (LLM Agent) 将通过多个 Amazon Lambda 函数工具执行该操作,如:向移动客户端发送短信或向边缘设备发送通知。
用户可以将视频存储在 Amazon Simple Storage Service (Amazon S3) 上,并在 Amazon DynamoDB 上存储调整过的提示词模板。
用户可以选择通过 Amazon Lambda 函数将视频分析的中间结果保存到 Amazon OpenSearch。然后,他们可以在网站上利用 LLM 根据视频内容进行问答会话。