重温 2024 年亚马逊云科技 re:Invent 的精彩瞬间,一键查看主题演讲及创新讲座的精彩回放

 ✕
ME&AD

文生动图解决方案指南

借助生成式 AI 将长篇文本内容自动转换为动图或视频,为用户提供更加沉浸式的内容体验。

制造行业

文生动图解决方案指南

借助生成式 AI 将长篇文本内容自动转换为动图或视频,为用户提供更加沉浸式的内容体验。

概览

概览

通过大语言模型对小说,剧本,书籍等长文本的深入理解,于此同时,可以与不同的文生图,文生视频,文生音频的工作流和模型相结合,按照预设模版,高效的生成系列图片或者视频。该技术资产有如下模块组成:基于大语言模型构建的 Scene Director 模块,将小说、书籍等长篇文本内容快速转换为分镜场景、人物角色、动作、台词、旁白等;通过 image/animation generater 模块将分镜场景、人物、动作等,转换为图片或动图,并在转换过程中,保持角色、情节、视觉风格的一致性,确保视频内容的完整性和吸引力;通过 Video Synthesis 模块讲图像、视频、旁白音频、台词音频,并加入适当的背景音乐和特效,合成为完整视频。同时支持不同工作流和模型的引入,制作自定义风格模版。通过自动化的转换流程,可以大幅节省人力和时间成本,同时还能为用户带来更加沉浸式的内容体验。帮助数字阅读行业的媒体公司在不断变化的社交媒体格局中保持创新和竞争力,满足用户对更加交互式、个性化内容的需求。

通过大语言模型对小说,剧本,书籍等长文本的深入理解,于此同时,可以与不同的文生图,文生视频,文生音频的工作流和模型相结合,按照预设模版,高效的生成系列图片或者视频。该技术资产有如下模块组成:基于大语言模型构建的 Scene Director 模块,将小说、书籍等长篇文本内容快速转换为分镜场景、人物角色、动作、台词、旁白等;通过 image/animation generater 模块将分镜场景、人物、动作等,转换为图片或动图,并在转换过程中,保持角色、情节、视觉风格的一致性,确保视频内容的完整性和吸引力;通过 Video Synthesis 模块讲图像、视频、旁白音频、台词音频,并加入适当的背景音乐和特效,合成为完整视频。同时支持不同工作流和模型的引入,制作自定义风格模版。通过自动化的转换流程,可以大幅节省人力和时间成本,同时还能为用户带来更加沉浸式的内容体验。帮助数字阅读行业的媒体公司在不断变化的社交媒体格局中保持创新和竞争力,满足用户对更加交互式、个性化内容的需求。

优势

优势

创新内容体验

利用 LLM,为用户提供更加创新、个性化的内容体验,满足不同用户的需求。

客户自定义风格和效果

可以灵活的接入不同视频生成和图片生成模型,以及自定义工作流,可以支持任意多的风格和效果。

确保内容完整性和吸引力

保持角色、情节、视觉风格的一致性,确保视频内容的完整性和吸引力。

大幅节省时间和人力成本

利用自动化转换流程,可以大幅节省人力和时间成本,提高内容制作效率。

应用场景

应用场景

面向数字阅读行业的媒体公司,帮助他们将小说、书籍等长篇文本内容转换为视频格式,满足用户对更加沉浸式、交互式内容的需求。

面向社交媒体和短视频机构,帮助快速由文案,剧本生成创意短视频,满足用户对于内容数量和创新性的要求。

面向影视媒体和娱乐公司,帮助快速从剧本生成分镜,辅助进行剧本设计,拍摄布置,场景搭建。快速生成面向观众的海报,插图等。



核心功能

核心功能

01
内容输入与场景转换

支持长文本输入、风格模板选择和自定义最大场景数,可根据设置将输入文本转换为各场景的 JSON 格式脚本。

01
内容输入与场景转换

支持长文本输入、风格模板选择和自定义最大场景数,可根据设置将输入文本转换为各场景的 JSON 格式脚本。

02
图像和视频生成

基于提示词生成角色与风格一致的图像或视频片段,以及相应的字幕、语音解说,并能够将所有内容融合成带有背景音乐和过渡效果的最终视频。

02
图像和视频生成

基于提示词生成角色与风格一致的图像或视频片段,以及相应的字幕、语音解说,并能够将所有内容融合成带有背景音乐和过渡效果的最终视频。

03
系统配置

管理员可以编辑基本的大语言模型 ( LLM ) 提示词来提取角色动作,自定义图像素材生成的工作流,添加新基础模型,并创建新风格模板。

03
系统配置

管理员可以编辑基本的大语言模型 ( LLM ) 提示词来提取角色动作,自定义图像素材生成的工作流,添加新基础模型,并创建新风格模板。

04
部署与 API

通过轻量版的 CDK 脚本实现快速部署,并支持在中国区部署和配置图像生成推理端点,为开发人员提供 RESTful API,用于系统集成。

04
部署与 API

通过轻量版的 CDK 脚本实现快速部署,并支持在中国区部署和配置图像生成推理端点,为开发人员提供 RESTful API,用于系统集成。

架构图及说明

第 1 步

客户通过前端界面与系统交互,前端由 Amazon Simple Storage Service ( Amazon S3 )和 Amazon CloudFront 提供支持。

第 2 步

客户通过 Amazon API Gateway 调用 API,请求将长篇文本(如小说、故事、剧本)转换为视频。

第 3 步

Amazon API Gateway 触发 Amazon Lambda 作为任务管理器,启动长篇文本到视频的转换过程。

第 4 步

Amazon Step Functions 调用托管在 Amazon SageMaker 上的大语言模型作为场景生成器,将小说、故事、剧本转换为结构化数据,包括角色、场景和提示等关键元素。

第 5 步

Amazon Step Functions 调用由亚马逊云科技解决方案 Extension for Stable Diffusion on Amazon Web Services 的模块作为图像生成器,将提示转换为一系列图像和动画图像,然后 Amazon Step Functions 将这些图像转换为视频片段,并按正确的顺序组合。

第 6 步

Amazon Step Functions 调用 Amazon Polly 作为音频生成器,将小说、故事、剧本转换为音频片段,并将音频片段和视频片段合并为最终视频,并将视频、音频片段和视频片段存储在 Amazon S3 中。

第 7 步

过程中的数据都存储在 Amazon DynamoDB 中,作为历史记录。

* 您应当依法使用服务和本解决方案并遵循相应的合规要求(包括进行算法备案、使用经过备案的大语言模型等等,如适用)

架构图及说明

第 1 步

客户通过前端界面与系统交互,前端由 Amazon Simple Storage Service ( Amazon S3 )和 Amazon CloudFront 提供支持。

第 2 步

客户通过 Amazon API Gateway 调用 API,请求将长篇文本(如小说、故事、剧本)转换为视频。

第 3 步

Amazon API Gateway 触发 Amazon Lambda 作为任务管理器,启动长篇文本到视频的转换过程。

第 4 步

Amazon Step Functions 调用托管在 Amazon SageMaker 上的大语言模型作为场景生成器,将小说、故事、剧本转换为结构化数据,包括角色、场景和提示等关键元素。

第 5 步

Amazon Step Functions 调用由亚马逊云科技解决方案 Extension for Stable Diffusion on Amazon Web Services 的模块作为图像生成器,将提示转换为一系列图像和动画图像,然后 Amazon Step Functions 将这些图像转换为视频片段,并按正确的顺序组合。

第 6 步

Amazon Step Functions 调用 Amazon Polly 作为音频生成器,将小说、故事、剧本转换为音频片段,并将音频片段和视频片段合并为最终视频,并将视频、音频片段和视频片段存储在 Amazon S3 中。

第 7 步

过程中的数据都存储在 Amazon DynamoDB 中,作为历史记录。

* 您应当依法使用服务和本解决方案并遵循相应的合规要求(包括进行算法备案、使用经过备案的大语言模型等等,如适用)

探索更多

探索所有亚马逊云科技解决方案
探索所有亚马逊云科技解决方案

浏览我们针对常见架构问题使用亚马逊云科技构建的解决方案组合。

查找合作伙伴
查找合作伙伴

查找亚马逊云科技认证的咨询和技术合作伙伴,以帮助您入门。

开始在控制台中构建
开始在控制台中构建

注册并开始探索我们的服务。

探索更多

探索所有亚马逊云科技解决方案

浏览我们针对常见架构问题使用亚马逊云科技构建的解决方案组合。

查找合作伙伴

查找亚马逊云科技认证的咨询和技术合作伙伴,以帮助您入门。

开始在控制台中构建

注册并开始探索我们的服务。

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域