大型语言模型 (LLM) 是什么?

大型语言模型 (LLM) 作为一种深度学习模型,实质上是一个存储量极大的文本数据库,LLM 文本数据库的资源一般来源于网络、新闻、社交媒体等多个渠道;文本数据库中数据经过训练后,不仅可以快速形成用于响应用户的自然语言文本,还能更准确地理解文本内容的含义,从而更高效地处理自然语言相关任务。

大型语言模型 (LLM) 的工作原理

大型语言模型(LLM)是一种能够进行通用语言生成和其他自然语言处理任务的计算模型。它们通过在大量文本数据上进行计算密集型的自监督和半监督训练,学习统计关系,获得处理文本的能力。

LLM 是基于 2017 年发明的 Transformer 架构的人工神经网络。截至 2024 年 6 月,最大和最强大的 LLM 采用了仅解码器的 Transformer 架构,这种架构能够高效处理和生成大规模文本数据。

早期,LLM 适应特定任务的主要方法是微调。但像 GPT3 这样的大型模型证明,通过提示工程(即精心设计输入提示以引导模型响应)也能取得类似效果。然而,这些 LLM 也继承了它们训练数据中存在的不准确性和偏差。

LLM 使用 Transformer 神经网络架构,包括具有自注意力能力的编码器和解码器。这使模型能够并行处理整个文本序列,大大缩短了与早期循环神经网络相比的训练时间。Transformer 架构支持使用具有数百亿参数的超大型模型,这些模型可以从互联网和维基百科等来源摄取海量数据。通过这种自学习过程,模型学会了理解基本语法、语言和知识。经过训练后,大型语言模型可以通过一个称为微调的过程,使用相对较小的监督数据集来轻松适应多种任务,如问答、文本生成和语言翻译。模型还可以执行零次学习和少次学习,在这种模式下,基础模型无需显式训练或只需几个相关示例,就可以响应广泛的请求。

大型语言模型 (LLM) 的优势

大型语言模型(LLM)具有多方面的优势,使其自然语言处理和内容创作领域表现出色。

通用语言生成能力

LLM 能够通过从海量文本数据中学习统计规律,实现通用的语言生成和其他自然语言处理任务。只需输入一段文本,LLM 即可连续预测下一个词或标记。这种生成能力使 LLM 广泛应用于内容创作、问答系统、机器翻译等领域。

通用语言生成能力

提示工程灵活性

除了传统的针对特定任务的微调方式,LLM 还能通过提示工程获取知识并产生所需输出。提示工程是指精心设计输入提示,引导模型生成所需响应,避免了昂贵的微调过程。这种灵活性使LLM能够快速适应新的应用场景。

提示工程灵活性

增强推理能力

一些新兴技术如链式思维提示,能够诱导 LLM 模仿人类思维过程,分步骤解决复杂的推理问题。这有助于 LLM 克服逻辑推理方面的困难,提高其在需要多步推理的任务上的表现。

增强推理能力

广阔的应用前景

LLM 可用于生成式 AI、自动化写作、知识库问答、文本分类、代码生成等诸多应用,有望颠覆内容创作、搜索引擎和虚拟助手的使用方式。

广阔的应用前景

大型语言模型 (LLM) 的类型

大型语言模型(LLM)是一种能够进行通用语言生成和其他自然语言处理任务的计算模型。它们是基于2017年发明的Transformer架构的人工神经网络。LLM通过在大量文本数据上进行计算密集型的自监督和半监督训练,从而获得语言能力。

主流 LLM 模型

主流 LLM 模型通过提示工程(prompt engineering)展现出了出色的能力,即通过精心设计的输入提示引导模型的响应。它们也继承了训练数据中存在的不准确性和偏差。

小型语言模型

与 LLM 不同,小型语言模型是在较小的私有或专有数据集上训练的缩小版本,有时被称为"个人语言模型"。

大型语言模型 (LLM) 的组成部分

大型语言模型(LLM)是一种基于变压器架构的人工神经网络,主要由以下几个关键组成部分构成:

LLM 的核心是生成式预训练变压器(GPT),这是一种源自变压器架构的深度神经网络。变压器架构由编码器和解码器组成,分别用于自然语言理解和自然语言生成。

自回归建模是 LLM 的重要组成部分,它允许模型根据前文上下文预测序列中的下一个词,从而生成连贯自然的文本。

基于变压器的 LLM 通常规模庞大,参数量可达数百亿,并且能够摄取海量训练数据。与早期的循环神经网络不同,变压器能够并行处理整个序列,从而利用 GPU 实现高效训练。

变压器能够通过在大型数据集上进行无监督训练,自主学习基本语法、语言和知识,无需显式标注。

LLM 具有极高的灵活性,单一模型即可执行多种任务,如问答、文本摘要、语言翻译和句子补全等。它们还可以通过在小型数据集上进行微调,轻松适应特定应用领域。

大型语言模型 (LLM) 的训练方式

训练大型语言模型 (LLM) 是一个复杂的过程,需要大量的计算资源和海量的文本数据。训练过程主要分为两个关键步骤:预训练和微调。

预训练

预训练是 LLM 训练的初始阶段,旨在让模型学习人类语言的基本结构和语义特征。 在这个阶段,模型需要从各种来源(如网站、书籍、文章等)获取数十亿甚至上百亿的原始文本数据。 模型通过自我监督学习技术(如掩码语言模型和下一句预测)在这些大规模文本数据上进行训练,学习语言的一般模式和规律。 预训练阶段的目标是让模型获得广泛的语言理解能力,为后续的微调奠定基础。

预训练

微调

微调是 LLM 训练的第二阶段,旨在针对特定任务对预训练模型进行进一步优化。 在这个阶段,模型会在更小范围、更专注的数据集上进行训练,以提高其对特定领域或任务的语言理解能力。 微调数据集通常由与目标任务相关的文本组成,例如对话数据、问答对等。 通过微调,LLM 可以更精准地理解和生成与目标任务相关的语言内容,从而满足不同应用场景的需求。

微调

亚马逊云科技哪些技术可以推动大型语言模型 (LLM) 的训练

大型语言模型 (LLM) 的持续迭代和发展离不开强大算力的支撑,Amazon EC2 提供了丰富的计算实例选择、多元化的处理器和架构以及灵活的部署方式,可以为 LLM 提供安全性高、弹性更强的算力支持。

Amazon EC2 提供了多种不同的实例类型和大小,包括通用型、计算优化型、内存优化型、加速计算型等,可满足 LLM 训练和推理的不同计算需求。

支持多种处理器架构,如 Intel、AMD 和 Arm 处理器,以及 GPU 和 Amazon Inferentia 芯片等加速器,为 LLM 提供高性能的并行计算能力。

采用虚拟化技术和安全组等机制,确保实例之间的隔离性和安全性,保护 LLM 模型和数据的隐私。

支持自动扩缩容、负载均衡等弹性伸缩功能,可根据 LLM 的计算负载动态调整资源,提高资源利用率并降低成本。

LLM 需要存储大规模的文本数据,并从数据中检索相应的语言知识。Amazon S3 作为一种对象存储服务,支持各种规模和行业客户的各类存储需求,不仅可存储网站、应用程序相关的重要数据,还能支持数据备份与还原,且能更高效地集成管理各类数据,为 LLM 提供灵活可扩展的云存储服务。

提供无限制的存储空间,可存储海量的文本语料库和训练数据,满足 LLM 对大规模数据的需求。

采用多重冗余存储机制和数据加密技术,确保数据的持久性和安全性。

支持对象级别的访问控制和生命周期管理策略,方便管理和优化存储成本。

通过 Amazon S3 Transfer Acceleration 和 Amazon DataSync 等服务,可实现高速、安全的数据传输和迁移。 与 Amazon 其他服务紧密集成,如 Amazon EFS、Amazon FSx 等文件系统,可满足 LLM 对不同类型存储的需求。

LLM 训练中,产生了大量的数据,若要进行数据迁移,既要保证数据的安全性,又要考虑传输的速度等因素。Amazon Snowball 作为 PB 级数据传输解决方案,不仅能在更短的时间内完成数据传输,更能有效节约成本,提高数据安全性。

采用物理设备传输数据,避免了通过网络传输大量数据所带来的延迟和安全风险。

支持 PB 级别的数据传输容量,可满足 LLM 训练数据的大规模迁移需求。

设备采用了端到端的加密和 TPM (可信平台模块) 技术,确保数据在传输过程中的安全性。

通过 Amazon Snowball Edge 计算优化型设备,可在边缘位置执行数据预处理、机器学习等任务,加快 LLM 训练过程。 与 Amazon S3 无缝集成,可轻松将数据从 Snowball 设备传输到 S3 存储桶中。

大型语言模型 (LLM) 的主要应用

大型语言模型(LLM)是一种基于深度学习技术训练的自然语言处理模型,能够从海量文本数据中学习语言知识和模式。LLM 具有强大的语言理解和生成能力,可应用于多种自然语言处理任务。目前,LLM 的主要应用包括:

内容创作

借助 LLM 的文本生成能力,可以辅助创作各种类型的内容,如新闻报道、营销文案、故事小说等,提高内容创作的效率和质量。

内容创作

机器翻译

LLM 能够学习多种语言的语义和语法知识,可用于构建高质量的神经机器翻译系统,实现跨语言的无障碍交流。

机器翻译

智能客服

将 LLM 应用于客户服务领域,可以创建拥有丰富知识的智能客服助手,为用户提供 7x24 小时的高效问答和咨询服务。

智能客服

如何评估大型语言模型 (LLM) 的性能

为了评估语言处理系统的性能,已经开发了各种数据集,包括语言可接受性语料库(Corpus of Linguistic Acceptability)、GLUE 基准测试和微软研究语义等价语料库(Microsoft Research Paraphrase Corpus)等。这些基准测试提供了标准化的任务和数据集,用于评估语言模型的性能。

大型语言模型有时可以达到与人类相当的性能水平,但尚不清楚它们是否是可信的认知模型。比如循环神经网络有时会学习人类无法学习的模式,有时却无法学习人类通常的学习模式。

由于语言模型旨在动态学习和从所见数据中获取知识,因此一些评估模型也会研究其学习速率,例如通过检查学习曲线。这种评估方式可以揭示语言模型在面对新数据时的适应能力和学习效率。

亚马逊云科技中国峰会

6 月 19 日 - 20 日|上海世博中心

聚焦生成式 AI 从技术爆发迈向行业深耕的跨越

大型语言模型 (LLM) 面临的挑战

继承偏差和不准确性

大型语言模型从训练数据中继承了存在的偏差和不准确信息,可能产生有偏差或不准确的输出。

认知模型的可信度

尽管大型语言模型有时可以匹配人类表现,但它们学习的模式可能与人类不同,因此作为认知模型的可信度仍有待商榷。

计算资源密集型

训练大型语言模型需要大量文本数据和密集的计算资源。

静态知识库的局限性

大型语言模型的知识库是静态的,存在知识截止日期,可能无法提供最新信息。

特定任务适应性的挑战

可靠、稳健地将大型语言模型适应于特定任务仍然是一个挑战。

非权威性和术语混淆

大型语言模型可能从非权威来源生成响应,或由于术语混淆而产生不准确的响应。

检索增强生成的需求

需要采用检索增强生成等技术从预定义的权威知识源检索相关信息,以提高响应的可控性和透明度。

大型语言模型 (LLM) 与传统模型的不同之处

大型语言模型(LLM)是一种更先进的语言模型形式,已经取代了传统的词 ngram 语言模型等模型。以下是 LLM 与传统模型的主要区别:

基于神经网络与自监督学习

LLM 基于人工神经网络,利用 Transformer 架构,能够在大量文本数据上进行自监督和半监督式学习,从而获取语法、语义和人类语言模式等知识。传统模型如词 ngram 语言模型则基于统计方法,假设下一个词的概率仅取决于前面固定窗口的词。

基于神经网络与自监督学习

更强大灵活的建模能力

LLM 能够更好地处理陌生和错误输入,并且随着规模的扩大会更加准确。同时,传统的基于规则的系统需要大量人工定义规则,而 LLM 可以通过数据学习和提示工程等技术适应各种任务,更加健壮和通用。

更强大灵活的建模能力

大规模并行处理能力

LLM 拥有数百亿个参数,能够摄取和学习大规模数据集。它们使用 Transformer 神经网络架构,可以并行处理整个文本序列,缩短训练时间。相比之下,传统模型通常规模较小,训练数据有限,并且是按序处理输入。

大规模并行处理能力

大型语言模型 (LLM) 的发展历程

大型语言模型(LLM)是近年来人工智能领域的一项重大进展,其发展历程可以概括为以下几个阶段:

变革性的 Transformer 架构

2017 年,研究人员提出了 Transformer 架构,这种架构广泛应用于大型语言模型的开发,使得 LLM 能够展现出类似人类的推理、认知、注意力和创造力等特征。Transformer 架构的出现为 LLM 的发展奠定了基础。

基础模型的兴起

2018 年,基础模型(Foundation Model)的概念开始出现。基础模型是在大量未标记数据上训练的大型语言模型,可以适应各种下游任务。这些模型不仅可以通过传统的微调方法完成任务,还能够通过提示工程(Prompt Engineering)的方式达到类似的效果。

通用人工智能的争论

大型语言模型展现出令人印象深刻的能力,但它们是否可以被视为通用人工智能(AGI)的早期、不完整形式仍存在争议。

大型语言模型 (LLM) 的未来发展趋势

大型语言模型(LLM)的未来发展趋势令人期待。以下是一些值得关注的重点:

未来将会出现更大规模、更强大的语言模型。这些模型将拥有更强的语言理解和生成能力,在各种自然语言处理任务中表现出色。

提示工程(prompt engineering)是一种通过精心设计的输入提示引导语言模型输出的方法,而不是仅依赖于针对特定任务的微调。

研究人员将继续努力提高语言模型的鲁棒性和可靠性,使其能够更好地处理训练数据中存在的偏差和不准确信息。这将有助于提高语言模型的准确性和公正性。

大型语言模型展现出了生成类人文本和协助各种任务的多功能性,因此它们的应用将会扩展到软件开发、医疗保健、金融、娱乐等多个行业领域。

人工智能生成技术的潜在滥用风险也值得关注,如制造虚假新闻或深度伪造视频等。解决这些挑战将是大型语言模型未来发展的重要一环。

注:前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程

快速上手训练营

第一课:亚马逊云科技简介

本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

亚马逊云科技技术讲师:李锦鸿

第二课:存储与数据库服务

您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

亚马逊云科技资深技术讲师:周一川

第三课:安全、身份和访问管理

在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

亚马逊云科技技术讲师:马仲凯

了解更多入门学习计划 »

快速上手训练营

账单设置与查看

账单设置与查看

动手实操

快速上手云上无服务器化的 MySQL 数据库

本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

部署时间:10 分钟

启动一台基于 Graviton2 的 EC2 实例

本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

部署时间:5 分钟

使用 Amazon Systems Manager 进行云资源统一跟踪和管理

在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

部署时间:10 分钟

查看更多教程 »

动手实操

快速注册账号 享用免费套餐

跟随注册步骤详解,三分钟快速创建账号,领取免费权益

打开中国区账号注册页面

01 填写您 注册账号的邮箱,点击“继续”

02 查看您的 注册账号邮箱

注: 发件箱 no-reply@register.signin.amazonaws.com.cn

03 输入 邮箱中收到的验证码,点击“继续”

注: 该链接中的内容显示语言是与您的网页浏览器设置相一致的,您可以根据需要自行调整语言栏。

立即开始注册 »

image

填写用户名密码

01 请设置您的 账号用户名

02 为您的帐号 设置密码

03 重新 输入密码

立即开始注册 »

图片

填写账号联系人以及公司信息

01 填写公司联系人 姓名全称

02 填写公司联系人的 联系电话

03 填写 公司名称

注: 公司名称请务必与您所提供的营业执照公司名称保持一致

04 填写 公司办公地址

注: 省份/自治区/直辖市 - 城市 - 区 - 街道门牌号以及楼层信息 - 邮政编码

05 请选择 是否需要发票

注: *附件-申请发票流程 供您参考

06 点击查看 客户协议 勾选方框表示您已阅读,并同意客户协议的条款

立即开始注册 »

图片

企业信息验证

01 在此上传 企业注册执照

02 请填写网络安全负责人的 姓名

注: 该字段务必与您下方提供的身份证号匹配或与证件上的姓名保持一致

03 请填写网络安全负责人的 联系方式

注: 有效的电子邮件地址 - 有效的中国内地 手机号码 - 座机号码(如无座机,请填写正确有效的手机号码)

04 在此上传网络安全负责人的 身份证件

注: 当您选择证件类型为“身份证”时,您需要填写正确的身份证号码,选择其他证件类型时,您需要上传证件扫描稿

立即开始注册 »

图片

手机验证与支持计划

01 在此填写 手机号

02 请输入您收到的 4 位 验证码

03 请点击 继续

04 请根据需求 选择一个支持计划

立即开始注册 »

图片