创建生成式 AI 网关,允许安全、合规地使用基础模型

在快速发展的人工智能和机器学习 (ML) 世界中,基础模型 (FM) 已显示出推动创新和解锁新用例的巨大潜力。但是,随着组织越来越多地利用 FM 的力量,围绕数据隐私、安全性、额外成本和合规性的担忧已变得至关重要。受监管和以合规为导向的行业,例如金融服务、医疗保健和生命科学以及政府机构,在确保安全和负责任地使用这些模型方面面临着独特的挑战。为了在敏捷性、创新和遵守标准之间取得平衡,强大的平台至关重要。在这篇文章中,我们建议将生成式人工智能网关作为企业允许安全访问FM进行快速创新的平台。

在这篇文章中,我们定义了什么是生成式 AI 网关、它的优势以及如何在 亚马逊云科技 上架构一个。生成式人工智能网关可以帮助大型企业控制、标准化和管理来自诸如Amazon B edrock、 Amazon SageMaker JumpStart 、 第三方模型提供商(例如Anthropic及其API)以及亚马逊云科技生态系统之外的其他模型提供商等服务的FM消费。

什么是生成式 AI 网关?

对于传统 API(例如 REST 或 gRPC),API Gateway 已经确立了自己作为一种设计模式的地位,使企业能够标准化和控制 API 的外部化和使用方式。此外,API 注册表支持 API 的集中管理、控制和可发现性。

同样,生成式 AI Gateway 是一种设计模式,旨在扩展 API 网关和注册表模式,具体考虑在大型企业环境中提供和使用基础模型。例如,处理幻觉、管理公司特定的 IP 和 EULA(最终用户许可协议)以及管理世代是超出传统 API 网关范围的新职责。

除了生成式人工智能的特定要求外,基础模型的技术和监管格局也在迅速变化。这给组织在平衡创新速度和合规性方面带来了独特的挑战。例如:

  • 最先进的模型、架构和最佳实践在不断变化(SOTA)。这意味着公司需要在应用程序客户端(模型使用者)和模型推理端点之间建立松散的耦合,这样可以确保在需要时在大型语言模型 (LLM)、视觉或多模态端点之间轻松切换。模型推理端点之上的抽象层提供了这种松散的耦合。
  • 监管的不确定性,尤其是知识产权和数据隐私方面的不确定性,需要可观察、监控和追踪世代。例如,如果基于检索增强生成 (RAG) 的应用程序意外在上下文中包含了个人身份信息 (PII) 数据,则需要实时检测此类问题。如果拥有多个数据科学团队的大型企业使用定制的分布式平台来部署基础模型,这将变得具有挑战性。

生成式 AI Gateway 旨在解决这些新需求,同时提供与传统 API 网关和注册表相同的优势,例如集中管理和可观察性以及通用组件的重用。

解决方案概述

具体而言,生成式 AI 网关提供以下关键组件:

  • 经批准的 FM 的模型抽象层
  • 面向 FM 的 API 网关(人工智能网关)
  • FM 可以发现内部模型的游乐场

下图说明了解决方案架构。

为了增加弹性,建议的解决方案可以部署在多可用区环境中。尽管整个解决方案可以在单个 VPC 中部署,但上图中的虚线表示网络边界。

模型抽象层

模型抽象层是安全和受控地访问组织的 FM 池的基础。该层为公司、团队和员工提供了有关哪些模型的单一事实来源,以及如何通过存储每个模型的端点信息来访问每个模型。

该层是通过生成式 AI 网关安全、合规和敏捷地使用 FM 的基石,促进组织内部负责任的人工智能实践。

该层本身由四个主要组件组成:

  • FM 端点注册表 -在对 FM 进行评估、批准和部署以供使用后,其端点将添加到 FM 端点注册表中,该注册表是所有已部署或可外部访问的 API 端点的集中存储库。该注册表包含有关组织使用的生成式 AI 服务端点的元数据,无论是内部部署的 FM 还是供应商提供的外部提供的生成 AI API。元数据包括诸如每个基础模型的服务端点信息及其配置以及访问策略(基于角色、团队等)等信息。
  • 模型策略存储和引擎 — 为了以合规的方式使用 FM,模型抽象层必须跟踪模型生成的定性和定量规则。例如,某些世代可能会受到某些法规的约束,例如CCPA(加州消费者隐私法),该法要求每个地理位置的自定义生成行为。因此,政策应具有国家和地域意识,以确保在各地不断变化的监管环境中合规。
  • 身份层 — 模型可供使用后,身份层在访问管理中起着关键作用,确保只有授权用户或组织内的角色才能通过 AI Gateway 与特定 FM 进行交互。基于角色的访问控制 (RBAC) 机制有助于定义精细的访问权限,确保用户可以根据自己的角色和职责访问模型。
  • 与供应商模型注册表集成 — FMS 可以通过不同的方式使用,既可以部署在 VPC 下的组织帐户中,也可以通过不同的供应商作为 API 使用。通过前面提到的初始检查后,端点注册表保存了供应商提供的有关这些模型的必要信息,以及通过 API 公开的版本。这从最终用户那里抽象出潜在的复杂性。

为了填充人工智能模型端点注册表,Genteratal AI Gateway团队与由领域专家和业务线利益相关者组成的跨职能团队合作,精心挑选FM并将其加入该平台。在此入职阶段,我们会仔细考虑模型性能、成本、道德一致性、行业法规的遵守情况以及供应商的声誉等因素。通过进行全面评估,各组织可确保选定的财务经理符合其特定业务需求并遵守安全和隐私要求。

下图说明了该层的架构。

MAL

亚马逊云科技 服务可以帮助构建模型抽象层 (MAL),如下所示:

  1. 生成式 AI 管理器使用 亚马逊 DynamoD B 创建注册表。此表填充了有关 FM 的信息,这些信息要么部署在组织账户内部,要么可通过供应商的 API 进行访问。此表将保存模型的端点、元数据和配置参数。如果需要自定义 亚马逊云科技 L am bda 函数来使用供应商特定 API 客户端调用底层 FM,它还可以存储信息。
  2. 然后,生成式 AI 管理器确定用户的访问权限,添加限制,为用户可以执行的生成类型(图像、文本、多模态等)添加策略,并添加其他组织特定策略,例如负责任的 AI 和内容过滤器,这些策略将作为单独的策略表添加到 DynamoDB 中。
  3. 当用户使用 AI Gateway 提出请求时,请求会被路由到 A mazon Cognito 以确定客户的访问权限。Lambda 授权者帮助确定来自身份层的访问权限,身份层将由 DynamoDB 表策略管理。如果客户有访问权限,则从 亚马逊云科技 Secrets Manager 获取相关访问权限,例如 亚马逊云科技 身份和访问管理 (IAM) 角色或 FM 终端节点的 API 密 钥。此外,还会探索注册表以在此阶段找到相关的端点和配置。
  4. 获取与请求相关的所有必要信息(例如端点、配置、访问密钥和自定义函数)后,这些信息将交还给 AI Gateway,与调用特定模型端点的调度器 Lambda 函数一起使用。

AI 网关

AI Gateway 是促进组织内安全、高效地使用 FM 的关键组件。它在模型抽象层之上运行,为包括开发人员、数据科学家和业务分析师在内的内部用户提供基于 API 的接口。

通过这种用户友好的界面(基于编程和游乐场用户界面),内部用户可以无缝访问、交互和使用组织的精选模型,从而确保根据自己的身份和职责提供相关模型。AI 网关可以包含以下内容:

  • 适用于@@ 所有 FM 的统一 API 接口 — AI Gateway 提供统一的 API 接口和 SDK,可抽象出潜在的技术复杂性,使内部用户能够轻松地与组织的 FM 进行交互。用户可以使用 API 调用不同的模型并发送提示以生成模型。
  • API 配额、限制和使用量管理 -这包括以下内容:
    • 消耗配额 -为了实现有效的资源分配和成本控制,AI Gateway 为用户提供了有关每种模型消耗配额的见解。这种透明度使用户能够有效地管理其人工智能资源使用情况,从而确保最佳利用率并防止资源浪费。
    • 申请专用托管 ——认识到资源分配对关键用例的重要性,AI Gateway 允许用户申请特定模型的专用托管。拥有高优先级或延迟敏感型应用程序的用户可以使用此功能来确保为其模型推断需求提供一致的专用环境。
  • 访问控制和模型治理 — 使用模型抽象层中的身份层,AI Gateway 实施严格的访问控制。每个用户的身份和分配的角色决定了他们可以访问的模型。这种精细的访问控制可确保仅向用户提供与其域相关的模型,从而维护数据安全和隐私,同时促进负责任地使用人工智能。
  • 内容、隐私和负责任的人工智能政策执行 — API Gateway 对模型和模型生成的所有输入进行预处理和后处理,以过滤和审核模型抽象层为过滤而指定的毒性、暴力、危害、个人身份信息数据等。将此功能集中在 AI Gateway 中可确保强制执行和便于审计。

通过将 AI Gateway 与模型抽象层集成,并整合基于身份的访问控制、模型列表和元数据显示、消费配额监控和专用主机请求等功能,组织可以创建强大的 AI 消费平台。

此外,AI 网关还提供 API 网关的标准优势,例如:

  • 成本控制机制 ——为了优化资源分配和有效管理成本,可以实施强大的成本控制机制。该机制监控资源使用情况、模型推理成本和数据传输费用。它使组织能够深入了解生成式人工智能资源支出,发现节省成本的机会,并就资源分配做出明智的决策。
  • 缓存 — 来自 FM 的推断可能会变得昂贵,尤其是在应用程序的测试和开发阶段。缓存层可以帮助降低成本,甚至可以通过为频繁的请求维护缓存来提高速度。缓存还减轻了端点的推理负担,从而为其他请求腾出了空间。
  • 可观测性 — 这在捕捉在 AI Gateway 和 Discovery Playground 上进行的活动方面起着至关重要的作用。详细日志记录用户互动、模型请求和系统响应。这些日志为故障排除、跟踪用户行为以及加强透明度和问责制提供了有价值的信息。
  • 配额、速率限制和节流 — 该层的治理方面可以包括配额、速率限制和节流的应用,以管理和控制 AI 资源的使用。配额定义了用户或团队在特定时间范围内可以提出的最大请求数,从而确保资源的公平分配。速率限制通过强制执行最大请求速率来防止资源的过度使用。限制通过控制传入请求的频率来降低系统过载的风险,从而防止服务中断。
  • 审计记录和使用情况监控 — 团队负责维护整个生态系统的详细审计记录。这些日志支持全面的使用情况监控,使中央团队能够跟踪用户活动、识别潜在风险并保持人工智能消费的透明度。

下图说明了这种架构。

AI-Gateway

亚马逊云科技 服务可以帮助构建 AI 网关,如下所示:

  1. 用户使用 Amazon API Gatew ay 发出请求 ,在请求经过身份验证和授权后,该请求会被路由到模型抽象层。
  2. AI Gateway 使用 MAL 返回的使用限制策略对每个用户的请求强制执行使用限制。为了便于执行,我们使用 API Gateway 的原生功能来强制执行计量。此外,我们还使用 JSON 架构根据请求执行标准 API 网关验证。
  3. 验证使用限制后,使用每个经批准的模型供应商提供的原生接口,从 MAL 收到的端点配置和凭据构成实际的推理负载。调度层对供应商的 SDK 和 API 接口之间的差异进行标准化,以便为客户端提供统一的接口。诸如 DNS 更改、负载平衡和缓存之类的问题也可以通过更复杂的调度服务来处理。
  4. 收到来自底层模型端点的响应后,后处理 Lambda 函数使用 MAL 中与内容(毒性、裸露等)以及合规性(CCPA、GDPR 等)有关的政策来过滤或掩盖整代人或部分内容。
  5. 在请求的整个生命周期中,所有世代和推理负载都通过 Amazon CloudWatch L ogs 进行 记录,可以根据从 MAL 检索到的标签和策略,通过日志组对其进行组织。例如,可以根据模型供应商和地理位置将日志分开。这允许进一步改进模型和进行故障排除。
  6. 最后,可通过 亚马逊云科技 CloudTrail 进行追溯审计。

探索游乐场

最后一个组件是引入 Discovery Playground,它提供了一个建立在模型抽象层和 AI Gateway 之上的用户友好界面,为用户提供了一个探索、测试和释放可用 FM 的全部潜力的动态环境。除了提供对 AI 功能的访问权限外,Playground 还使用户能够使用丰富的 UI 界面与模型进行交互,提供有价值的反馈,并与组织内的其他用户分享他们的发现。它提供以下主要功能:

  • P@@ layg round 界面 — 您可以毫不费力地输入提示并实时接收模型输出。用户界面简化了交互过程,使具有不同技术专业水平的用户可以进行生成式 AI 探索。
  • 模型卡 -您可以访问可用模型的完整列表及其相应的元数据。您可以浏览有关每个模型的详细信息,例如其功能、性能指标和支持的用例。此功能有助于做出明智的决策,使您能够根据自己的特定需求选择最合适的型号。
  • 反馈机制 — Playground 的一个与众不同之处在于其反馈机制,它允许您提供有关模型输出的见解。您可以报告幻觉(虚构信息)、不当语言或在与模型交互期间观察到的任何意外行为等问题。
  • 用例建议 — Discovery Playground 可以设计为促进学习和理解 FM 在不同用例下的能力。你可以尝试各种提示,发现哪些模型在特定场景中表现出色。

通过提供丰富的用户界面、模型卡、反馈机制、用例推荐和可选的示例商店,Discovery Playground 成为组织内部生成式 AI 探索和知识共享的强大平台。

流程注意事项

尽管生成式 AI Gateway 的先前模块提供了一个平台,但该层更实用,可确保组织内部负责任和合规地使用 FM。它包括技术方面以外的其他措施,侧重于法律、实践和监管方面的考虑。该层为中央团队提供了处理数据安全、许可证、组织法规和审计跟踪的关键职责,从而培养信任和透明的文化:

  • 数据安全与隐私 — 由于 FM 可以处理大量数据,因此数据安全和隐私成为头等大事。中央团队负责实施强有力的数据安全措施,包括加密、访问控制和数据匿名化。
  • 数据监控 — 应建立全面的数据监控系统,通过人工智能网关和探索游乐场跟踪传入和传出的信息。这包括监控用户提供的提示和相应的模型输出。数据监控机制使组织能够观察数据模式,检测异常情况,并确保敏感信息保持安全。
  • 模型许可证和协议 — 中央团队应带头管理与模型使用相关的许可证和协议。供应商提供的模型可能附带特定的使用协议、使用限制或许可条款。该团队确保遵守这些协议,并维护所有许可证的全面存储库,确保清楚地了解与每种型号相关的权利和限制。
  • 道德考量 ——随着人工智能系统变得越来越复杂,中央团队承担起确保人工智能使用符合道德标准的责任。他们评估模型中是否存在潜在的偏见、有害输出或不道德行为。已采取措施缓解此类问题,并在组织内促进负责任的人工智能开发和部署。
  • 主动适应 — 为了领先于新出现的挑战和不断变化的法规,中央团队采取了积极的治理方法。他们不断更新政策、标准模型和合规措施,以符合最新的行业惯例和法律要求。这确保了该组织的人工智能生态系统保持合规性并维护道德标准。

结论

生成式 AI 网关使组织能够负责任和安全地使用基础模型。通过整合模型抽象层、AI Gateway 和具有监控、可观察性、治理以及安全性、合规性和审计层的 Discovery Playground,组织可以在创新与合规之间取得平衡。AI Gateway 使您可以无缝访问精选模型,而探索游乐场则促进探索和反馈。监控和治理为优化资源分配和主动决策提供了见解。Genterative AI Gateway专注于安全性、合规性和合乎道德的人工智能实践,为未来打开了大门,让人工智能驱动的应用程序能够负责任地蓬勃发展,为组织开启新的可能性领域。


作者简介

Talha Talha Chattha 是总部位于斯德哥尔摩的亚马逊网络服务的人工智能/机器学习专业解决方案架构师,为北欧企业和数字原生企业提供服务。Talha 对生成式 AI 技术充满热情,他孜孜不倦地努力在大型语言模型和基础模型领域为客户提供创新、可扩展和有价值的机器学习解决方案。在不塑造人工智能的未来时,他探索风景秀丽的欧洲风景和美味佳肴。

John Hwang John Hwang 是 亚马逊云科技 的生成式 AI 架构师,特别关注大型语言模型 (LLM) 应用程序、向量数据库和生成式 AI 产品策略。他热衷于帮助公司开发人工智能/机器学习产品,以及LLM代理和副驾驶的未来。在加入 亚马逊云科技 之前,他曾在 Alexa 担任产品经理,帮助将对话式 AI 引入移动设备,并在摩根士丹利担任衍生品交易员。他拥有斯坦福大学的计算机科学学士学位。

Paolo Di Francesco 保罗·迪·弗朗西斯科 是亚马逊网络服务(亚马逊云科技)的高级解决方案架构师。他拥有电信工程博士学位,拥有软件工程经验。他热衷于机器学习,目前正专注于利用自己的经验帮助客户实现他们在 亚马逊云科技 上的目标,尤其是在围绕 mLOP 的讨论中。工作之余,他喜欢踢足球和读书。


*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用,亚马逊云科技中国仅为帮助您发展海外业务和/或了解行业前沿技术选择推荐该服务。