向量数据库相关工作原理有哪些?

01

Embedding

在向量数据库中,Embedding 是指将非结构化数据(如文本、图像、音频等)通过大模型转换为稠密向量,并映射到低维空间的过程。生成的向量表示了数据的特征或语义信息,而这些向量在高维空间中的分布展示了它们所代表的数据之间的相似性和内在关系。Embedding 使得我们能够通过计算向量之间的相似度,进行数据检索、聚类和相似性搜索等操作。

02

向量检索算法

向量检索算法主要用于在大规模向量数据集中高效地寻找与查询相似的向量。在实际应用中,需要根据具体场景进行算法的选择和参数的调优。选择哪种算法取决于向量数据集的特征、数据量和查询需求,以及对搜索准确性和速度的要求。几大常用的向量检索算法如下:

  • KD-Tree:KD-Tree 是一种多维空间划分的数据结构,通过递归地选择轴(例如 X 轴、Y 轴等)来分割空间,将数据点划分到不同的区域,实现高效的最近邻搜索。它适用于低维数据的快速查询,但随着维度的增加,性能会急剧下降,导致“维度灾难”问题。
  • VP-TreeVP-Tree 是一种基于距离度量的空间索引结构,通过选择一个数据点作为“视点”,然后根据该点与其他点的距离将数据点分组,递归地构建子树,以支持高效的最近邻和范围查询。VP-Tree 在处理高维空间时通常比 KD-Tree 更有效,特别是在数据分布不均匀的情况下。
  • LSH:LSH(局部敏感哈希)是一种基于哈希的概率性数据结构,通过设计特殊的哈希函数,使得相似度高的数据点有较高的概率映射到相同的哈希值,而相似度低的数据点则几乎不可能映射到相同的哈希值。LSH 适用于高维数据的近似最近邻查找,特别适合大规模数据集,但它是近似搜索,可能无法保证 100% 准确性。
03

相似度测量

相似度测量是通过特定的数学公式来量化两个向量之间的相似性或差异性,常用的测量方式有欧氏距离、余弦相似度和点积相似度等。这些测量方式能够捕捉向量在多维空间中的相对位置和方向,从而为相似性搜索提供依据。


为什么使用向量数据库?

向量数据库在大模型训练和推理等场景中得到了广泛应用。简单来说,如果大模型是一个智能的“大脑”,那么向量数据库就像是它的“记忆库”,帮助快速存储和检索关键信息,提升处理效率。

帮助大模型训练降本增效

向量数据库可辅助大模型在训练阶段快速处理海量数据,包括数据分类、去重和清洗等。这就像为大模型整理好所有的信息,让它能更快速地学习,从而降低训练成本、提高效率。

推动大模型能力更新升级

向量数据库通过不断引入新的数据,帮助大模型实时更新知识,避免停留在过时的预训练信息中。这不仅让大模型能更好地处理新问题,还能有效减少“幻觉”现象的出现,使其输出内容更加准确和可信。

助力安全打造定制大模型

向量数据库为私有数据与大模型之间提供安全连接,让企业能够在确保数据隐私的前提下,将私有数据注入大模型中,从而打造更加适合企业自身业务需求的定制化大模型能力。


向量数据库会带来哪些优势?

01

助力高效相似性搜索

向量数据库采用专门的索引结构和相似性计算算法,能够快速进行相似性匹配,可广泛应用于人脸识别、图像搜索等场景。

04

支持实时向量嵌入

向量数据库通过对向量数据实时添加、更新和删除的支持,可帮助企业快速完成非结构化数据的向量化入库与场景应用。

02

执行复杂数据分析

向量数据库不但支持存储多种类型的数据,还支持范围查询、聚类分析、维度约减等复杂查询操作,提供更丰富的数据分析与挖掘能力。

05

提升应用开发效率

向量数据库⽀持⽂本搜索集成,可在⼀次调⽤中同时查询向量数据、元数据和描述性⽂本,从而降低应用系统开发复杂性。

03

集成机器学习能力

向量数据库通过与机器学习算法、工具集成,可完成自动特征提取、聚类分析和分类等任务,推动数据价值洞察进程。

06

实现大规模应用开发

基于无服务器架构打造的向量数据库,可在几毫秒内完成数⼗亿个具有数千个维度的向量数据的存储与检索,支撑大规模应用的开发与运行。


如何使用亚马逊云科技满足向量数据库业务需求?

亚马逊云科技针对用户的向量数据库应用需求提供了一系列服务:
Amazon OpenSearch

Amazon OpenSearch Serverless 的向量引擎功能提供简单、可扩展且高性能的向量数据存储和检索能力,可帮助开发人员构建具有搜索增强功能的应用。

Amazon RDS for PostgreSQL

Amazon Aurora PostgreSQL-Compatible Edition 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL 支持 pgvector 扩展,可将大模型生成的向量数据存储在向量数据库中,并执行高效的相似性搜索。

Amazon MemoryDB

Amazon MemoryDB 的向量搜索支持存储数百万个向量,查询和更新响应时间为几毫秒,QPS 可达到每秒数万次查询,召回率超 99%。

Amazon Aurora

Amazon Aurora PostgreSQL-Compatible Edition 和 Amazon Relational Database Service (Amazon RDS) for PostgreSQL 支持 pgvector 扩展,可将大模型生成的向量数据存储在向量数据库中,并执行高效的相似性搜索。

Amazon Neptune ML

Amazon Neptune ML 是 Amazon Neptune 提供的新功能。其采用的图形神经网络 (GNN) 专为图形需求构建,能够基于已有图形数据,快速且准确地进行图形预测。

Amazon DocumentDB

Amazon DocumentDB 的向量搜索功能将基于 JSON 的文档数据库的灵活性与丰富查询功能,同非结构化数据搜索能力相结合,可帮助企业打造产品推荐、聊天机器人等丰富的生成式 AI 应用。


向量数据库可用于哪些场景?

向量数据库的优点_相似性搜索

语义搜索

Amazon OpenSearch Service 作为向量数据库,通过支持语义搜索提高检索结果的相关性,使用户能够通过自然语言查询,更精准地找到相关信息,相比传统的关键词搜索,相关性提升可达 15%。

向量数据库的优点_复杂数据支持

大模型知识库

Amazon OpenSearch Service 作为向量数据库,通过与大模型结合构建大模型知识库。利用 RAG(检索增强生成)方法,以向量化的数据资料为大模型提供可靠的事实依据,减少模型生成内容时的幻觉现象,提升对话式搜索和问答系统的准确性与可信度。

向量数据库的优点_机器学习能力

推荐系统

Amazon OpenSearch Service 作为向量数据库,通过支持基于向量相似度的检索,帮助推荐系统根据用户行为生成个性化推荐。例如通过计算用户与产品向量之间的相似性,提升电商平台的推荐精度和用户体验。

向量数据库的优点_相似性搜索

多媒体搜索

Amazon OpenSearch Service 作为向量数据库,通过支持图像、音频和视频等多媒体数据的向量化处理与检索,帮助企业构建丰富的多媒体搜索服务。

向量数据库应用的成功实践

01

riskCanvas

riskCanvas 通过与 Amazon OpenSearch Serverless 的向量引擎直接集成,加速金融犯罪调查分析。

02

Academia

Academia 应用 Amazon OpenSearch Service 提升学术论文推荐精准度,达成用户点击率提高 20%。

03

Intuit

Intuit 基于 Amazon OpenSearch Service 构建了高效的向量数据存储与管理系统,提升财务管理、合规性等金融服务质量。


使用亚马逊云科技的云原生向量数据库进行构建

支持个性化推荐的云原生搜索服务 Amazon OpenSearch Service 向量引擎

OpenSearch 是一款灵活且可扩展的开源软件套件,用于搜索、分析、安全监控和可观测性应用程序。

支持相似度搜索的托管数据库服务的向量扩展 Amazon Relational Database Service (Amazon RDS) for PostgreSQL

支持 pgvector 扩展,用于将机器学习模型生成的向量存储在您的数据库中,并执行高效的相似性搜索。

支持语义问答的云原生数据库的向量检索扩展 Amazon Aurora

Amazon Aurora PostgreSQL 兼容版现支持 pgvector 扩展,用于将来自机器学习模型处理得到的向量存储在您的数据库中并执行高效的相似性搜索,可将文本输入的语义、含义捕获到大型语言模型中。

亚马逊云科技热门云产品

欢迎加入亚马逊云科技培训中心

欢迎加入亚马逊云科技培训中心

从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
从 0 到 1 轻松上手云服务,获取更多官方开发资源及培训教程
  • 快速上手训练营
  • 第一课:亚马逊云科技简介

    本课程帮助您初步了解云平台与本地环境的差异,以及亚马逊云科技平台的基础设施和部分核心服务,包括亚马逊云科技平台上的弹性高可用架构,架构设计准则和本地架构迁移上云的基本知识。

    亚马逊云科技技术讲师:李锦鸿

    第二课:存储与数据库服务

    您将在本课程中学习到亚马逊云科技上的三个存储服务分别是什么。我们也将在这个模块中为您介绍亚马逊云科技上的关系型数据库服务 Amazon Relational Database Service (RDS)。

    亚马逊云科技资深技术讲师:周一川

    第三课:安全、身份和访问管理

    在这个模块,您将学习到保护您在亚马逊云科技上构建的应用的安全相关知识,责任共担模型以及身份和访问管理服务, Identity and Access Management (IAM) 。同时,通过讲师演示,您将学会如何授权给 EC2 实例,允许其访问 S3 上的资源。

    亚马逊云科技技术讲师:马仲凯
  • 账单设置与查看
  • 视频:快速完成税务设置

    部署时间:5 分钟

    视频:账户账单信息

    部署时间:3 分钟

    视频:如何支付账单

    部署时间:3 分钟

  • 动手实操
  • 快速上手云上无服务器化的 MySQL 数据库

    本教程将引导您创建一个Aurora Serverless 数据库并且连接上它。

    部署时间:10 分钟

    启动一台基于 Graviton2 的 EC2 实例


    本教程将为您讲解如何在云控制台上启动一台基于 Graviton2 的 EC2 实例。

    部署时间:5 分钟

    使用 Amazon Systems Manager 进行云资源统一跟踪和管理

    在这个快速上手教程中,您将学会如何使用 Amazon Systems Manager 在 Amazon EC2 实例上远程运行命令。

    部署时间:10 分钟

准备好体验亚马逊云科技提供的云服务了吗?

新用户享受中国区域 12 个月免费套餐

联系我们

联系我们

如需了解更多亚马逊云科技的专业服务和解决方案,请填写表单,我们的业务开发团队会与您联系
提交成功!
免费试用 12 个月

云服务器 EC2

每月免费使用 750 小时,两种实例类型可选,并可免费获得 750 小时公网 IPv4 地址

关闭
1010 0766
由光环新网运营的
北京区域
1010 0966
由西云数据运营的
宁夏区域
关闭
由光环新网运营的
北京区域
由西云数据运营的
宁夏区域