亚马逊云科技上海人工智能研究院
亚马逊云科技上海人工智能研究院
新闻和博客
DGL 2.1: 为您的 GNN 数据流水线提供 GPU 加速
我们非常高兴地宣布 DGL 2.1 的发布。在这个版本中,我们大幅提升了 GNN 数据加载速度。通过在 GraphBolt 中引入 GPU 加速技术,我们对整个 GNN 数据加载流水线进行了优化,包括图采样和特征提取阶段。
3/6/2024
GNN2.0:助力优化 GNN 数据流水线
我们非常高兴地宣布 DGL2.0 的发布,这是图神经网络 (GNNs) 机器学习框架的一个重要里程碑。数据加载一直以来都是 GNN 训练中的重要瓶颈之一。复杂的图结构和高效采样需求经常影响数据加载速度和限制资源,这都会严重阻碍 GNN 模型的训练速度和可拓展性。DGL2.0 通过引入 dgl.graphbolt 打破了这些限制。这是一个革命性的数据加载框架,通过优化数据流水线,显著提高了 GNN 训练的速度和可扩展性。
1/26/2024
BSChecker: 细粒度大模型幻觉检测工具正式推出
12/7/2023
研究院 4 篇论文被 ICCV 2023 接收
在 Unsupervised Open-Vocabulary Object Localization in Videos 中,我们提出了通过时空一致性的归纳偏差,以无监督的方式从视频中定位物体。然后通过微调的 CLIP 模型,为每个定位到的物体添加语义标签。这意味着我们能够从视频中找到物体并理解这些物体的含义,而无需事先标记或监督训练数据。
Object-centric Multiple Object Tracking 中提出了OC-MOT 模型,通过采用信息丰富的物体视觉表示和自监督记忆模块,成功缩小了现有以目标为中心的模型和最前沿的有监督多目标跟踪模型之间的性能差距。
我们在 Coarse-to-Fine Amodal Segmentation with Shape Prior 中提出了 Coarse-to-Fine Segmentation (C2F-Seg),用于更有效地执行被遮挡物体分割补全任务。该方法将学习空间从图像的像素级逐渐缩小到 VQ 隐空间,然后在像素空间中添加更多细节加以改进。
为了提高视频分割的性能,特别是在处理非完全可见的情况下,我们在 Rethinking Amodal Video Segmentation from Learning Supervised Signals with Object-centric Representation 中提出了一种基于多视图融合层的时间模块,用于完善对象表示。除了使用来自不同帧的视图之外,我们设计了一个变换模块,将图像特征映射到鸟瞰图(BEV),以引入 3D 信息提高特征质量。
10/2/2023
研究院 4 篇论文被 ACL 2023 接收
在论文 An AMR-based Link Prediction Approach for Document-level Event Argument Extraction中,我们提出了一种方法来构建文档级事件参数抽取的抽象语义表示(AMR)图。该图由规范化的名词和动词以及表明语义角色(如动词的主语和宾语)的连边构成。我们使用 GNN+Transformer 模型在AMR图上提取事件参数。
在论文 Exploiting Abstract Meaning Representation for Open-Domain Question Answering 中,我们同样采用文档级抽象语义表示图,但应用于不同的任务和模型架构中。受图神经网络相关研究的启发,我们将图中连边的信息压缩为输入单元(token),并将这些单元拼接到文本序列中。之后把拼接好的文本输入单元和图输入单元做一个长序列输入进 Transformer 模型,以完成问答任务。
在 Dual Cache for Long Document Neural Coreference Resolution 一文中,我们提出了一种混合缓存机制,结合了 LRU(Least Recently Use)和 LFU(Least Frequently Use)策略,用于维护长文档指代消解过程中的候选文本片段。由于模型只考虑在缓存中的候选项,因此在不过多损失准确度的情况下节省了内存和计算开销。
在 Distributed Marker Representation for Ambiguous Discourse Markers and Entangled Relations 一文中,鉴于预定义和人工标注的篇章关系在描述句子之间的语义时可能存在歧义,我们提出了采用分布式表示来表达两个句子之间的关系。此外,我们还提出了一种无监督学习方法来获取这种分布式表示。
7/18/2023
DGL 1.0: 10 行代码搞定图 Transformer
我们很高兴地宣布 DGL1.0 的正式发布,这是一个用于图深度学习的最前沿的机器学习框架。近三年来,学术界和工业界对图深度学习的兴趣日益增长。从对新模型的学术研究到对图神经网络(GNN)在现实世界中大规模应用的解决方案,DGL 框架能够满足不同场景的需求。我们希望通过 DGL1.0 为所有的用户提供全面易用的基于图机器学习的解决方案。
了解更多 :
- 150 多个 GNN 常用模块,包括 GNN 层、数据集、图数据转换模块,图采样器等,可用于构建新的模型架构或基于 GNN 的解决方案;
- 灵活高效的消息传递和稀疏矩阵抽象,用于开发新的 GNN 模块;
- 多 GPU 和分布式训练能力,支持在百亿规模的图上进行训练;
2/28/2023
研究院 1 篇论文被 EMNLP 2022 主会接收,2 篇收录为 findings
研究院共计 3 篇论文被 EMNLP 2022 接收 (1 篇主会论文,2 篇 findings) 。
在论文 DORE: Document Ordered Relation Extraction based on Generative Framework 中,我们提出了一种基于序列到序列模型的文档级关系抽取方法,该方法从自由文本生成转为符号序列生成,并采用负采样机制来平衡训练目标。我们在 ReLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees中提出了一种基于强化学习的问答推理树生成框架。不用于以往方法把推理步骤拆分建模的做法,我们采用多步强化学习框架建模推理步骤之间的关系。 此外,论文 Dilogue Meaning Representation for Task-Oriented Dialogue Systems提供了一个新的对话数据集,该数据集通过图结构来描述对话状态,显著提高了表达多个意图以及嵌套结构的能力。
10/10/2022
使用 DGL v0.9.1 快速划分海量图数据
在最新版本 DGL v0.9.1 中,我们针对亿万级图数据的预处理,划分和分布式存储提供了新的解决方案。其核心设计是面向巨图的分块存储格式(CGDF)。通过将巨图存储为多个小数据块并进行并行处理,新版本不仅降低了运算复杂度提高了处理速度,同时也减少了对单一机器的内存需求。
9/22/2022
DGL 助力精确有机反应活性预测
在最新一期 Nature Machine Intelligence 上,韩国科学技术院(KAIST)针对有机反应活性预测提出了一种新的图神经网络 LocalTransform,除了高度的预测准确性外,该模型还自带可解释性。祝贺 Yousung Jung 老师团队。很荣幸 DGL 能为 AI for science 领域的发展添砖加瓦。
9/19/2022
DGL v0.9正式发布
在第一篇图卷积神经网络论文发表六年后,研究人员正在积极探索更先进的 GNN 框架或训练方法。DGL 开发团队密切关注新的研究趋势并基于此发布新特征。以下,我们列举了最新 0.9 版本的一些新功能。
- 通过 NVIDIA RAPIDS cuGraph 结合图分析算法和图神经网络
- FP16 和混合精准支持
- 用于模型推理和图预测任务的新命令
7/26/2022
DGL 2022 年 5 月更新 (0.8.2)
DGL v0.8.2 版如期而至,为 GNN 社区带来了以下新增的内容:
- 用于开发 GNN 可解释性方法的合成数据集
- SIGN 扩散变换
- 标签传播
- 有向图网络层 (Directional Graph Networks)
- 具有边缘特征的图同构网络层
- 特征掩码
- 数据特征归一化
5/31/2022
DGL 2022年4月更新 (0.8.1)
DGL 团队一直密切关注学界最新的成果和动态。我们希望通过每次版本迭代让这些新模型,新算法能更方便地为大家所用。以下是本次0.8.1版本新增加的内容:
- 图神经网络的分组可逆残差连接
- 拉普拉斯位置编码
- 随机游走位置编码
- GraphSAINT 采样器
- E(n) 等变图卷积层
- 主邻域聚合网络
4/22/2022
DGL v0.8正式发布
DGL v0. 8版刚刚正式发布了。新版DGL增加了很多新的功能特性,同时大幅提升了系统性能。
主要更新如下:
- 对图采样流程进行了重大更新。
- 备受关注的异构图NN模块获得了显著提速和代码简化;为方便链接预测(link prediction),异质图神经网络学习和GNN解释模型,增加了11种新的GNN模块。
- GNNLens:一款使用GNN解释模型对图数据进行可视化的工具。
- 增加了创建,转换和增强图数据集的新功能,便于针对图对比学习或者图学习任务迁移的研究工作。
- DGL-Go: 一款全新的针对GNN模型训练的命令行工具。算法或数据工程师们可以使用DGL-Go快速使用GNN解决问题。研究人员则可以利用DGL-Go快速部署实验并进行定制化。
3/4/2022
DGL 与英伟达共建 GNN 生态
随着 GNN 的不断发展,越来越多的工业界场景开始尝试并使用 GNN。在刚刚结束的NVIDIA GTC 2021 大会上,创始人兼首席执行官黄仁勋也着重提到了 GNN 对于产业的重要意义,并公布了 NVIDIA 和 DGL 社区的全面伙伴关系。“图数据作为现代数据科学中的一种关键数据结构,现在可以通过全新 Python软件包Deep Graph Library(DGL)与深度神经网络框架进行对接。”
我们很高兴看到整个社区的茁壮成长,也期待未来有更多热衷开源,热衷最前沿技术的伙伴加入亚马逊云科技上海人工智能研究院。
11/12/2021
DGL 荣获“2021 OSCAR开源尖峰案例”
2021年9月17日,在中国信息通信研究院主办的“2021开源产业大会”上,亚马逊云科技 DGL(Deep Graph Library)荣获“2021 OSCAR 开源尖峰案例”—开源社区及开源项目领域奖项,彰显了亚马逊云科技技术实力与开源贡献。
在每年的开源产业大会上,中国信息通信研究院都会隆重宣布“OSCAR 开源尖峰案例”奖项,旨在树立开源典范,更好地推动开源技术在中国市场的落地。2021年,该奖项分“开源人物”、“开源社区及开源项目”、“开源企业—开源运营与生态建设”、“开源企业—开源治理”、“开源创新(二次开发)”等五大领域。而在“开源社区及开源项目”领域中,通过云计算标准和开源推进委员会成员对来自众多知名企业的170多个优秀项目的层层评选,亚马逊云科技 DGL 在激烈的竞争中脱颖而出,成功荣获国家级认证认可,赢得奖项。
DGL是一款面向图结构数据的专用深度学习框架。于2018年12月在 Neurips 大会上宣布开源。开发团队最初主要来自 NYU 和 NYU Shanghai,现由张峥教授带领的亚马逊云科技上海人工智能研究院主要开发,项目上线初就获得广泛关注和好评。
9/17/2021
基于DGL的异质图神经网络开源工具包正式发布
今天,北邮GAMMA Lab正式发布异质图神经网络开源工具包OpenHGNN-0.1.0版本。该开源工具包是以深度学习框架PyTorch与图神经网络框架DGL作为底层框架,设计了异质图神经网络训练流程的基本架构,集成了异质图神经网络SOTA模型。
主要特性:
- 简单易用:工具包提供了简单易用的接口来跑指定模型、数据集与任务下的实验。此外,我们还提供了超参数优化框架接口来简化基线测试实验。
- 可扩展性:用户可以自定义数据集、任务和模型来将模型应用到新的场景中。
- 高效性:使用DGL作为后端框架,并提供了相关高效操作算子接口。
9/14/2021
KDD 2021图深度学习Workshop最佳论文奖
与上海交通大学师生合作的新论文Bag of Tricks for Node Classification with Graph Neural Networks介绍了在节点分类问题中训练图神经网络时使用的数个有效技巧,以及它们的动机。
这些技巧包括将部分标签作为输入,使用更合适的损失函数,对模型设计进行的微调等。这些技巧的收效往往比对图神经网络模型本身的改动要好。许多OGB排位较高的代码也使用了我们的这些技巧。近期这篇论文获得了KDD 2021图深度学习Workshop最佳论文奖。
8/17/2021
7/26/2021
一篇新论文被ICCV 2021接收
研究院的一篇论文被ICCV'2021接收:Learning Hierarchical Graph Neural Networks for Image Clustering。本文提出了一种基于层次化图神经网络的有监督图像聚类算法Hi-LANDER。
该算法创新性地将上一阶段图神经网络输出转化为下一阶段的输入图结构,在不同规模不同分布的图像聚类数据集上相对于已有算法都取得了稳定的聚类效果提升。具体地,在聚类效果指标F-Score和NMI上,Hi-LANDER相比于其他基于图神经网络的算法分别取得了54%和8%的提升,同时在算法运行效率上也有明显提升。
7/22/2021
研究院的一篇论文被ICML 2021接收为长报告
研究院的一篇论文“Graph Neural Networks Inspired by Classical Iterative Algorithms”被ICML’2021接收为长报告。本文提出了一个基于图上能量最小化的图神经网络框架TWIRLS,这个框架将图上的消息传播解释为能量的梯度下降迭代过程。并且通过进一步添加对能量的鲁棒性的要求并用迭代重加权最小二乘法优化获得了一种注意力机制。实验表明TWIRLS可以有效的完成长距离的信息传播而免于过平滑化,并在图上防御、异质性的图的处理等方面都有良好的性能。
5/16/2021
DGL v0.6正式发布
DGL v0.6 终于如约而至。新版DGL在很多方面都做了重要的改进和提升。其中增加了新的入门教程和文档,新的API,同时对系统易用性和性能也做了一次大更新。让我们来看看新版本具体有哪些变化吧!
2/25/2021
研究院组队参加了WebNLG2020竞赛并获得佳绩
研究院组队参加了WebNLG2020竞赛,并在graph-to-text (35个参赛系统)和text-to-graph (4个参赛系统)两个项目上都取得了自动评测第一名的成绩。并且我们提交的无监督方法,CycleGT分列在两个项目中第10名和第3名。
此外,我们的graph-to-text系统在人工评测中也取得了第一名,结合自动评测的第一名,我们的系统在所有门类中都取得了最好成绩。同时,我们有两篇文章被WebNLG2020 workshop接受,我们的无监督方法 CycleGT和取得最好成绩系统的技术报告。无监督和有监督系统都是开源的,无监督代码,有监督代码。
12/18/2020
DGL助力亚马逊云科技新的服务-使用图神经网络完成图数据预测
2020年12月8日的re:invent20,Amazon 宣布推出 Amazon Neptune ML,这是 Amazon Neptune 的一项新功能。它采用的图形神经网络 (GNN) 是一种专为图形而构建的机器学习 (ML) 技术,能够通过使用图形数据,轻松、快速和准确地进行预测。使用 GNN 后,大多数图形预测的准确性可以提高 50% 以上。
12/8/2020
DGL 0.5.3补丁更新
DGL 0.5.3是主要支持 CUDA 11.0 的补丁版本。目前 DGL 支持 Linux/Windows/Mac 的CUDA 11.0 和 PyTorch 1.7。
12/4/2020
8/26/2020
利用深度图技术帮助抗击新冠疫情
亚马逊云科技近期公开发布的一个用于大规模药物重定位(老药新用)的知识图谱DRKG (Drug Repurposing Knowledge Graph),以及一套完整的用于药物重定位研究的机器学习工具,用于抗击新冠疫情。DRKG成功入选2021世界人工智能大会SAIL奖TOP30榜单。
6/9/2020
Amazon SageMaker 现已推出对 Deep Graph Library (DGL) 的支持:构建和训练图神经网络
2019年12月3日的re:Invent19, Amazon SageMaker 推出对 Deep Graph Library (DGL) 的支持。借助 DGL,您可以使用图神经网络 (GNN) 提高推荐、欺诈检测和药物发现系统的预测准确性。