发布于: Nov 30, 2022

【概要】在这篇博文中,我们演示了如何利用 NER 和主题建模将 Amazon 服务用于社交媒体数据分析。

自然语言处理 (NLP) 与人工智能的关系密不可分,除此之外其还设计计算机科学与语言学,是计算机与人类语言之间的交互。NLP 的目标是让计算机理解人类所说和所写的内容,并以同样的方式进行交流。 NLP 在过去十年中一直是一个有趣的领域,伴随着人们对自动化信息提取、处理和生成业务价值的期望越来越高。通常,专业知识领域的上下文和非结构化数据会给 NLP 增加额外的难度。

命名实体识别(NER)是 NLP 的一类子任务,专注于信息提取、实体定位和文本分类。它用于将非结构化文本中的命名实体映射到预定义的类别,例如人名、组织、医疗代码、货币价值 。 NER 可用于构建语义搜索引擎并帮助提高文档的性能和索引。现在著名的 NER 平台包括 GATE、OpenNLP 和 SpaCy。

另一方面,主题模型是用来探索和提取文本主题的统计模型,而主题建模通常用于文本挖掘,以发现文本正文中隐藏的语义结。

在这篇博文中,我们演示了如何利用 NER 和主题建模将 Amazon 服务用于社交媒体数据分析。我们应用 Amazon Comprehend 作为 NER 步骤来微调 Amazon Web Services 中的预训练语言模型。选择社交媒体数据的原因是为了简单起见,并避免行业(例如金融服务和医疗保健)特定术语带来的额外复杂性。事实上,对于热衷于通过社交聆听监控其品牌的企业来说,更好地了解社交媒体数据的背景和分类是至关重要的。 

 

Amazon Web Services 提供了广泛的自然语言处理服务,帮助客户轻松利用基于机器学习的模型,构建 AI 应用程序,用于文本分析、聊天机器人、语言翻译、情感分析、语音识别等领域。Amazon Transcribe 是一项自动将语音转换为文本的语言处理服务。它使用一种称为自动语音识别的深度学习过程,可用于为媒体资产添加字幕,将客户服务电话数字化为文本,以创建存档或开展进一步的分析。 Amazon Web Services 还提供了一项名为 Amazon Polly 的服务,用于将文本转换为逼真的人类语音。 Amazon Translate 是另一种基于深度学习的语言服务,可以支持 71 种语言和变体之间的翻译。此外,Amazon Web Services 提供了功能强大的语言服务 Amazon Lex,它作为在 Amazon Alexa上得到应用的底层技术,可基于其语音识别、自然语言理解和生成模型,轻松构建出成熟的聊天机器人。

除了上述服务外,Amazon Comprehend 是 Amazon Web Services 中另一项功能强大的自然语言处理服务,它使用机器学习技术来提取文本中的信息,并揭示有价值的见解。 Amazon Comprehend 原生支持实体识别操作,可以检测文本中的日期、事件、位置、人物等实体。除了预设的通用实体类型外,Amazon Comprehend 还支持自定义实体识别,让用户能够创建自定义模型来识别新的实体类型。

Amazon Comprehend 还提供主题建模 API,用于将文档语料库组织成主题。通过主题建模,每个文档都是整个语料库中主题的组合,而每个主题是单词的统计分布。主题建模提供的见解在信息检索、文档分类和文档摘要等领域有重要用途。Amazon Comprehend 内置了两种主题建模算法:Amazon SageMaker 神经主题模型 (NTM) 和 Amazon SageMaker 潜在狄利克雷分配 (LDA)。在 SageMaker NTM 中,主题建模由基于神经网络的变分推理框架实现,该框架可以从语料库的单词分布中学习与文档相关的主题。

 

相关文章