创建Atlas Data Lake管道 — 预览

在此页面上

先决条件
步骤
后续步骤

Atlas 数据湖已弃用。 自2024 9 月起， Atlas 数据湖已被弃用并将结束生命周期。将于 9 月30 , 2025删除。如果您使用Atlas 数据湖，则应在服务被删除之前迁移到替代解决方案。要学习；了解更多信息，请参阅 Atlas Data Lake弃用指南。

您可以使用 Atlas 用户界面、Data Lake 管道API和 Atlas CLI 创建 Atlas Data Lake 管道。本页将指导您完成创建 Atlas Data Lake 管道的步骤。

先决条件

在开始之前，您必须具备以下条件：

已启用备份 M10 或更高版本的 Atlas 集群。
Project Owner 要为其部署 Data Lake 的项目的角色。
在集群上加载的样本数据（如果您想尝试以下过程中的示例）。

步骤

如需使用 Atlas CLI 创建新的 Data Lake 管道，请运行以下命令：

atlas dataLakePipelines create <pipelineName> [options]

要学习；了解有关命令语法和参数的更多信息，请参阅Atlas CLI AtlasdataLakePipelines create 的文档。

提示

请参阅：相关链接

观察管道是否完成

如需使用 Atlas CLI 观察指定数据湖管道是否完成，请运行以下命令：

atlas dataLakePipelines watch <pipelineName> [options]

要学习；了解有关命令语法和参数的更多信息，请参阅Atlas CLIAtlas dataLakePipelines 监视的文档。

提示

请参阅：相关链接

要通过API创建Atlas Data Lake管道，请向Atlas 数据湖 pipelines端点发送POST请求。要学习；了解有关用于创建管道的pipelines端点语法和参数的更多信息，请参阅创建单个Atlas 数据湖管道。

提示

您可以向Atlas 数据湖 availableSchedules端点发送GET请求，以检索可用于创建PERIODIC_DPS类型的Atlas 数据湖管道的备份安排策略项列表。

登录 MongoDB Atlas 。

GoAtlas Data LakeAtlas 用户界面中的Atlas 。

如果尚未显示，请选择包含您的项目的组织导航栏中的 Organizations菜单。
如果尚未显示，请从导航栏的 Projects 菜单中选择您的项目。
在侧边栏中，单击 Deployment 标题下的 Data Lake。

单击 Add Data Lake Pipeline。

定义管道的数据源。

您可以在MongoDB托管的云对象存储中创建Atlas 集群上的数据副本，该存储针对具有工作负载隔离性功能的分析查询进行了优化。

要设立管道，请在Setup Pipeline页面中指定以下内容：

从下拉列表中选择Atlas 集群。
例子
如果已在集群上加载示例数据，请选择已加载示例数据的Atlas 集群。
从下拉列表中选择指定集群上的数据库，如果下拉列表中未列出该数据库，请在字段中键入数据库名称。
如果Atlas Data Lake无法获取指定集群的数据库名称，则不会显示该数据库。
例子
如果您选择了加载示例数据的集群，请选择sample_mflix 。
从下拉列表中选择指定数据库中的集合；如果该集合不可用，请在字段中键入集合名称。
如果 Atlas Data Lake 无法获取指定集群的集合命名空间，则不会显示该集合。
Atlas Data Lake不支持将视图作为管道的数据源。您必须从集群中选择一个集合。
例子
如果选择了sample_mflix数据库，请选择sample_mflix数据库中的movies集合。
输入管道名称。
Atlas Data Lake管道名称不能超过64字符，并且不能包含：
- 正斜杠 ( / )、
- 反斜杠 ( \ )
- 空格
- 美元符号 ( $ )
例子
如果您正在按照本教程中的示例进行操作，请在Pipeline Name字段中输入sample_mflix.movies 。
单击 Continue（连接）。

指定集群数据的摄取安排。

您可以指定从Atlas备份Atlas 备份快照提取集群数据并将其引入Atlas 数据湖数据集的频率。每个快照都代表该时间点的数据，这些数据存储在工作负载隔离的分析存储中。您可以查询Atlas 数据湖数据集中的任何快照数据。

您可以选择Basic Schedule或On Demand 。

Basic Schedule 允许您定义从可用快照自动摄取数据的频率。您必须从以下时间表中进行选择。选择与您的备份安排类似的Snapshot Schedule ：

每天
每周六
每月最后一天

示例，如果选择Every day ，则必须在策略中配置Daily备份安排。或者，如果要选择每周一次的安排，则必须在策略中配置Weekly备份安排。要学习；了解更多信息，请参阅备份计划。您可以向Atlas 数据湖 availableSchedules端点发送GET请求，以检索可在Atlas 数据湖管道中使用的备份安排策略项列表。

例子

对于本教程，如果您还没有备份安排，请从Snapshot Schedule下拉列表中选择Daily 。如果您有备份安排，则可用选项基于您为备份安排设立的安排。

On Demand 允许您随时手动trigger从可用快照中摄取数据。

例子

在本教程中，如果您选择 On Demand，则必须在创建管道后手动trigger从快照中摄取数据。要学习；了解更多信息，请参阅trigger按需数据引入 - 预览。

Amazon Web Services选择用于存储提取的数据的地区。

Atlas Data Lake 在以下 AWS 地区提供优化的存储：

数据湖区域	AWS 区域
Virginia, USA	us-east-1
美国俄勒冈州	us-west-2
巴西圣保罗	sa-east-1
爱尔兰	eu-west-1
英国伦敦	eu-west-2
德国法兰克福	eu-central-1
印度孟买	ap-south-1
新加坡	ap-southeast-1
澳大利亚悉尼	亚太东南部-2

默认， Atlas Data Lake会自动选择距离Atlas 集群最近的地区来存储提取的数据。如果Atlas Data Lake无法确定地区，则默认为us-east-1 。

指定集合中的字段以创建分区。

在Partition Attributes部分输入集合中最常查询的字段。要指定嵌套字段，请使用点表示法。不要在使用点表示法指定的嵌套字段两边加上引号 ( "" )。不能在大量内指定字段。指定的字段用于对数据进行分区。

警告

不能指定包含句号 (.) 的字段名进行分区。

最常查询的字段应列在顶部，因为它们比列在列表下方的字段对性能和费用的影响更大。字段的顺序与复合索引一样重要。按第一个字段为查询优化数据，然后是第二个字段，依此类推。

例子

在字段中输入 yearMost commonly queried field，并在titleSecond most commonly queried field 字段中输入。

Atlas Data Lake首先针对year字段优化性能，然后针对title字段进行性能优化。如果您为Atlas 数据湖数据集配置联合数据库实例， Atlas Data Federation会优化以下字段的查询性能：

year字段，以及
year字段和title字段。

Atlas Data Federation还可以支持仅对title字段的查询。但是，在这种情况下， Atlas Data Federation在支持查询方面的效率不如查询仅针对title字段。性能按顺序优化；如果查询省略了特定分区， Atlas Data Federation在使用该分区之后的任何分区时效率会降低。

您可以对此处未指定的字段运行Atlas Data Federation查询，但Atlas Data Lake处理此类查询的效率较低。

（可选）指定文档中要排除的字段。

默认， Atlas Data Lake会提取文档中的所有字段并将其存储在集合中。要指定要排除的字段，请执行以下操作：

单击 Add Field（连接）。
在Add Transformation Field Name窗口中输入字段名称。
例子
（可选）输入fullplot以排除movies集合中名为fullplot的字段。
单击 Done（连接）。
对每个要排除的字段重复步骤。要从此列表中删除字段，请单击。

单击Finish 以创建Atlas 数据湖。

后续步骤

现在您已经创建了Atlas 数据湖管道，请继续参阅为数据集设置联合数据库实例 - 预览。

后退

开始体验

来年

第 2 步：设置联合数据库实例

创建Atlas Data Lake管道 — 预览

先决条件

步骤

提示

请参阅：相关链接

观察管道是否完成

提示

请参阅：相关链接

提示

登录 MongoDB Atlas 。

GoAtlas Data LakeAtlas 用户界面 中的Atlas 。

单击 Add Data Lake Pipeline。

定义管道的数据源。

例子

例子

例子

例子

指定集群数据的摄取安排。

例子

例子

Amazon Web Services选择用于存储提取的数据的 地区。

指定集合中的字段以创建分区。

警告

例子

（可选）指定文档中要排除的字段。

例子

单击Finish 以创建Atlas 数据湖。

后续步骤

GoAtlas Data LakeAtlas 用户界面中的Atlas 。

Amazon Web Services选择用于存储提取的数据的地区。