Docs 菜单
Docs 主页
/ /
MongoDB Atlas Data Lake
/

创建Atlas Data Lake管道 — 预览

在此页面上

  • 先决条件
  • 步骤
  • 后续步骤

您可以使用 Atlas 用户界面、Data Lake 管道API和 Atlas CLI 创建 Atlas Data Lake 管道。 本页将指导您完成创建 Atlas Data Lake 管道的步骤。

在开始之前,您必须具备以下条件:

  • 已启用备份 M10 或更高版本的 Atlas 集群。

  • Project Owner 要为其部署 Data Lake 的项目的角色。

  • 在集群上加载的样本数据(如果您想尝试以下过程中的示例)。

如需使用 Atlas CLI 创建新的 Data Lake 管道,请运行以下命令:

atlas dataLakePipelines create <pipelineName> [options]

要学习;了解有关命令语法和参数的更多信息,请参阅Atlas CLI AtlasdataLakePipelines create 的 文档。

提示

请参阅:相关链接

如需使用 Atlas CLI 观察指定数据湖管道是否完成,请运行以下命令:

atlas dataLakePipelines watch <pipelineName> [options]

要学习;了解有关命令语法和参数的更多信息,请参阅Atlas CLIAtlas dataLakePipelines 监视 的 文档。

提示

请参阅:相关链接

要通过API创建Atlas Data Lake管道,请向Atlas 数据湖 pipelines端点发送POST请求。 要学习;了解有关用于创建管道的pipelines端点语法和参数的更多信息,请参阅创建单个Atlas 数据湖管道。

提示

您可以向Atlas 数据湖 availableSchedules端点发送GET请求,以检索可用于创建PERIODIC_DPS类型的Atlas 数据湖管道的备份安排策略项列表。

1
2
  1. 如果尚未显示,请选择包含您的项目的组织导航栏中的 Organizations菜单。

  2. 如果尚未显示,请从导航栏的 Projects 菜单中选择您的项目。

  3. 在侧边栏中,单击 Deployment 标题下的 Data Lake

3
4

您可以在MongoDB托管的云对象存储中创建Atlas 集群上的数据副本,该存储针对具有工作负载隔离性功能的分析查询进行了优化。

要设立管道,请在Setup Pipeline页面中指定以下内容:

  1. 从下拉列表中选择Atlas 集群。

    例子

    如果已在集群上加载示例数据,请选择已加载示例数据的Atlas 集群。

  2. 从下拉列表中选择指定集群上的数据库,如果下拉列表中未列出该数据库,请在字段中键入数据库名称。

    如果Atlas Data Lake无法获取指定集群的数据库名称,则不会显示该数据库。

    例子

    如果您选择了加载示例数据的集群,请选择sample_mflix

  3. 从下拉列表中选择指定数据库中的集合;如果该集合不可用,请在字段中键入集合名称。

    如果 Atlas Data Lake 无法获取指定集群的集合命名空间,则不会显示该集合。

    Atlas Data Lake不支持将视图作为管道的数据源。 您必须从集群中选择一个集合。

    例子

    如果选择了sample_mflix数据库,请选择sample_mflix数据库中的movies集合。

  4. 输入管道名称。

    Atlas Data Lake管道名称不能超过64字符,并且不能包含:

    • 正斜杠 ( / )、

    • 反斜杠 ( \ )

    • 空格

    • 美元符号 ( $ )

    例子

    如果您正在按照本教程中的示例进行操作,请在Pipeline Name字段中输入sample_mflix.movies

  5. 单击 Continue(连接)。

5

您可以指定从Atlas备份Atlas 备份快照提取集群数据并将其引入Atlas 数据湖数据集的频率。 每个快照都代表该时间点的数据,这些数据存储在工作负载隔离的分析存储中。 您可以查询Atlas 数据湖数据集中的任何快照数据。

您可以选择Basic ScheduleOn Demand

Basic Schedule 允许您定义从可用快照自动摄取数据的频率。 您必须从以下时间表中进行选择。 选择与您的备份安排类似的Snapshot Schedule

  • 每天

  • 每周六

  • 每月最后一天

示例,如果选择Every day ,则必须在策略中配置Daily备份安排。 或者,如果要选择每周一次的安排,则必须在策略中配置Weekly备份安排。 要学习;了解更多信息,请参阅备份计划。 您可以向Atlas 数据湖 availableSchedules端点发送GET请求,以检索可在Atlas 数据湖管道中使用的备份安排策略项列表。

例子

对于本教程,如果您还没有备份安排,请从Snapshot Schedule下拉列表中选择Daily 。 如果您有备份安排,则可用选项基于您为备份安排设立的安排。

On Demand 允许您随时手动trigger从可用快照中摄取数据。

例子

在本教程中,如果您选择 On Demand,则必须在创建管道后手动trigger从快照中摄取数据。 要学习;了解更多信息,请参阅trigger按需数据引入 - 预览。

6

Atlas Data Lake 在以下 AWS 地区提供优化的存储:

数据湖区域
AWS 区域
Virginia, USA
us-east-1
美国俄勒冈州
us-west-2
巴西圣保罗
sa-east-1
爱尔兰
eu-west-1
英国伦敦
eu-west-2
德国法兰克福
eu-central-1
印度孟买
ap-south-1
新加坡
ap-southeast-1
澳大利亚悉尼
亚太东南部-2

默认, Atlas Data Lake会自动选择距离Atlas 集群最近的地区来存储提取的数据。 如果Atlas Data Lake无法确定地区,则默认为us-east-1

7

Partition Attributes部分输入集合中最常查询的字段。 要指定嵌套字段,请使用点表示法。 不要在使用点表示法指定的嵌套字段两边加上引号 ( "" )。 不能在大量内指定字段。 指定的字段用于对数据进行分区。

警告

不能指定包含句号 (.) 的字段名进行分区。

最常查询的字段应列在顶部,因为它们比列在列表下方的字段对性能和费用的影响更大。 字段的顺序与复合索引一样重要。 按第一个字段为查询优化数据,然后是第二个字段,依此类推。

例子

在 字段中输入 yearMost commonly queried field,并在titleSecond most commonly queried field 字段中输入 。

Atlas Data Lake首先针对year字段优化性能,然后针对title字段进行性能优化。 如果您为Atlas 数据湖数据集配置联合数据库实例, Atlas Data Federation会优化以下字段的查询性能:

  • year字段,以及

  • year字段和title字段。

Atlas Data Federation还可以支持仅对title字段的查询。 但是,在这种情况下, Atlas Data Federation在支持查询方面的效率不如查询仅针对title字段。 性能按顺序优化;如果查询省略了特定分区, Atlas Data Federation在使用该分区之后的任何分区时效率会降低。

您可以对此处未指定的字段运行Atlas Data Federation查询,但Atlas Data Lake处理此类查询的效率较低。

8

默认, Atlas Data Lake会提取文档中的所有字段并将其存储在集合中。 要指定要排除的字段,请执行以下操作:

  1. 单击 Add Field(连接)。

  2. Add Transformation Field Name窗口中输入字段名称。

    例子

    (可选)输入fullplot以排除movies集合中名为fullplot的字段。

  3. 单击 Done(连接)。

  4. 对每个要排除的字段重复步骤。 要从此列表中删除字段,请单击

9

现在您已经创建了Atlas 数据湖管道,请继续参阅为数据集设置联合数据库实例 - 预览。

后退

开始体验