创建Atlas Data Lake管道 — 预览
您可以使用 Atlas 用户界面、Data Lake 管道API和 Atlas CLI 创建 Atlas Data Lake 管道。 本页将指导您完成创建 Atlas Data Lake 管道的步骤。
先决条件
在开始之前,您必须具备以下条件:
已启用备份
M10
或更高版本的 Atlas 集群。Project Owner
要为其部署 Data Lake 的项目的角色。
步骤
如需使用 Atlas CLI 创建新的 Data Lake 管道,请运行以下命令:
atlas dataLakePipelines create <pipelineName> [options]
要学习;了解有关命令语法和参数的更多信息,请参阅Atlas CLI AtlasdataLakePipelines create 的 文档。
观察管道是否完成
如需使用 Atlas CLI 观察指定数据湖管道是否完成,请运行以下命令:
atlas dataLakePipelines watch <pipelineName> [options]
要学习;了解有关命令语法和参数的更多信息,请参阅Atlas CLIAtlas dataLakePipelines 监视 的 文档。
要通过API创建Atlas Data Lake管道,请向Atlas 数据湖 pipelines
端点发送POST
请求。 要学习;了解有关用于创建管道的pipelines
端点语法和参数的更多信息,请参阅创建单个Atlas 数据湖管道。
提示
您可以向Atlas 数据湖 availableSchedules端点发送GET
请求,以检索可用于创建PERIODIC_DPS
类型的Atlas 数据湖管道的备份安排策略项列表。
登录 MongoDB Atlas 。
定义管道的数据源。
您可以在MongoDB托管的云对象存储中创建Atlas 集群上的数据副本,该存储针对具有工作负载隔离性功能的分析查询进行了优化。
要设立管道,请在Setup Pipeline页面中指定以下内容:
从下拉列表中选择Atlas 集群。
例子
如果已在集群上加载示例数据,请选择已加载示例数据的Atlas 集群。
从下拉列表中选择指定集群上的数据库,如果下拉列表中未列出该数据库,请在字段中键入数据库名称。
如果Atlas Data Lake无法获取指定集群的数据库名称,则不会显示该数据库。
例子
如果您选择了加载示例数据的集群,请选择
sample_mflix
。从下拉列表中选择指定数据库中的集合;如果该集合不可用,请在字段中键入集合名称。
如果 Atlas Data Lake 无法获取指定集群的集合命名空间,则不会显示该集合。
Atlas Data Lake不支持将视图作为管道的数据源。 您必须从集群中选择一个集合。
例子
如果选择了
sample_mflix
数据库,请选择sample_mflix
数据库中的movies
集合。输入管道名称。
Atlas Data Lake管道名称不能超过64字符,并且不能包含:
正斜杠 (
/
)、反斜杠 (
\
)空格
美元符号 (
$
)
例子
如果您正在按照本教程中的示例进行操作,请在Pipeline Name字段中输入
sample_mflix.movies
。单击 Continue(连接)。
指定集群数据的摄取安排。
您可以指定从Atlas备份Atlas 备份快照提取集群数据并将其引入Atlas 数据湖数据集的频率。 每个快照都代表该时间点的数据,这些数据存储在工作负载隔离的分析存储中。 您可以查询Atlas 数据湖数据集中的任何快照数据。
您可以选择Basic Schedule或On Demand 。
Basic Schedule 允许您定义从可用快照自动摄取数据的频率。 您必须从以下时间表中进行选择。 选择与您的备份安排类似的Snapshot Schedule :
每天
每周六
每月最后一天
示例,如果选择Every day
,则必须在策略中配置Daily
备份安排。 或者,如果要选择每周一次的安排,则必须在策略中配置Weekly
备份安排。 要学习;了解更多信息,请参阅备份计划。 您可以向Atlas 数据湖 availableSchedules端点发送GET
请求,以检索可在Atlas 数据湖管道中使用的备份安排策略项列表。
例子
对于本教程,如果您还没有备份安排,请从Snapshot Schedule下拉列表中选择Daily 。 如果您有备份安排,则可用选项基于您为备份安排设立的安排。
On Demand 允许您随时手动trigger从可用快照中摄取数据。
例子
在本教程中,如果您选择 On Demand,则必须在创建管道后手动trigger从快照中摄取数据。 要学习;了解更多信息,请参阅trigger按需数据引入 - 预览。
Amazon Web Services选择用于存储提取的数据的 地区。
Atlas Data Lake 在以下 AWS 地区提供优化的存储:
数据湖区域 | AWS 区域 |
---|---|
Virginia, USA | us-east-1 |
美国俄勒冈州 | us-west-2 |
巴西圣保罗 | sa-east-1 |
爱尔兰 | eu-west-1 |
英国伦敦 | eu-west-2 |
德国法兰克福 | eu-central-1 |
印度孟买 | ap-south-1 |
新加坡 | ap-southeast-1 |
澳大利亚悉尼 | 亚太东南部-2 |
默认, Atlas Data Lake会自动选择距离Atlas 集群最近的地区来存储提取的数据。 如果Atlas Data Lake无法确定地区,则默认为us-east-1
。
指定集合中的字段以创建分区。
在Partition Attributes部分输入集合中最常查询的字段。 要指定嵌套字段,请使用点表示法。 不要在使用点表示法指定的嵌套字段两边加上引号 ( ""
)。 不能在大量内指定字段。 指定的字段用于对数据进行分区。
警告
不能指定包含句号 (.
) 的字段名进行分区。
最常查询的字段应列在顶部,因为它们比列在列表下方的字段对性能和费用的影响更大。 字段的顺序与复合索引一样重要。 按第一个字段为查询优化数据,然后是第二个字段,依此类推。
例子
在 字段中输入 year
Most commonly queried field,并在title
Second most commonly
queried field 字段中输入 。
Atlas Data Lake首先针对year
字段优化性能,然后针对title
字段进行性能优化。 如果您为Atlas 数据湖数据集配置联合数据库实例, Atlas Data Federation会优化以下字段的查询性能:
year
字段,以及year
字段和title
字段。
Atlas Data Federation还可以支持仅对title
字段的查询。 但是,在这种情况下, Atlas Data Federation在支持查询方面的效率不如查询仅针对title
字段。 性能按顺序优化;如果查询省略了特定分区, Atlas Data Federation在使用该分区之后的任何分区时效率会降低。
您可以对此处未指定的字段运行Atlas Data Federation查询,但Atlas Data Lake处理此类查询的效率较低。
后续步骤
现在您已经创建了Atlas 数据湖管道,请继续参阅为数据集设置联合数据库实例 - 预览。