Docs Menu
Docs Home
/ /
MongoDB
Atlas Data Lake
/

Atlas Data Lake パイプラインの作成 - プレビュー

項目一覧

  • 前提条件
  • 手順
  • 次のステップ

Atlas Data Lake パイプラインは、 Atlas UI 、 Data Lake パイプラインAPI 、 Atlas CLI を使用して作成できます。 このページでは、Atlas Data Lake パイプラインを作成する手順について説明します。

始める前に、以下のものを用意してください。

  • バックアップ有効 M10 またはそれ以上の Atlas クラスター。

  • Project Owner Data Lake を配置するプロジェクトのロール

  • クラスターにロードされたサンプル データ(次の手順の例を試したい場合)。

Atlas CLI を使用して新しい Data Lake パイプラインを作成するには、次のコマンドを実行します。

atlas dataLakePipelines create <pipelineName> [options]

コマンド構文とパラメーターの詳細については、 Atlas CLIドキュメントのAtlas dataLakeパイプライン 作成を参照してください。

Tip

参照: 関連リンク

Atlas CLI を使用して指定された Data Lake パイプラインの完了を監視するには、次のコマンドを実行します。

atlas dataLakePipelines watch <pipelineName> [options]

コマンド構文とパラメーターの詳細については、 Atlas CLIドキュメントのAtlas dataLakepipelines watch を参照してください。

APIを介して Atlas Data Lake パイプラインを作成するには、 Data Lake pipelinesエンドポイントにPOSTリクエストを送信します。 パイプラインを作成するためのpipelinesエンドポイントの構文とパラメータの詳細については、「 Data Lake パイプラインを 1 つ作成する 」を参照してください。

Tip

Data Lakeが利用可能なスケジュール エンドポイントにGETリクエストを送信すると、 PERIODIC_DPSタイプの Data Lake パイプラインを作成するために使用できるバックアップ スケジュール ポリシー項目の一覧が取得できます。

1
2
  1. まだ表示されていない場合は、プロジェクトを含む組織を から選択します。ナビゲーション バーの [ Organizations ] メニューを参照してください。

  2. まだ表示されていない場合は、ナビゲーション バーの Projects メニューからプロジェクトを選択します。

  3. サイドバーで、 Deployment見出しの下のData Lakeをクリックします。

3
4

ワークロードを分離して分析クエリ用に最適化された MongoDB が管理するクラウド オブジェクト ストレージの Atlas クラスターにデータのコピーを作成できます。

パイプラインを設定するには、 Setup Pipelineページで次の内容を指定します。

  1. ドロップダウンから Atlas クラスターを選択します。

    クラスターにサンプル データをロードした場合は、サンプル データをロードした Atlas クラスターを選択します。

  2. ドロップダウンから指定クラスター上のデータベースを選択するか、ドロップダウンにデータベースがリストされていない場合は フィールドにデータベース名を入力します。

    Atlas Data Lake は、指定されたクラスターのデータベース名を取得できない場合、データベースを表示しません。

    サンプル データが読み込まれるクラスターを選択した場合は、 sample_mflixを選択します。

  3. ドロップダウンから指定されたデータベース内のコレクションを選択するか、コレクションが利用できない場合は フィールドにコレクション名を入力します。

    Atlas Data Lake は、指定されたクラスターのコレクション名前空間を取得できない場合、コレクションを表示しません。

    Atlas Data Lake では、パイプラインのデータソースとしてビューをサポートしていません。 クラスターからコレクションを選択する必要があります。

    sample_mflixデータベースを選択した場合は、 sample_mflixデータベースでmoviesコレクションを選択します。

  4. パイプラインの名前を入力します。

    Atlas Data Lake パイプライン名は64文字を超えることはできず、次の要素を含めることはできません。

    • フォワードスラッシュ( / )、

    • バックスラッシュ( \

    • 空のスペース

    • ドル記号( $

    このチュートリアルの例に従う場合は、 Pipeline Nameフィールドにsample_mflix.moviesを入力します。

  5. [Continue] をクリックします。

5

Atlas バックアップ スナップショットからクラスター データを抽出し、Data Lake データセットに取り込む頻度を指定できます。 各スナップショットは、ワークロードが分離された分析ストレージに保存されるその時点でのデータを表します。 Data Lake データセット内の任意のスナップショット データをクエリできます。

Basic ScheduleまたはOn Demandを選択できます。

Basic Schedule を使用すると、利用可能なスナップショットからデータを自動的に取り込む頻度を定義できます。 次のスケジュールから選択する必要があります。 バックアップ スケジュールと同様のSnapshot Scheduleを選択します。

  • 毎日

  • 毎週土曜日

  • 月末日

たとえば、 Every dayを選択した場合、ポリシーでDailyバックアップ スケジュールを構成する必要があります。 または、1 週間に 1 回のスケジュールを選択する場合は、ポリシーでWeeklyバックアップ スケジュールを設定する必要があります。 詳細については、「バックアップ スケジュール」を参照してください。 Data Lake パイプラインで使用できるバックアップ スケジュール ポリシー項目のリストを取得するには、 Data LakeavailableSchedulesエンドポイントにGETリクエストを送信します。

このチュートリアルでは、バックアップ スケジュールがまだない場合は、 Snapshot ScheduleドロップダウンからDailyを選択します。 バックアップ スケジュールがある場合、使用可能なオプションは、バックアップ スケジュールに設定したスケジュールに基づいています。

On Demand を使用すると、利用可能なスナップショットからのデータの取り込みをいつでも手動でtriggerできます。

このチュートリアルでは、On Demand を選択した場合、パイプラインを作成した後、スナップショットからのデータの取り込みを手動でtriggerする必要があります。 詳しくは、「オンデマンドでのデータ取り込み - trigger 」を参照してください。

6

Atlas Data Lakeは、次のAmazon Web Servicesリージョンで最適化されたストレージを提供します。

Data Lake リージョン
AWS リージョン
Virginia, USA
us-east-1
米国ワシントン州
us-west-2
サンパウロ(ブラジル)
sa-east-1
アイルランド
eu-west-1
英国(ソウル)
eu-west-2
フランクフルト(ドイツ)
eu-central-1
ムバイ(インド)
ap-outth-1
香港
ap-sautheast-1
オーストラリア、シドニー
ap-sautheast-2

デフォルトでは、Atlas Data Lake は、抽出されたデータを保存するために、Atlas クラスターに最も近いリージョンを自動的に選択します。 Atlas Data Lake がリージョンを判断できない場合、デフォルトはus-east-1になります。

7

Partition Attributesセクションの コレクションから最も頻繁にクエリされるフィールドを入力します。 ネストされたフィールドを指定するには、ドット表記を使用します。 ドット表記を使用して指定するネストされたフィールドの前後に引用符を含めないでください( "" )。 配列内でフィールドを指定することはできません。 指定されたフィールドは、データのパーティション分割に使用されます。

警告

パーティション分割にはピリオド( . )を含むフィールド名は指定できません。

最も頻繁にクエリされるフィールドは、リストの下に表示されているフィールドよりもパフォーマンスとコストへの影響が大きいため、上部に表示する必要があります。 フィールドの順序は、複合インデックスの場合と同様に重要です。 データは、最初のフィールド、その後 2 番目のフィールドという順にクエリ用に最適化されます。

Most commonly queried fieldフィールドにyearを入力し、 Second most commonly queried fieldフィールドにtitleを入力します。

Atlas Data Lake は、 yearフィールド、その後にtitleフィールドのパフォーマンスを最適化します。 Data Lake データセットにフェデレーティッドデータベースインスタンスを構成すると、Atlas Data Federation は次のフィールドに対するクエリのパフォーマンスを最適化します。

  • yearフィールド

  • yearフィールドとtitleフィールド。

Atlas Data Federation は、 titleフィールドのみのクエリもサポートできます。 ただし、この場合、クエリがtitleフィールドのみにある場合のように、Atlas Data Federation はクエリをサポートする際に効率的ではありません。 パフォーマンスは順番に最適化されます。クエリが特定のパーティションを省略する場合、Atlas Data Federation はそれに続くパーティションの使用効率を低下させます。

ここで指定されていないフィールドに対して Atlas Data Federation のクエリを実行できますが、Atlas Data Lake はこのようなクエリを処理するのは効率が低くなります。

8

デフォルトでは、Atlas Data Lake はコレクション内のドキュメント内のすべてのフィールドを抽出して保存します。 除外するフィールドを指定するには:

  1. [Add Field] をクリックします。

  2. Add Transformation Field Nameウィンドウにフィールド名を入力します。

    (任意) moviesコレクションでfullplotという名前のフィールドを除外するには、 fullplotと入力します。

  3. [Done] をクリックします。

  4. 除外するフィールドごとに手順を繰り返します。 このリストからフィールドを削除するには、次をクリックします:

9

Data Lake パイプラインを作成したので、「 データセット用のフェデレーティッドデータベースインスタンスの設定 - プレビュー 」に進みます。

戻る

はじめる