Atlas Stream Processing を使い始める

項目一覧

前提条件
手順
Atlas で、プロジェクトの [Stream Processing] ページに移動します。
Atlas Stream Processing インスタンスの作成。
Atlas Stream Processing インスタンスの接続文字列を取得します。
MongoDB Atlas 接続を接続レジストリに追加します。
ストリーミングデータソースがメッセージを発行することを確認します。
永続的なストリームプロセッサを作成します。
ストリームプロセッサを起動します。
ストリームプロセッサの出力を確認します。
ストリームプロセッサを削除します。
次のステップ

このチュートリアルでは、Atlas Stream Processing を設定し、最初のストリームプロセッサを実行する手順について説明します。

前提条件

Atlas のサンプルデータセットからの映画データを含むコレクションを使用します。

Atlas プロジェクト
mongoshバージョン2.0以上
Atlas userで、ストリームプロセシングインスタンスと接続レジストリを管理するためのProject OwnerまたはProject Stream Processing Ownerロールを持つ Atlas ユーザー
注意
Project Ownerロールでは、データベース配置の作成、プロジェクトアクセスとプロジェクト設定の管理、IP アクセスリストエントリの管理などを行うことができます。
Project Stream Processing Ownerロールにより、ストリームプロセシングインスタンスの表示、作成、削除、編集などの Atlas Stream Processing アクションや、接続レジストリ内の接続の表示、追加、変更、削除などの Atlas Stream Processing アクションが可能になります。
2 つのロールの違いの詳細については、「プロジェクトロール」を参照してください。
ストリームプロセッサを作成および実行するatlasAdminロールを持つデータベースユーザー
Atlas クラスター

手順

Atlas で、プロジェクトの [Stream Processing] ページに移動します。

まだ表示されていない場合は、プロジェクトを含む組織をナビゲーションバーの Organizations メニューで選択します。
まだ表示されていない場合は、ナビゲーションバーの Projects メニューからプロジェクトを選択します。
サイドバーで、 Services見出しの下のStream Processingをクリックします。
Atlas Stream Processingページが表示されます。

Atlas Stream Processing インスタンスの作成。

右下隅の [ Get Startedをクリックします。 Atlas では、Atlas Stream Processing の主要コンポーネントについて簡単に説明しています。
Create instanceボタンをクリックします。
Create a stream processing instanceページで、インスタンスを次のように構成します。
- Tier: SP30
- Provider: AWS
- Region: us-east-1
- Instance Name: tutorialInstance
[Create] をクリックします。

Atlas Stream Processing インスタンスの接続文字列を取得します。

Atlas Stream Processing インスタンスの概要パネルを見つけて、 Connectをクリックします。
I have the MongoDB shell installed を選択します。
Select your mongo shell versionドロップダウンメニューから、 mongoshの最新バージョンを選択します。
Run your connection string in your command line の下に提供される接続文字列をコピーします。これは後の手順で必要になります。
[Close] をクリックします。

MongoDB Atlas 接続を接続レジストリに追加します。

この接続は、ストリーミングデータシンクとして機能します。

Atlas Stream Processing インスタンスのペインで、 Configureをクリックします。
[ Connection Registryタブで、右上の [ + Add Connection ] をクリックします。
[ Atlas Databaseをクリックします。 Connection Nameフィールドにmongodb1と入力します。 Atlas Clusterドロップダウンから、データが保存されていない Atlas クラスターを選択します。
[Add connection] をクリックします。

ストリーミングデータソースがメッセージを発行することを確認します。

ストリームプロセシングインスタンスには、 sample_stream_solarというサンプルデータソースへの接続が事前に構成されています。このソースは、さまざまなソートデバイスからのレポートのストリームを生成します。各レポートには、特定の時点における単一のソートデバイスの測定値と温度、およびそのデバイスの最大出力サイズが記載されています。

次のドキュメントは、その一般的な例です。

{
  device_id: 'device_8',
  group_id: 7,
  timestamp: '2024-08-12T21:41:01.788+00:00',
  max_watts: 450,
  event_type: 0,
  obs: {
    watts: 252,
    temp: 17
  }
}

このソースがメッセージを発行することを確認するには、ストリームプロセッサを対話的に作成します。

希望のターミナルアプリケーションを開きます。
mongoshを使用してストリームプロセシングインスタンスに接続します。
前の手順でコピーしたmongosh接続文字列をターミナルに貼り付けます。ここで、<atlas-stream-processing-url> はストリームプロセシングインスタンスのURL 、<username> はatlasAdminロールを持つユーザーです。
```
mongosh "mongodb://<atlas-stream-processing-url>/"
--tls --authenticationDatabase admin --username <username>
```
パスワードの入力を求められたら、入力します。
ストリームプロセッサを作成します。
次のコードをmongoshプロンプトにコピーします。
```
sp.process([{"$source": {
   "connectionName": "sample_stream_solar"
}}])
```
sample_stream_solar接続からのデータがコンソールに表示されていることを確認し、プロセスを終了します。
sp.process()を使用して作成したストリームプロセッサは、終了後に永続することはありません。

永続的なストリームプロセッサを作成します。

集計パイプラインを使用すると、取り込まれる各ドキュメントを変換できます。次の集計パイプラインは、1 秒間隔で各ソートデバイスの最大温度と平均、中央値、最大および最小出力を出力します。

$sourceステージを構成します。
次の $source ステージは、sample_stream_solar ソースからデータを取り込みます。
```
let s = {
   $source: {
      connectionName: "sample_stream_solar"
   }
}
```

$groupステージを構成します。

次の$group ステージでは、すべての受信データがgroup_id obs.tempobs.wattsgroup_idに従って整理され、各のすべてのドキュメントのフィールドとフィールドの値を累積して、必要なデータを生成します。

let g = {
   $group: {
      _id: "$group_id",
      max_temp: {
         $avg: "$obs.temp"
      },
      avg_watts: {
         $min: "$obs.watts"
      },
      median_watts: {
         $min: "$obs.watts"
      },
      max_watts: {
         $max: "$obs.watts"
      },
      min_watts: {
         $min: "$obs.watts"
      }
   }
}

$tumblingWindowステージを構成します。
ストリーミングデータで $group などのアキュムレーションを実行するために、 Atlas Stream ProcessingはWindowsを使用してデータセットをバインドします。次の$tumblingWindowステージでは、ストリームを連続する10秒間隔に分割します。
つまり、たとえば、 $groupステージがmedian_wattsの値を計算する場合、過去10秒に特定のgroup_idが取り込まれたすべてのドキュメントに対してobs.watts値が使用されます。
```
 let t = {
 $tumblingWindow: {
   interval: {
     size: NumberInt(10),
     unit: "second"
   },
    pipeline: [g]
  }
}
```
$mergeステージを構成します。
$mergeでは、処理されたストリーミングデータを Atlas データベースに書込むことができます。
```
let m = {
   $merge: {
      into: {
         connectionName: "mongodb1",
         db: "solarDb",
         coll: "solarColl"
      }
   }
}
```
ストリームプロセッサを作成します。
新しいストリームプロセッサに名前を割り当て、各ステージを順番に一覧表示してその集計パイプラインを宣言します。 $groupステージは$tumblingWindowのネストされたパイプラインに属しており、プロセッサパイプライン定義にこれを含めることはできません。
```
sp.createStreamProcessor("solarDemo", [s, t, m])
```

これにより、以前に定義されたクエリを適用し、接続したクラスター上のsolarDbデータベースのsolarCollコレクションに処理されたデータを書込むsolarDemoという名前のストリームプロセッサが作成されます。ソートデバイスからの10秒間隔の観察から派生したさまざまな測定値を返します。

Atlas Stream Processing が保管中のデータベースに書き込む方法の詳細については、 $mergeを参照してください。

ストリームプロセッサを起動します。

mongoshで次のコマンドを実行します。

sp.solarDemo.start()

ストリームプロセッサの出力を確認します。

プロセッサがアクティブであることを確認するには、 mongoshで次のコマンドを実行します。

sp.solarDemo.stats()

このコマンドは、 solarDemoストリームプロセッサの運用統計を報告します。

ストリームプロセッサが Atlas クラスターにデータを書き込んだことを確認するには、次の手順を実行します。

Atlas で、プロジェクトの [Clusters] ページに移動します。
1. まだ表示されていない場合は、希望するプロジェクトを含む組織を選択しますナビゲーションバーのOrganizationsメニュー
2. まだ表示されていない場合は、ナビゲーションバーのProjectsメニューから目的のプロジェクトを選択します。
3. まだ表示されていない場合は、サイドバーの [Clusters] をクリックします。
  [ Clusters （クラスター） ] ページが表示されます。
クラスターの [Browse Collections] ボタンをクリックします。
Data Explorerが表示されます。
MySolarコレクションを表示します。

あるいは、 mongoshを使用して、処理されたドキュメントのサンプルをターミナルに表示することもできます。

sp.solarDemo.sample()

{
  _id: 10,
  max_watts: 136,
  min_watts: 130,
  avg_watts: 133,
  median_watts: 130,
  max_temp: 7
}

注意

前述の例はその一般的な例です。ストリーミングデータは静的ではなく、各ユーザーに異なるドキュメントが表示されます。

ストリームプロセッサを削除します。

mongoshで次のコマンドを実行します。

sp.solarDemo.drop()

avgWattsを削除したことを確認するには、使用可能なすべてのストリームプロセッサを一覧表示します。

sp.listStreamProcessors()

次のステップ

次の方法を学習します：

戻る

Overview

ストリームプロセッサ Windows