Docs Menu
Docs Home
/
Spark Connector

FAQ

MongoDBは、どのSpark Connector 配置でも、DataFrame または Dataset の優先ロケーションをデータが存在する場所に設定します。

  • シャーディングされていない システムの場合、優先されるロケーションは、スタンドアロン またはレプリカセットのホスト名に設定されます。

  • シャーディングされたシステムの場合、シャードのホスト名に優先される場所を設定します。

データローカリティを高めるには、次のアクションを実行することをお勧めします。

mongodの混合バージョンを含む MongoDB の配置では、 Unrecognized pipeline stage name: '$sample'エラーが発生する可能性があります。 この状況を軽減するには、 DataFrames を使用するときに、使用するパーティションを明示的に構成し、 スキーマを定義します。

mTLS を使用するには、 spark-submitを実行するときに次のオプションを含めます。

--driver-java-options -Djavax.net.ssl.trustStore=<path to your truststore.jks file> \
--driver-java-options -Djavax.net.ssl.trustStorePassword=<your truststore password> \
--driver-java-options -Djavax.net.ssl.keyStore=<path to your keystore.jks file> \
--driver-java-options -Djavax.net.ssl.keyStorePassword=<your keystore password> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.trustStore=<path to your truststore.jks file> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.trustStorePassword=<your truststore password> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.keyStore=<path to your keystore.jks file> \
--conf spark.executor.extraJavaOptions=-Djavax.net.ssl.keyStorePassword=<your keystore password> \

MongoConnector には、ワーカーがスレッド全体で単一のMongoClientを共有するキャッシュが含まれています。 MongoClientを使用可能な状態で維持する期間を指定するには、 spark-submitを実行する際にmongodb.keep_alive_msオプションを含めます。

--driver-java-options -Dmongodb.keep_alive_ms=<number of milliseconds to keep MongoClient available>

デフォルトでは、このプロパティの値は5000です。

注意

キャッシュは Spark 構成が利用可能になる前に設定されるため、システム プロパティを使用して構成する必要があります。

戻る

構成