Página inicial do Docs → Visualizar & analisar dados → Conector do Spark
Ler do MongoDB no modo de transmissão
Nesta página
Visão geral
Ao ler um fluxo de um MongoDB database, o Spark Connector oferece suporte ao processamento em microlote e ao processamento contínuo. O processamento em micro-lote, o mecanismo de processamento padrão, atinge latências de ponta a ponta de apenas 100 milissegundos com garantias de tolerância a falhas exatamente uma vez. O processamento contínuo é um recurso experimental introduzido no Spark versão 2.3 que atinge latências de ponta a ponta tão baixas quanto 1 milissegundo com garantias de pelo menos uma vez.
Para saber mais sobre o processamento contínuo, consulte a documentação do Spark .
Observação
O conector lê o fluxo de mudança do sistema do MongoDB. Para gerar eventos de alteração no fluxo de alteração, realize operações de atualização em seu banco de dados.
Para saber mais sobre fluxos de alterações, consulte Fluxos de alterações no manual do MongoDB.
Exemplo
O exemplo a seguir mostra como transmitir dados do MongoDB para o seu console.
Importante
Inferindo o esquema de um fluxo de mudança
Se você definir a opção change.stream.publish.full.document.only
como true
, o Spark Connector inferirá o esquema de um DataFrame
usando o esquema dos documentos digitalizados. Se você configurar a opção para false
, você deverá especificar um esquema.
Para obter mais informações sobre essa configuração e para ver uma lista completa de opções de configuração de change stream, consulte o guia Opções de configuração de leitura .
Documentação da API
Para saber mais sobre os tipos usados nestes exemplos, consulte a seguinte documentação do Apache Spark API: