Explore o novo chatbot do Developer Center! O MongoDB AI chatbot pode ser acessado na parte superior da sua navegação para responder a todas as suas perguntas sobre o MongoDB .

Saiba por que o MongoDB foi selecionado como um líder no 2024 Gartner_Magic Quadrupnt()
Desenvolvedor do MongoDB
Centro de desenvolvedores do MongoDB
chevron-right
Produtos
chevron-right
MongoDB
chevron-right

Uma introdução aos dados GDELT

Mark Smith5 min read • Published Apr 12, 2022 • Updated May 24, 2022
MongoDB
Ícone do FacebookÍcone do Twitterícone do linkedin
Avalie esse Início rápido
star-empty
star-empty
star-empty
star-empty
star-empty

Uma introdução aos dados GDELT

(e Como trabalhar com ele e MongoDB)

Olá!
Há uma boa chance de que, se você estiver lendo isso, seja porque está planejando entrar no Hackation do MongoDB "Data as Novidades"! Se não, bem, vá em frente e inscreva-se aqui!
Agora que isso acabou, vamos à primeira pergunta que você provavelmente tem:

O que é o GDELT?

GDELT é um acrônimo que significa "Banco de dados global de eventos, linguagem e tom". É um banco de dados de eventos geopolíticos, automaticamente derivado e traduzido em tempo real de centenas de fontes de notícias nos idiomas 65. Tem cerca de dois terabytes de dados, então é realmente muito grande!
Cada evento contém os seguintes dados:
Detalhes de um ou mais atores - geralmente países ou entidades políticas. O tipo de evento que ocorreu, como ", apelo à cooperação judicial " O sentimento positivo ou negativo percebido em relação ao evento, em uma escala de -10 (muito negativo) a +10 (muito positivo) Uma pontuação de impacto " " na Escala Goldstein, indicando o impacto potencial teórico que esse tipo de evento terá na estabilidade de um país.

Mas o que parece?

Os dados brutos fornecidos pelo GDELT são hospedados como arquivos CSV, compactados e carregados a cada 15 minutos desde fevereiro de 2015. Uma linha nos arquivos CSV contém dados que se parecem com isto:
Nome do campoValor
_id
1037207900
Dia20210401
MêsAno202104
Ano2021
FractionDate2021.2493
Ator1CódigoUSA
Ator1NomeNORTH CAROLINA
Ator1CountryCodeUSA
IsRootEvent1
EventCode43
EventBaseCode43
EventRootCode4
QuadClass1
Escalonamento do papel2.8
NumMentions10
NumSources1
NumArticles10
AvgTone1.548672566
Ator1Geo_Type3
Ator1Geo_Nome CompletoAlbemarle, Carolina do Norte, Estados Unidos
Ator1Geo_CountryCodeEUA
Actor1Geo_ADM1CodeUSNC
Actor1Geo_ADM2CodeNC021
Ator1Geo_Lat35.6115
Ator1Geo_Long-82.5426
Ator1Geo_FeatureID1017529
Ator2Geo_Type0
ActionGeo_Type3
ActionGeo_FullnameAlbemarle, Carolina do Norte, Estados Unidos
ActionGeo_CountryCodeEUA
Código ActionGeo_ADM1USNC
Código ActionGeo_ADM2NC021
ActionGeo_Lat35.6115
ActionGeo_Long-82.5426
ActionGeo_FeatureID1017529
Data de adição2022-04-01T15:15:00Z
SourceURLhttps://www.dailyadvance.com/news/local/museum-to-host-exhibit-exploring-change-in-rural-us/article\_42fd837ec5cf-5478-aec3-aa6bd53566d8.html
downloadId20220401151500
Este evento codifica o Ator1 (Carolina do Norte) que organiza uma visita (Cameo Code 043)... e, nesse caso, os detalhes da visita não estão incluídos - é uma exposição " que explora as mudanças na zona rural dos EUA. " Você pode clicar no link sourceURL para ler mais detalhes.
Todo evento é assim. Um ou dois atores, possivelmente algum detalhe de "ação" e, em seguida, um verbo, codificado usando a codificação de verbo CAMEO. CAMEO é a abreviação de "Observações de eventos de conflito e mediação", e você pode encontrar a lista completa de verbos neste PDF. Se você precisar de uma versão mais "legível por computador" dos verbos CAMEO, veja uma hospedada aqui.

O que há de tão interessante em uma Enorme Tabela de Dados Geopolíticas?

Achamos que há várias maneiras diferentes de pensar sobre os dados codificados no conjunto de dados GDELT.
Em primeiro lugar, é um conjunto de dados longitudinal, que remonta ao tempo. Os dados no GDELT v2 vão dos dias atuais até 2015, fornecendo uma grande quantidade de dados de eventos dos últimos 7 anos. Mas o conjunto de dados GDELT v1, que é menos rico, remonta até 1979! Isso oferece uma oportunidade incomparável de estudar os padrões e tendências da geopolítica nos últimos 43 anos.
Mais do que apenas um conjunto de dados históricos, no entanto, o GDELT é um conjunto de dados vivo, atualizado a cada 15 minutos. Isso significa que também pode ser considerado um sistema de eventos para entender o mundo agora. Como você usa essa capacidade depende de você, mas ela não deve ser ignorada!
GDELT também é um conjunto de dados geográficos. Cada evento codifica um ou mais pontos de seus atores e ações, para que os dados possam ser analisados do ponto de vista GIS. Mas, mais do que tudo isso, o GDELT modela interações humanos em grande escala. A pontuação de (impacto) de GoIstja (GoldstenScale) e a pontuação de confiança (AvgTone) fornecem o impacto humano dos eventos que estão sendo codificados.
Se você optar por explorar um dos eixos acima, usando ML ou visualização; se você optar por usar dados GDELT por conta própria ou combiná-los com outra fonte de dados; se você optou por se concentrar em eventos específicos do passado recente; temos certeza de que você descobrirá novos entendimentos do mundo ao seu redor analisando os dados de notícias que ele contém.

Como trabalhar com GDELT?

Nas próximas semanas, publicaremos postagens de blog, hospedagem de transmissão ao vivo e sessões de AMA (pergunte-me qualquer coisa) para ajudá-lo em sua maneira de GDELT e MongoDB. Enquanto isso, você tem algumas opções: pode trabalhar com nosso cluster de dados GDELT existente (contendo a totalidade dos dados GDELT do ano passado) ou pode carregar um subconjunto dos dados GDELT em seu próprio cluster.

Trabalhe com nosso cluster GDELT hospedado

Atualmente, hospedamos os dados GDELT do ano passado em um cluster chamado GDELT2. Você pode acessá-lo somente leitura usando o Compass, ou qualquer um dos drivers MongoDB, com a seguinte connection string:
1mongodb+srv://readonly:readonly@gdelt2.rgl39.mongodb.net/GDELT?retryWrites=true&w=majority
Os dados brutos estão contidos em uma collection chamada " EventsCSV ", e uma cópia levemente massageada dos dados (com atores e ações divididos em subdocumentos) está contida em uma collection chamada " RecentEvents ".
Ainda estamos fazendo alterações nesse cluster e planejamos carregar mais dados com o passar do tempo (além de nos mantermos atualizados com as atualizações de 15minutos do GDELT!) , então fique de olho nas atualizações desta postagem do blog!

Como obter o GDELT em seu próprio cluster MongoDB

Há uma grande probabilidade de que você não consiga trabalhar com os dados em sua forma bruta. Por um motivo ou outro, você precisa dos dados em um formato diferente ou filtrados de alguma forma para trabalhar com eles de forma eficiente. Nesse caso, é altamente recomendável que você siga os conselhos de Adriane em seu GDELT Primary README.
Nos próximos dias, publicaremos uma ferramenta para carregar com eficiência os dados que você deseja em um cluster MongoDB. Enquanto isso, leia no GDELT, dê uma olhada nos dados de amostra e encontre alguns colegas de equipe para construir!

Leitura adicional

Os documentos a seguir contêm a maior parte da documentação oficial necessária para trabalhar com o GDELT. Resumimos grande parte disso aqui, mas é sempre bom verificar a fonte, e você precisará da lista de codificação CAMEO!

E agora?

Esperemos que o texto acima lhe tenha dado algumas informações sobre este Fascinante Conjunto de Dados. Nós o escolhemos como o tema, "Dados como notícias", para o MongoDB World Hackation deste ano devido ao seu tamanho, durabilidade, moeda e relevância global. Se você quiser explorar mais o conjunto de dados GDELT, bem como aprender MongoDB e competir por alguns prêmios únicos, bem, Go em frente e inscreva-se aqui no Hackationon! Gostaríamos muito de receber você!

Ícone do FacebookÍcone do Twitterícone do linkedin
Avalie esse Início rápido
star-empty
star-empty
star-empty
star-empty
star-empty
Relacionado
Tutorial

Trabalhando com transações MongoDB com C# e .NET Framework


Sep 11, 2024 | 3 min read
Tutorial

Criar um pipeline de dados para o fluxo de alterações do MongoDB usando a assinatura Pub/Sub do BigQuery


Apr 02, 2024 | 5 min read
Tutorial

Criar um microsserviço de preços dinâmicos com Vertex AI e MongoDB Atlas


Oct 09, 2024 | 18 min read
exemplo de código

Gestão de revistas


Sep 11, 2024 | 0 min read
Sumário
  • Uma introdução aos dados GDELT