Uma introdução aos dados GDELT
Avalie esse Início rápido
Olá!
Há uma boa chance de que, se você estiver lendo isso, seja porque está planejando entrar no Hackation do MongoDB "Data as Novidades"! Se não, bem, vá em frente e inscreva-se aqui!
Agora que isso acabou, vamos à primeira pergunta que você provavelmente tem:
GDELT é um acrônimo que significa "Banco de dados global de eventos, linguagem e tom". É um banco de dados de eventos geopolíticos, automaticamente derivado e traduzido em tempo real de centenas de fontes de notícias nos idiomas 65. Tem cerca de dois terabytes de dados, então é realmente muito grande!
Cada evento contém os seguintes dados:
Detalhes de um ou mais atores - geralmente países ou entidades políticas. O tipo de evento que ocorreu, como ", apelo à cooperação judicial " O sentimento positivo ou negativo percebido em relação ao evento, em uma escala de -10 (muito negativo) a +10 (muito positivo) Uma pontuação de impacto " " na Escala Goldstein, indicando o impacto potencial teórico que esse tipo de evento terá na estabilidade de um país.
Os dados brutos fornecidos pelo GDELT são hospedados como arquivos CSV, compactados e carregados a cada 15 minutos desde fevereiro de 2015. Uma linha nos arquivos CSV contém dados que se parecem com isto:
Nome do campo | Valor |
---|---|
_id | 1037207900 |
Dia | 20210401 |
MêsAno | 202104 |
Ano | 2021 |
FractionDate | 2021.2493 |
Ator1Código | USA |
Ator1Nome | NORTH CAROLINA |
Ator1CountryCode | USA |
IsRootEvent | 1 |
EventCode | 43 |
EventBaseCode | 43 |
EventRootCode | 4 |
QuadClass | 1 |
Escalonamento do papel | 2.8 |
NumMentions | 10 |
NumSources | 1 |
NumArticles | 10 |
AvgTone | 1.548672566 |
Ator1Geo_Type | 3 |
Ator1Geo_Nome Completo | Albemarle, Carolina do Norte, Estados Unidos |
Ator1Geo_CountryCode | EUA |
Actor1Geo_ADM1Code | USNC |
Actor1Geo_ADM2Code | NC021 |
Ator1Geo_Lat | 35.6115 |
Ator1Geo_Long | -82.5426 |
Ator1Geo_FeatureID | 1017529 |
Ator2Geo_Type | 0 |
ActionGeo_Type | 3 |
ActionGeo_Fullname | Albemarle, Carolina do Norte, Estados Unidos |
ActionGeo_CountryCode | EUA |
Código ActionGeo_ADM1 | USNC |
Código ActionGeo_ADM2 | NC021 |
ActionGeo_Lat | 35.6115 |
ActionGeo_Long | -82.5426 |
ActionGeo_FeatureID | 1017529 |
Data de adição | 2022-04-01T15:15:00Z |
SourceURL | https://www.dailyadvance.com/news/local/museum-to-host-exhibit-exploring-change-in-rural-us/article\_42fd837ec5cf-5478-aec3-aa6bd53566d8.html |
downloadId | 20220401151500 |
Este evento codifica o Ator1 (Carolina do Norte) que organiza uma visita (Cameo Code 043)... e, nesse caso, os detalhes da visita não estão incluídos - é uma exposição " que explora as mudanças na zona rural dos EUA. " Você pode clicar no link sourceURL para ler mais detalhes.
Todo evento é assim. Um ou dois atores, possivelmente algum detalhe de "ação" e, em seguida, um verbo, codificado usando a codificação de verbo CAMEO. CAMEO é a abreviação de "Observações de eventos de conflito e mediação", e você pode encontrar a lista completa de verbos neste PDF. Se você precisar de uma versão mais "legível por computador" dos verbos CAMEO, veja uma hospedada aqui.
Achamos que há várias maneiras diferentes de pensar sobre os dados codificados no conjunto de dados GDELT.
Em primeiro lugar, é um conjunto de dados longitudinal, que remonta ao tempo. Os dados no GDELT v2 vão dos dias atuais até 2015, fornecendo uma grande quantidade de dados de eventos dos últimos 7 anos. Mas o conjunto de dados GDELT v1, que é menos rico, remonta até 1979! Isso oferece uma oportunidade incomparável de estudar os padrões e tendências da geopolítica nos últimos 43 anos.
Mais do que apenas um conjunto de dados históricos, no entanto, o GDELT é um conjunto de dados vivo, atualizado a cada 15 minutos. Isso significa que também pode ser considerado um sistema de eventos para entender o mundo agora. Como você usa essa capacidade depende de você, mas ela não deve ser ignorada!
GDELT também é um conjunto de dados geográficos. Cada evento codifica um ou mais pontos de seus atores e ações, para que os dados possam ser analisados do ponto de vista GIS. Mas, mais do que tudo isso, o GDELT modela interações humanos em grande escala. A pontuação de (impacto) de GoIstja (GoldstenScale) e a pontuação de confiança (AvgTone) fornecem o impacto humano dos eventos que estão sendo codificados.
Se você optar por explorar um dos eixos acima, usando ML ou visualização; se você optar por usar dados GDELT por conta própria ou combiná-los com outra fonte de dados; se você optou por se concentrar em eventos específicos do passado recente; temos certeza de que você descobrirá novos entendimentos do mundo ao seu redor analisando os dados de notícias que ele contém.
Nas próximas semanas, publicaremos postagens de blog, hospedagem de transmissão ao vivo e sessões de AMA (pergunte-me qualquer coisa) para ajudá-lo em sua maneira de GDELT e MongoDB. Enquanto isso, você tem algumas opções: pode trabalhar com nosso cluster de dados GDELT existente (contendo a totalidade dos dados GDELT do ano passado) ou pode carregar um subconjunto dos dados GDELT em seu próprio cluster.
Atualmente, hospedamos os dados GDELT do ano passado em um cluster chamado GDELT2. Você pode acessá-lo somente leitura usando o Compass, ou qualquer um dos drivers MongoDB, com a seguinte connection string:
1 mongodb+srv://readonly:readonly@gdelt2.rgl39.mongodb.net/GDELT?retryWrites=true&w=majority
Os dados brutos estão contidos em uma collection chamada " EventsCSV ", e uma cópia levemente massageada dos dados (com atores e ações divididos em subdocumentos) está contida em uma collection chamada " RecentEvents ".
Ainda estamos fazendo alterações nesse cluster e planejamos carregar mais dados com o passar do tempo (além de nos mantermos atualizados com as atualizações de 15minutos do GDELT!) , então fique de olho nas atualizações desta postagem do blog!
Há uma grande probabilidade de que você não consiga trabalhar com os dados em sua forma bruta. Por um motivo ou outro, você precisa dos dados em um formato diferente ou filtrados de alguma forma para trabalhar com eles de forma eficiente. Nesse caso, é altamente recomendável que você siga os conselhos de Adriane em seu GDELT Primary README.
Nos próximos dias, publicaremos uma ferramenta para carregar com eficiência os dados que você deseja em um cluster MongoDB. Enquanto isso, leia no GDELT, dê uma olhada nos dados de amostra e encontre alguns colegas de equipe para construir!
Os documentos a seguir contêm a maior parte da documentação oficial necessária para trabalhar com o GDELT. Resumimos grande parte disso aqui, mas é sempre bom verificar a fonte, e você precisará da lista de codificação CAMEO!
Esperemos que o texto acima lhe tenha dado algumas informações sobre este Fascinante Conjunto de Dados. Nós o escolhemos como o tema, "Dados como notícias", para o MongoDB World Hackation deste ano devido ao seu tamanho, durabilidade, moeda e relevância global. Se você quiser explorar mais o conjunto de dados GDELT, bem como aprender MongoDB e competir por alguns prêmios únicos, bem, Go em frente e inscreva-se aqui no Hackationon! Gostaríamos muito de receber você!