ワードクラウド
ワードクラウドはテキストデータを視覚的に表現し 、頻繁に使われるキーワードやフレーズを強調表示します。 各単語が表示される頻度は、単語のサイズに反映されます。
ワードクラウド エンコード チャンネル
ワードクラウドは、次のエンコーディング チャンネルを提供します。
エンコードチャンネル | チャンネルタイプ | 説明 |
---|---|---|
Text | カテゴリ | ワード クラウドに追加するテキスト値。 Charts は、このチャンネルに適用されるフィールドの一意の各値をワードクラウドに追加します。 ワードクラウドは最大 100 の値を表示できます。 このチャンネルに適用されるフィールドに 100 を超える一意の値が含まれている場合、チャートには 100 の値のランダムなサンプルが表示されます。 最も一般的な単語のみがチャートに表示されるようにするには、制限を適用して Valueで並べ替える必要があります。 |
サイズ | 集計 | 集計するフィールドと実行する集計のタイプを指定します。 集計の結果によって、各Text値のサイズが定義され、集計値が大きいほどテキスト サイズが大きくなります。 たとえば、Text チャンネルとSize チャンネルを Textチャンネルを |
色 | カテゴリ | (任意)適用されたフィールドの対応するデータ値を示すために、各テキスト値を色付けします。 たとえば、 Text 、 Size 、 Colorチャンネルを TextチャンネルとSizeチャンネルを |
ユースケース
テキスト フィールド内の特定の単語またはフレーズの頻度を示すには、 クラウド クラウド を使用します。 ワードクラウドは、一連のテキストデータ全体における一般的な単語とテーマの高レベルのビューを提供します。 また、製品カテゴリやタグなど、既知の文字列セットから最も一般的なフレーズを強調表示することもできます。
ワードクラウドを使用して次のことを行うことを検討してください。
製品のレビューで使用される一般的な単語とフレーズを表示します。
既存のコンテンツ内の一般的なタームを特定して、 並べ替えを向上させます。
集計されたユーザー アンケートから特定のカスタマー ペイン ポイントを強調表示します。
例
ワードクラウドは通常、長いテキストフィールド内に出現する単語の頻度を示すために使用されます。 デフォルトでは、ワードクラウドはテキストフィールドを単語に分割せず、代わりにテキストフィールド全体を単一の値として可視化しようとします。 集計パイプラインを使用して、テキストフィールドを個々の単語に分割できます。
注意
このチュートリアルで使用されるデータセットは、Atlas が提供するsample_airbnb.listingsAndReviews
データセットに含まれています。
次の例では、 AirBnB のプロパティに関する情報を含むデータセットからワードクラウドを作成します。 各プロパティ リストにはdescription
フィールドが含まれています。プロパティを説明するテキスト フィールド。
まず、集計パイプラインを実行してdescription
フィールドを前処理します。 次の集計パイプラインを使用します:
Splits
description
フィールドを、個々の単語が配列要素である配列にします。Unwinds
この配列により、各description
フィールドの個々の単語ごとに新しいドキュメントが作成されます。Adds a new field
はコレクションにwords
を呼び出します。description
から展開された各単語はwords
の値になります。$match
クエリを実行して、trigger 以外の単語のみをワードクラウドに追加します。
手順
次の集計パイプラインをチャートビルダの上部にあるQueryバーに貼り付けます。
[ { $addFields: { words: { $map: { input: { $split: ['$description', ' '] }, as: 'str', in: { $trim: { input: { $toLower: ['$$str'] }, chars: " ,|(){}-<>.;" } } } } } }, { $unwind: '$words' }, { $match: { words: { $nin: ["", "also", "i", "me", "my", "myself", "we", "us", "our", "ours", "ourselves", "you", "your", "yours", "yourself", "yourselves", "he", "him", "his", "himself", "she", "her", "hers", "herself", "it", "its", "itself", "they", "them", "their", "theirs", "themselves", "what", "which", "who", "whom", "whose", "this", "that", "these", "those", "am", "is", "are", "was", "were", "be", "been", "being", "have", "has", "had", "having", "do", "does", "did", "doing", "will", "would", "should", "can", "could", "ought", "i'm", "you're", "he's", "she's", "it's", "we're", "they're", "i've", "you've", "we've", "they've", "i'd", "you'd", "he'd", "she'd", "we'd", "they'd", "i'll", "you'll", "he'll", "she'll", "we'll", "they'll", "isn't", "aren't", "wasn't", "weren't", "hasn't", "haven't", "hadn't", "doesn't", "don't", "didn't", "won't", "wouldn't", "shan't", "shouldn't", "can't", "cannot", "couldn't", "mustn't", "let's", "that's", "who's", "what's", "here's", "there's", "when's", "where's", "why's", "how's", "a", "an", "the", "and", "but", "if", "or", "because", "as", "until", "while", "of", "at", "by", "for", "with", "about", "against", "between", "into", "through", "during", "before", "after", "above", "below", "to", "from", "up", "upon", "down", "in", "out", "on", "off", "over", "under", "again", "further", "then", "once", "here", "there", "when", "where", "why", "how", "all", "any", "both", "each", "few", "more", "most", "other", "some", "such", "no", "nor", "not", "only", "own", "same", "so", "than", "too", "very", "say", "says", "said", "shall"] } } } ] パイプラインを実行するには、 Applyをクリックします。
各レビューの個々の単語を含む新しいフィールドが作成されたため、それらの単語をワード クラウドで視覚化できます。
新しく作成した
words
フィールドをTextエンコーディング チャンネルに適用して、個々の単語をワードクラウドに追加します。レビューから最も一般的な単語 80 件のみを表示するには、 80 の制限を適用します。
words
フィールドをSizeエンコーディング チャンネルに適用し、個々の単語の数に基づいて集計します。
ワードクラウドは次のようになります。
クラウド内の単語のサイズは、相対的な頻度を表します。
制限
ワードクラウドの最大クエリ応答サイズは 5,000 ドキュメントです。