データバケット化

データバケット化

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

データバケッティング(ビニング)は、特定の条件に基づいてデータポイントをグループ化する方法です。例えば、顧客を購入金額の値に基づいて分類できます。バケッティングでは、各データポイントを条件に応じて特定のビンに割り当てることで、データ内の異なる値(カーディナリティ)の数を減らします。これにより、数値データを複数のカテゴリ別のビンに変換し、データ分析を容易にします。データバケッティングは、数値データとカテゴリデータの両方に適用できます。

データバケッティングの重要性

データのばらつきを軽減:データのばらつきはデータポイントの散らばりを示しますが、ばらつきが大きいとデータの解釈が難しくなります。データポイントをグループ化することで、出力の変動を平滑化し、トレンドやパターンをより分かりやすくすることで、データの複雑さを軽減できます。
外れ値の処理: ビニングにより、外れ値をより大きなカテゴリにまとめることで、その影響を抑え、最終的な分析結果への影響を小さくできます。
モデル性能の向上: バケッティングは、よりバランスの取れた学習データセットを作成することで、機械学習アルゴリズムの性能向上に役立ちます。

データバケッティングのベストプラクティス

データを評価する: データをビニングする前に、歪度、範囲、分布など、データの特性を把握します。データポイント数(カーディナリティ)が多い列に対してバケッティングを選択します。
適切なバケット数とサイズを決定する:バケット(ビン)の数は、分析結果やデータの解釈に直接影響します。バケット数が少なすぎると詳細が失われ、多すぎると複雑さが増します。そのため、データ量と分析の目的に基づいて、バケット数を決定してください。
分かりやすいラベル付け:バケットラベルは分かりやすく設定し、ユーザーが各バケットの内容を容易に理解できるようにします。

バケット列の作成

  1. テーブルビューにアクセスします。
  2. ツールバーの追加オプションをクリックし、ドロップダウンメニューからバケット列を選択します。

    (または)
    バケットを作成したい列を右クリックし、ドロップダウンからバケットを追加を選択します。

  3. バケット列を追加ダイアログが開きます。適切なバケット列名を入力します。また、データをどのような基準でバケッティングしているかをユーザーが理解できるよう、バケットの説明も追加します。
  4. 適用する列項目から、バケッティングに使用する列を選択します。

  5. データをバケッティングする条件を入力します。
    1. そのバケット内の値や要素を表すバケットラベルを指定します。
    2. データを分類する基準となる条件を選択します。条件は、列のデータ型に応じて一覧表示されます。条件を追加をクリックして、条件を追加します。
    3. 各条件に対してを指定します。
  6. 異なる条件に基づいてデータをグループ化するには、新しいバケットラベルを追加をクリックします。
  7. チェックボックス一致しない列のラベルを選択すると、指定したいずれの条件にも当てはまらないすべてのデータポイントを 1 つのバケットにまとめてグループ化できます。そのバケットに付与するラベルを指定します。
  8. 保存をクリックします。

バケットの作成 - 数値データ型

営業金額に基づいて金額を分類するケースを例に説明します。
  1. 営業列を右クリックし、ドロップダウンメニューからバケットを追加を選択します。

  2. バケット列名として金額層を指定します。
  3. バケットラベル0 - $500と指定し、条件として次の値より小さいを選択して、500 未満のデータ値をグループ化します。
  4. 新しいバケットラベルを追加をクリックします。2 つ目のバケットラベルとして$501 - $1000を入力します。条件として次の間を選択し、値を 501 と 1000 に指定します。
  5. 同様に、以下の画像のように他のバケットの条件も指定します。

  6. 保存をクリックします。

バケットの作成 - テキストデータ型

国を地域ごとにグループ化するケースを例に説明します。
  1. 国列を右クリックし、ドロップダウンメニューから バケットを追加 を選択します。

  2. バケット列名として Region を指定します。
  3. 最初のバケットラベルとしてAPACを入力します。

  4. 条件として In を選択し、値に India、China、Malaysia、Singapore を指定します。
  5. 新しいバケットラベルを追加をクリックします。
  6. 以下の画像のように、グループ化に使用するバケットラベル、条件、データ値を指定します。

  7. 大文字と小文字を区別してグループ化したい場合は、Case-Sensitive チェックボックスを選択します。
  8. 保存をクリックします。
新しい列Regionが作成され、以下の画像のように、指定した条件に基づいて国がバケッティングされます。