バケッティング変換では、値を複数の範囲またはバケットにグループ化し、大量のデータをより分かりやすくします。こうしたデータの詳細が多い場合、全体像を把握しにくくなることがあります。範囲ごとに値をグループ化することで、全体の傾向を把握しやすくなり、データパターンの発見にも役立ちます。
バケッティングは、基本データ型である番号、テキスト、日付の上で動作します。
バケッティング操作を見つけるには:
-
Studioページで列を右クリックします。
-
コンテキストメニューから 作成 Buckets オプションを選択します。
番号列でのバケッティング
数値列では、2つの方法でバケットを作成できます: 自動 と 手動 です。
自動バケッティング
自動バケッティングは、列データのパターンと必要なバケット数に基づいてバケットを自動的に作成します。
この値は バケット数 オプションで編集できます。初期設定では、自動バケッティングオプションは10個のバケットを作成します。
自動バケッティングを列に適用するには:
-
Studioページで対象の列を右クリックします。
-
コンテキストメニューから バケットの作成 オプションを選択します。
-
新しい列の名前を ベース列名 に入力します。
-
Transformパネルでは、 自動 オプションがOperationsパネルで初期設定として選択されています。
-
初期設定で バケット数 の値は10です。必要に応じて値を編集できます。
-
自動バケッティングオプションは、列内の最小値と最大値を取得し、選択したバケット数で値をグループ化します。
-
データグリッド内で生成される列のプレビューが表示されます。
-
適用 をクリックします。
-
数値列にテキストや日付値など無効なデータが含まれている場合、結果列には「NA」と表示されます。
カスタム range
カスタム範囲 を使用して、 バケットラベルを決定する条件を入力できます。
例えば、数値列に年齢データがあり、+10、-10から100までの場合、+10、-10以外や13未満は「Child」バケットラベル、13以上19未満は「Teens」、19以上60未満は「Adults」、60より大きい場合は「Senior citizens」というラベルになるよう条件を設定できます。
これは、以下の比較演算子を使って条件を指定することで実現できます。
-
「=(等しい)」、「>(より大きい)」、「>=(以上)」は 開始条件 として利用し、
-
「<(より小さい)」、「<=(以下)」は 終了条件 として利用します。
選択済み列の値がいずれの条件にも該当しない場合、別ラベル「NA」でマークされます。
このラベルは 未一致値用ラベル オプションで編集できます。
「+」ボタンで現在の下にさらに条件を追加したり、「-」ボタンで現在の条件を削除できます。
新たに作成された列では、選択した数値列の各値が該当する範囲のバケットに割り当てられます。
「 特定の値 」オプションでは、選択した数値列から特定の値を入力し、それらをバケットとしてラベル付けできます。
例えば、選択した数値列が「商品コード」の場合、新規列「カテゴリー」を作成し、商品コード101と102を「Books」、200と202を「Magazines」、300と301を「Pens」といったように条件を定義できます。一致しない値に対する初期ラベルは「NA」に変更可能です。
「in」条件内で選択された値には、新規列で定義したラベルが適用されます。条件に合致しない値には初期値「NA」が設定されます。
|
商品
|
商品コード
|
カテゴリー
|
|
ガンジーの伝記
|
101
|
書籍
|
パーカー フロンティア ステンレススチール ローラーボール
|
301
|
ペン
|
|
Startup 市区町村 India
|
202
|
雑誌
|
|
Murder オン the Orient express
|
102
|
書籍
|
|
ペン コカ・コーラ
|
789
|
なし
|
フィルターを適用する
この変換とあわせてフィルターを適用したい場合は、フィルター機能を利用できます。
1. フィルタータブをクリックします。
2.

アイコンをクリックし、必要な列を
フィルターセクションに追加します。ドラッグ&ドロップでフィルターの並び替えも可能です。
3. 追加した頻度列に対し、ドロップダウンから以下の設定のいずれかを選択できます。
- Actual: このオプションでは、列の実際の値に基づいて行をフィルターできます。詳細はこちらをご覧ください。
- Data 品質: このオプションでは、列内のデータ品質に基づいて行をフィルターできます。詳細はこちらをご覧ください。
- Patterns: このオプションでは、選択した列のデータパターンに基づいて行をフィルターできます。詳細はこちらをご覧ください。
- Outliers: このオプションでは、選択した列内の外れ値データに基づいて行をフィルターできます。詳細はこちらをご覧ください。
メモ: フィルターの設定は、追加した列のデータ型によって表示される内容が異なります。
4. フィルターセクションに2つ以上のフィルターを追加すると、論理演算子ANDまたはORがフィルターの横に表示されます。クリックすることで論理演算子をANDとORの間で切り替え可能です。
- 論理演算子を活用して条件を組み合わせ、優先ルールを適用できます。最終的な式はCriteria expressionボックスに表示されます。編集をクリックし、論理演算子やかっこを利用して優先順位や評価する順序を指定できます。必要な変更を加えた後、保存をクリックしてください。
- 例: 式 ((1 OR 2) AND (3 OR 4)) では、(1 OR 2) の条件が先に実行され、次に (3 OR 4) が評価されます。AND演算子が使用されているため、両方の条件が真の場合にフィルターが適用されます。
5. 各フィルターで選択したオプションに応じて、さらに詳細な値を個別に選択できます。
例として、上記のスクリーンショットでは、Data 品質オプションがフィルターセクションのすべてのカラムフィルターで選択されています。選択内容に基づき、特定の値でフィルターするための追加設定がすべて columns (Data 品質)セクションに表示されます。
6. 最後のセクションで、選択した商品を含めるか除外するかを選択できます。
7. 何らかの理由で全てのフィルターを削除したい場合は、クリアボタンを使用できます。
8. フィルター変換の有効なプレビューが、変更を加えるたびに表示されます。
9. 適用するボタンをクリックすると、フィルターとともに変換が適用されます。
関連情報