バケッティング変換は、値を複数の範囲やバケットにグループ化することで、スケールの大きいデータを理解しやすくします。データの粒度が詳細すぎると、全体像を把握しにくくなる場合があります。範囲ごとに値をまとめることで、データ全体の傾向を把握しやすくなり、さらにパターンの特定にも役立ちます。
バケッティングは、基本データ型である番号、テキスト、日付に対して利用できます。
バケッティング操作の見つけ方:
-
Studioページで対象の列を右クリックします。
-
コンテキストメニューから作成 Bucketsオプションを選択します。
番号列でのバケッティング
数値列でバケットを作成する方法は2つあります:自動と手動です。
自動バケッティング
自動バケッティングは、列データのパターンと必要なバケット数に基づいてバケットを作成します。
この値は、 バケット数 オプションで編集できます。初期設定では、自動バケッティングは10個のバケットを作成します。
列に 自動バケッティング を適用するには:
-
Studioページで、列を右クリックします。
-
コンテキストメニューから バケット作成 オプションを選択します。
-
新しい列に名前を付けます( ベース列名 の下で設定)。
-
Transformパネルで、 自動オプションが初期設定で選択されています。
-
初期設定では、 バケット数 の値は10です。必要に応じてこの値を編集できます。
-
自動バケッティングオプションは、列の最小値と最大値を取得し、選択したバケット数で分割して各値をグループ化します。
-
データグリッドで、結果となる列のプレビューが表示されます。
-
「 適用」をクリックします。
-
数値列にテキストや日付など無効なデータが含まれている場合、結果の列には「NA」と表示されます。
カスタムrange
カスタム範囲 を使用して、バケットラベルを決定する条件を入力できます。
例えば、数値列に年齢データがあり、+10、-10から100の範囲の場合、+10、-10以外で13未満の値は「Child」ラベル、13以上19未満の値は「Teens」ラベル、19以上60未満の値は「Adults」ラベル、60を超える値は「Senior citizens」ラベルに分類できます。
これらの比較演算子を使って条件を指定します。
-
等しい(=)、より大きい(>)、以上(>=)は開始する条件として指定し、
-
より小さい(<)、以下(<=)はEnd条件として指定します。
選択した列の値がいずれの条件にも当てはまらない場合は、別のラベル「NA」でマークされます。
このラベルは未一致値のラベルオプションで編集できます。
+ ボタンで現在の下にさらに条件を追加、- ボタンで現在の条件を削除できます。
新しく作成された列では、バケットが指定範囲に該当する選択した数値列の各値に割り当てられます。
特定の値オプションを使うと、選択した数値列から特定の値を入力し、それらをバケットとしてラベル付けできます。
例えば、選択した数値列が「商品コード」の場合、新しい列「カテゴリー」を作成し、商品コード101と102を「Books」、200と202を「Magazines」、300と301を「Pens」として条件を定義できます。一致しない値の初期ラベルはNAに設定可能です。
'in' 条件で選択した値には、新しい列で定義された適切なラベルが付与されます。条件に合致しない値には初期値としてNAが割り当てられます。
|
商品
|
商品コード
|
カテゴリー
|
|
ガンジーの伝記
|
101
|
書籍
|
パーカー フロンティア ステンレススチール ローラーボール
|
301
|
ペン
|
|
Startup 市区町村 India
|
202
|
雑誌
|
|
Murder オン the Orient express
|
102
|
書籍
|
|
ペン コカ・コーラ
|
789
|
なし
|
フィルターを適用する方法
この変換とあわせてフィルターを適用したい場合、フィルター機能を利用できます。
1. フィルタータブをクリックします。
2.

アイコンをクリックし、
フィルターセクションで必要な列を追加します。また、ドラッグ&ドロップでフィルターの並び順を変更できます。
3. 追加した頻度列について、ドロップダウンから差出人の設定のいずれかを選択できます。
- Actual: このオプションでは、列の実際の値に基づいて行をフィルタリングできます。詳細はこちらをクリックしてください:こちら。
- Data 品質: このオプションでは、列内のデータ品質に基づいて行をフィルタリングできます。詳細はこちらをクリックしてください:こちら。
- Patterns: このオプションでは、選択した列のデータパターンに基づいて行をフィルタリングできます。詳細はこちらをクリックしてください:こちら。
- Outliers: このオプションでは、選択した列のデータ内に存在する外れ値に基づいて行をフィルタリングできます。詳細はこちらをクリックしてください:こちら。
メモ: フィルター設定は、追加された列のデータ型に応じて表示されます。
4. フィルターセクションに複数のフィルターを追加すると、論理演算子ANDまたはORがフィルターの横に表示されます。ロジカルオペレーター(AND/OR)はクリックして切り替えることができます。
- 論理演算子を使って条件を組み合わせ、優先順位のルールを適用できます。最終的な式は条件式ボックスに表示されます。編集をクリックすると、論理演算子や括弧を使って優先順位や評価順を指定し、初期設定の式を変更できます。必要な変更後は保存をクリックしてください。
- 例:式 ((1 OR 2) AND (3 OR 4)) の場合、(1 OR 2) の条件が最初に実行され、(3 OR 4) の条件が次に実行されます。AND演算子が使用されているため、両方の条件が真の場合にフィルターが適用されます。
5. 各フィルターで選択したフィルターオプションに基づき、次のセクションでさらに特定の値を選択して絞り込むことができます。
例として、上記のスクリーンショットでは、Data 品質オプションがフィルターセクション内のすべてのカラム フィルターに選択されています。選択内容に基づき、さらにフィルターするための特定値の設定がすべてのカラム(Data 品質)セクションに表示されます。
6. 最後のセクションで、選択した項目を含めるか除外するかを選択できます。
7. 何らかの理由ですべてのフィルターを削除したい場合は、クリアボタンを使用できます。
8. フィルター変換の有効なプレビューが、変更を加えると表示されます。
9. 変換とフィルターを適用するには、
適用するボタンをクリックしてください。
データを並べ替えるには
並べ替えタブでは、任意の列を基準に昇順または降順でデータを並べ替えることが可能です。並べ替え 列ドロップダウンから列を選択し、並べ替えたい順序を選択してください。
この機能は変換と一緒にのみ使用でき、単独の機能としては利用できません。ただし、データのみを並べ替えたい場合は、
並べ替え変換を使用できます。
参照