Zohoデータプレップスタジオ

Zohoデータプレップスタジオ

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




Studio ページにおけるデータ準備の概要は、以下のセクションで説明します。
  • データ分布
  • データ品質
  • インテリジェントな提案
  • 検索 & フィルター
  • トップバー


上記の画像は、Studioページと、それに関連するすべてのセクションを表示しています。

データ分布

DataPrepでは、ヒストグラムはデータ分布と列に存在する値の範囲を視覚的に表現するグラフです。これを使うことで、外れ値や異常値を見つけることができます。棒グラフやヒストグラムの一部を選択すると、その範囲内のデータでフィルターされます。



このヒストグラムの詳細バージョンは、列を選択した際に下部に表示される「列詳細」にも表示されます。



ヒストグラムに表示されている値を編集すると、列全体の値も変更されます。また、 アイコンを使用して値を並べ替えることもできます。

さらに、検索アイコンをクリックして、以下のいずれかの条件でヒストグラム内の値を検索できます。
  1. 含む
  2. 含まない
  3. 一致
  4. が次の値と等しくない
  5. で始まる
  6. で始まらない
  7. で終わる
  8. で終わらない

データ品質

DataPrepでは、データの品質を測定・向上させるための多くの設定が用意されています。データ品質は、データ準備ページの以下のエリアから評価できます。
  • データ品質棒グラフ
  • 列詳細セクション
  • ステージ詳細セクション

データ品質棒グラフ

データ品質棒グラフは、各列のデータ品質を表します。列のデータ型に基づき、品質を有効データ、無効データ、欠損値に分割して表示します。緑は有効データ、赤は無効データ、グレーは欠損値を示しています。

セクションをクリックすると、DataPrepが該当する行のみをフィルターし、無効データや欠損値のあるデータを簡単に確認・対応できます。
  1. データ品質棒グラフにカーソルを合わせると、列のデータ品質をすばやく確認できます。

  1. 「すべての列を表示」オプションをクリックして、すべての個別列のデータ品質を表示できます。

列詳細セクション

列詳細セクションでは、各列のデータ概要、データの種類、列内のユニーク値の数、不足・無効・有効なデータ数が表示されます。
Notes
メモ:ステージの最初の100行が処理され、データの種類が提案されます。
  1. 列詳細は、列を選択すると下部パネルに表示されます。

  1. このセクションには、各列の上部に表示されているヒストグラムの詳細バージョンがあります。ヒストグラム内の値を編集すると、列全体の値が変更されます。また、 アイコンを使って値を並べ替えることもできます。

  2. 検索アイコンをクリックし、以下の条件のいずれかでヒストグラム内の値を検索できます。
    1. 含む
    2. 含まない
    3. 等しい
    4. が次の値と等しくない
    5. で始まる
    6. で始まらない
    7. で終わる
    8. で終わらない

       
  1. その他の詳細を表示リンクをクリックすると、選択した列の詳細情報を拡大表示で確認できます。このセクションでは、統計情報、外れ値、ユニーク値、データパターンなど、列のさまざまな側面が表示されます。

外れ値および異常検出

  1. Zoho DataPrepは機械学習技術を活用してデータの異常値を特定します。これにより、ユーザーはデータパイプライン内の異常値を管理できます。データから異常値を保持するか削除するか、ユーザー自身で決定可能です。以下のGIFは、DataPrepの外れ値検出機能を示しています。



  2. ウィジェットを表示 その他の詳細ページに表示するよう、コンテキストメニューの設定(列名の横)から選択することもできます。


Stage 詳細セクション

Stage 詳細では、ドーナツチャートを使ってステージ全体のデータ品質を表示します。この数値は、各列の品質を集計して算出されます。このセクションは、ステージがデータ準備画面に読み込まれた際や、いずれの列も選択されていない時に初めて表示されます。

Stage 詳細には以下の情報が表示されます。
  • サンプル行数
  • サンプル戦略(ランダム、エラー、有効な列ベース、初期データサンプルを含む)
  • 合計行数
  • 列数
  • データ内のデータ型数
  • ドーナツチャートによる全体のステージデータ品質
ドーナツチャートは、有効なデータ、無効なデータ、欠損値を割合(%)で分けて表示します。ドーナツチャートの各セクションをクリックすると、有効・無効・欠損値のみをデータ内で個別に表示できます。


サンプル戦略

サンプルを生成することで、変換処理の高速化が図れます。これは、全データからさまざまな戦略を使ってサンプルを抽出することを意味します。初期サンプル 戦略は、初めてデータをインポートした際に使用されます。データ準備プロセスの途中でも、戦略はいつでも変更可能です。サンプル戦略を変更するには、Stage 詳細パネル内の編集アイコンをクリックしてください。



利用可能なサンプル戦略は以下の通りです。
  • 初期サンプル:インポートしたファイルの最初の5MBのデータから作成されます。
  • ランダムサンプル:インポートしたファイルからランダムに選ばれた行です。
  • エラーサンプル:無効または欠損のエントリを含む行です。
  • 列ベースサンプル:選択された列の異なる値にもとづいて作成されます。
Notes
メモ: 作成されたサンプルはsamplestateとして保存されます。これは、UI上で表示・操作するデータの一部を表します。また、データをエクスポートする際にもこのsamplestateが含まれます。

インテリジェントサジェスト

DataPrepは、インポートされたデータに基づいて適切な変換方法を提案します。提案は、1列または複数列が選択されている場合や、フィルターが適用された時に表示されます。
  1. 提案された変換のいずれかをクリックすると、Studioパネルに移動し、データに適用される変換の有効なプレビューが表示されます。
  1. 提案された操作を適用する前に、操作バーで設定や条件を編集することもできます。
      

検索とフィルター

検索操作やデータのフィルターは、 ボックスを使用して実行します。検索とフィルターボックスは探索的な機能で、ルールとして適用せずにデータをフィルターする方法を提供します。ただし、フィルターされた行を保持または削除することで、ルールとして適用することも可能です。

また、検索とフィルターボックスのフィルターアイコンから、あらかじめ設定されたフィルター設定を選択することもできます:
  1. 有効な値のある行のみをフィルター - 有効なデータのみが表示されます 
  2. 無効な値のある行のみをフィルター - 無効なデータのみが表示されます
  3. 欠損値のある行のみをフィルター - 欠損データのみが表示されます
  4. 欠損値または無効な値のある行をフィルター - 欠損または無効なデータのみが表示されます。


カスタムフィルター条件でデータをフィルターしたい場合は、データをフィルターした後に表示される 詳細オプションを使用できます。



データを検索する方法

  1. データを検索するには、検索とフィルターボックスに値を入力します。検索したキーワードは、初期条件「含む」に基づいて、ボックスの下にチップとして追加されます。
  2. また、チップを選択して、検索キーワードや条件をいつでも編集できます。


  1. 検索結果が表示されたら、フィルターされた行を保持または削除するかを選択できます。選択に応じて、フィルターされた行の有無でデータが表示されます。
Notes
検索したキーワードは、詳細フィルターパネルを開いた際に自動的にすべて含まれます。


データをフィルターするには

  1. 他の方法でステージをフィルターする場合は、ヒストグラム、データ品質バーグラフ、またはドーナツチャートをクリックするだけで操作できます。



  2. フィルターを適用すると、検索・フィルターボックスの下にチップが表示されます。チップを選択して、検索キーワードや関連付けられた条件をいつでも編集できます。
  3. 複数のフィルターを適用でき、フィルターごとにチップが追加されます。
Notes
1. すべてのフィルターは、詳細フィルターパネルを開いた際に自動的に含まれます。
2. この機能は、パネルを開いたまま追加したフィルターも対象となります。
3. 詳細フィルターパネル内でフィルターの編集も可能です。
次のセクションでは、詳細フィルターについて説明します
  1. フィルターで利用可能な条件は次のとおりです:
    1. 含む(初期設定)
    2. 含まない
    3. で始まる
    4. で始まらない
    5. で終わる
    6. で終わらない
    7. 等しい
    8. が次の値と等しくない
    9. 正規表現に一致
  1. フィルタリング後は、チップの横に表示される行を保持または行を削除ルールを適用できます。
  2. 追加したフィルターは編集リンクから編集も可能です。
  3. 特定のフィルターを削除する場合は、チップにカーソルを合わせた際に表示される閉じるアイコンをクリックしてください。
  4. すべてのフィルターをまとめて削除するには、クリアリンクをクリックします。

詳細フィルター

詳細フィルター機能では、1つまたは複数の列にカスタム条件を設定してデータをフィルターできます。詳細フィルターは探索的な機能であり、ルールとして適用せずにデータを絞り込むことが可能です。ただし、フィルター後に行を保持または削除することで、ルールとして適用することもできます。データをフィルターした際に詳細リンクが表示されます。データのフィルタリングについて詳しくはこちらをクリックしてください。

Notes
1. 開いている詳細フィルターペインには、すべてのフィルターが自動的に含まれます。
2. ペインを開いたまま追加したフィルターも含まれます。
3. 詳細フィルターペインでフィルターの編集も可能です。

詳細フィルターを適用する方法

1. ドーナツチャート、ヒストグラム、または初期設定フィルター設定をクリックして、データをフィルタリングします。列を右クリックし、こちらをクリックすると、データのフィルタリングについて詳しく確認できます。

2. データグリッドの上に詳細リンクが表示されます。 詳細リンクをクリックすると、ペインがスライドして表示されます。
     


2.フィルターに列を追加するには、アイコンをクリックします。ドラッグ&ドロップでフィルターの並べ替えも可能です。

3. フィルターセクションに2つ以上のフィルターを追加すると、論理演算子ANDまたはORがフィルターの横に表示されます。クリックしてANDとORを切り替えることができます。



4. 論理演算子を使って条件を組み合わせ、優先順位のルールを適用できます。最終的な式は条件式ボックスに表示されます。編集をクリックし、論理演算子やかっこを使って優先順位や評価順序を指定して初期式を変更できます。必要な変更を行った後、保存をクリックしてください。

例:式 ((1 OR 2) AND (3 OR 4)) では、最初に条件 (1 OR 2) が実行され、その後に条件 (3 OR 4) が実行されます。3番目に、AND演算子が使用されているため、両方の条件が真である場合にフィルターが適用されます。

5. クリアボタンを使って、すべてのフィルターを削除できます。

6.追加した頻度フィルターには、ドロップダウンから次の設定を選択できます。
  1. Actual:このオプションでは、列の実際の値に基づいて行をフィルタリングします。
  2. Data 品質:このオプションでは、列のデータ品質に基づいて行をフィルタリングします。
  3. Patterns:このオプションでは、選択した列のデータパターンに基づいて行をフィルタリングできます。
  4. Seasonal:このオプションでは、四半期、月、週などの季節的パラメーターに基づいて行をフィルタリングできます。
  5. Outliers:このオプションでは、選択した列のデータ内に存在する外れ値に基づいて行をフィルタリングできます。
Notes
フィルター設定は、フィルター用に追加された列のデータ型に基づいて表示されます。フィルター設定の詳細については、こちらをクリックしてください。

7. フィルターボタンをクリックします。追加されたフィルターの数は、データグリッド上部に表示されるチップで確認できます。

8. 詳細フィルターは、ルールを適用せずにデータを絞り込むことができます。フィルタリング後、必要に応じて行を保持または行を削除のいずれかのルールを適用できます。


トップバー

Workspace詳細ページまたはPipeline builderページにクリックで移動できます。トップバーから宛先を追加したり、エンティティを検索することも可能です。