Zohoデータプレップスタジオ

Zohoデータプレップスタジオ

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




Studio ページにおけるデータ準備の概要は、以下のセクションで説明します。
  • データ分布
  • データ品質
  • インテリジェントサジェスト
  • 検索 & フィルター
  • トップバー


上記の画像はStudioページと、そのページに関連するすべてのセクションを表示しています。
Info ヘルプメニューの ページツアーオプションをクリックして、ページのツアーを実行できます。ページツアーでは、Studio ページの全体的な操作手順が案内され、理解しやすくなります。

データ分布

DataPrepでは、ヒストグラムはデータ分布および列内に存在する値の範囲を視覚的に表現します。これを利用して、外れ値や異常値を特定できます。棒グラフやヒストグラムの一部を選択すると、その範囲内のデータをフィルタリングできます。



このヒストグラムの詳細バージョンは、列を選択した際に画面下部に表示される「列詳細」でも確認できます。



ヒストグラム上の値を編集すると、該当する列全体の値も変更されます。さらに、 アイコンを使って値を並べ替えることも可能です。

また、検索アイコンをクリックして、以下のいずれかの条件でヒストグラム内の値を検索できます。
  1. 含む
  2. 含まない
  3. が次の値と等しい
  4. が次の値と等しくない
  5. で始まる
  6. で始まらない
  7. で終わる
  8. で終わらない

Data 品質

DataPrep には、データの品質を測定・向上させるためのさまざまな設定があります。Data 品質は、データ準備ページで以下の観点から評価できます。
  • Data 品質 棒グラフ
  • 列 詳細セクション
  • Dataset 詳細セクション

Data 品質 棒グラフ

Data 品質 棒グラフは、各列のデータ品質を表しています。列のデータ型に基づき、データ品質は有効データ、無効データ、欠損値に分類されます。緑が有効データ、赤が無効データ、グレーが欠損値を示します。

セクションをクリックすると、DataPrep が該当する行をフィルターし、データセット内の無効値や欠損値を簡単に対応できます。
  1. Data 品質 棒グラフにカーソルを合わせると、その列のデータ品質をすぐに確認できます。

  1. 「すべての列の表示」オプションをクリックすると、すべての個別列のデータ品質を表示できます。

列 詳細セクション

列 詳細セクションでは、各列のデータ型、列内のユニーク値の数、欠損値・無効値・有効値の数とともに、列の概要が表示されます。
Notes
メモ: データ型を提案するため、データセットの最初の100行が処理されます。
  1. 列 詳細は、列が選択されると下部パネルに表示されます。
            

  1. このセクションでは、各列の上部に表示されているヒストグラムの詳細なバージョンが確認できます。ヒストグラム内の値を編集すると、列全体に反映されます。また、アイコンを使って値を並べ替えることも可能です。

  2. また、検索アイコンをクリックして、以下のいずれかの条件でヒストグラム内の値を検索することもできます。
    1. 含む
    2. 含まない
    3. 等しい
    4. が次の値と等しくない
    5. で始まる
    6. で始まらない
    7. で終わる
    8. で終わらない

       
  1. さらに、表示 その他の詳細リンクをクリックすると、選択した列の詳細情報が展開表示されます。このセクションでは、統計情報、外れ値、一意の値、データパターンなど、列に関するさまざまな内容を確認できます。

外れ値および異常検出

  1. Zoho DataPrep は機械学習技術を用いてデータ内の異常を検出します。これにより、ユーザーはデータパイプライン内の異常値を把握できます。異常値をデータセットに残すか削除するかを選択可能です。DataPrep の外れ値検出機能を示す簡単な GIF をご覧ください。



  2. また、列名の横にあるコンテキストメニューの設定から、表示 その他の詳細ページにウィジェットを表示することも選択できます。


Dataset 詳細セクション

Dataset 詳細では、ドーナツチャートを利用してデータセット全体のデータ品質を可視化します。数値は個々の列の品質を総合して算出されます。このセクションは、データセットがデータ準備画面に初めて読み込まれた時や、いずれの列も選択されていない場合に表示されます。

Dataset 詳細では以下の情報が表示されます。
  • サンプル行
  • サンプル戦略(ランダム、エラー、列ベース、初期データサンプルを含む)
  • 合計行数
  • 列数
  • データセット内のデータ型の数
  • ドーナツチャートで示されるデータセット全体のデータ品質
ドーナツチャートは、データを有効データ、無効データ、欠損値の割合(%)で分割して表示します。ドーナツチャートの各セクションをクリックすると、データセット内の有効、無効、欠損値を選択的に表示できます。


サンプル戦略

サンプルの生成は、変換作業を迅速化するために不可欠です。全データからさまざまな戦略を用いてサンプルを抽出します。初期サンプル戦略は、データセットを初めてインポートした時に使用されます。データ準備プロセスの途中でも、戦略はいつでも変更可能です。データセット詳細パネルの編集アイコンをクリックして、サンプル戦略を変更できます。


利用可能なサンプル戦略は以下の通りです:
  • 初期サンプル:インポートしたファイルの最初の5MBのデータから作成されます。
  • ランダムサンプル:インポートしたファイルからランダムに行を選択します。
  • エラーサンプル:無効または欠損データを含む行です。
  • 列ベースサンプル:選択した列の異なる値に基づいて作成されます。

インテリジェントサジェスト

DataPrepでは、インポートされたデータに基づき、データ準備をさらに効率化するための変換を提案します。提案は、1つまたは複数の列を選択した場合や、フィルターが適用された際に表示されます。
  1. 提案された変換のいずれかをクリックすると、Studioパネルに移動し、変換内容をデータに適用する前に有効なプレビューを確認できます。
  1. 必要に応じて、提案された操作を適用する前に、操作バーで設定や条件を編集できます。
      

検索とフィルター

検索とフィルターボックスを使って、検索操作やデータのフィルターが実行できます。検索とフィルターボックスは探索的な機能であり、ルールとして適用せずにデータセットをフィルターする方法を提供します。ただし、フィルターされた行を保持または削除することで、これらをルールとして適用することも可能です。

フィルターアイコンから検索とフィルターボックスの初期設定フィルターを選択することもできます:
  1. 有効な値を持つ行のみフィルター - 有効なデータのみが表示されます 
  2. 無効な値を持つ行のみフィルター - 無効なデータのみが表示されます
  3. 欠損値を持つ行のみフィルター - 欠損データのみが表示されます
  4. 欠損または無効な値を持つ行のみフィルター - 欠損または無効なデータのみが表示されます



カスタムフィルター条件に基づいてデータをフィルターしたい場合は、詳細オプションを使用できます。このオプションはデータをフィルターした後に表示されます。



データを検索する方法

  1. データを検索するには、検索およびフィルターボックスに値を入力します。検索したキーワードは、初期設定の条件「含む」に基づき、ボックス下にチップとして追加されます。
  2. チップを選択して、検索キーワードや条件をいつでも編集できます。


  1. 検索結果が表示されたら、保持または削除のいずれかを選択し、フィルターされた行を残すか削除するかを決められます。選択に応じて、フィルターされた行を含むか除いたデータセットが表示されます。
Notes
検索したすべてのキーワードは、詳細フィルターペインを開く際に自動的に含まれます。


データをフィルターする方法

  1. 他の方法でデータセットをフィルターする場合は、ヒストグラム・データ品質の棒グラフ・ドーナツチャートをクリックするだけです。



  2. フィルターを適用すると、検索およびフィルターボックスの下にチップが表示されます。チップを選択し、検索キーワードや関連付けられた条件をいつでも編集できます。
  3. 複数のフィルターを適用することもでき、フィルターごとにチップが追加されます。
Notes
1. 適用中のすべてのフィルターは、詳細フィルターペインを開く際に自動的に含まれます。
2. ペインを開いたまま追加したフィルターも同様に含まれます。
3. 詳細フィルターペイン内でフィルターの編集も可能です。
次のセクションでは 詳細フィルター について説明します。
  1. フィルターで利用できる条件は以下の通りです:
    1. 含む(初期設定)
    2. 含まない
    3. で始まる
    4. で始まらない
    5. で終わる
    6. で終わらない
    7. 次の値である
    8. が次の値と等しくない
    9. 正規表現に一致
  1. フィルタリング後、チップの横に表示される行を保持または行を削除ルールを選択して適用できます。
  2. 編集リンクを使用して、追加したフィルターを編集することもできます。
  3. 特定のフィルターを削除するには、チップにカーソルを合わせたときに表示される閉じるアイコンをクリックします。
  4. すべてのフィルターを一度に削除する場合は、クリアリンクをクリックしてください。

詳細フィルター

詳細フィルターオプションでは、複数の列にわたるカスタム条件に基づいてデータをフィルタリングできます。詳細フィルターは探索的な用途で利用でき、ルールとして適用することなくデータセットをフィルタリングする方法を提供します。ただし、フィルター後の行を保持または削除してルールとして適用することも可能です。データをフィルタリングすると、詳細リンクが表示されます。データのフィルタリングについての詳細はこちらをクリックしてください。

Notes
1. 詳細フィルターペインを開くと、すべてのフィルターが自動的に表示されます。
2. ペインを開いたままフィルターを追加した場合も含まれます。
3. 詳細フィルターペイン内でフィルターを編集することも可能です。

詳細フィルターを適用する方法

1. ドーナツチャート、ヒストグラム、または初期設定のフィルター設定をクリックしてデータをフィルターします。列を右クリックし、こちらをクリックしてデータのフィルタリングについての詳細を確認することもできます。

2. データグリッド上部に詳細リンクが表示されます。詳細リンクをクリックすると、ペインがスライドして表示されます。
     


2. フィルターに列を追加するには、アイコンをクリックします。ドラッグ&ドロップでフィルターの並び替えも可能です。

3. フィルターセクションに2つ以上のフィルターを追加すると、論理演算子ANDまたはORがフィルターの横に表示されます。ANDとORの切り替えはクリックで行えます。



4. 論理演算子を使って条件を組み合わせ、優先順位のルールを適用できます。最終的な式は条件式ボックスに表示されます。編集をクリックすると、論理演算子や括弧を使って優先順位や評価順を変更できます。必要な変更後、保存をクリックしてください。

例えば、「((1 OR 2) AND (3 OR 4))」という式の場合、まず(1 OR 2)の条件が実行され、その後(3 OR 4)の条件が実行されます。3番目に、AND演算子が使用されているため、両方の条件が真のときにフィルターが適用されます。

5. クリアボタンを使用して、すべてのフィルターを削除できます。

6. 頻度フィルターを追加した場合、ドロップダウンから以下のいずれかの設定を選択できます。
  1.  Actual:このオプションでは、列の実際の値に基づいて行をフィルターできます。
  2. Data 品質:このオプションでは、列内のデータの品質に基づいて行をフィルターできます。
  3. Patterns:このオプションでは、選択した列内のデータパターンに基づいて行をフィルターできます。
  4. Seasonal:このオプションでは、四半期・月・週などの季節パラメーターに基づいて行をフィルターできます。
  5. Outliers:このオプションでは、選択した列のデータ内に存在する外れ値に基づいて行をフィルターできます。
Notes
フィルター設定は、フィルター対象として追加した列のデータ型に応じて表示されます。フィルター設定の詳細についてはこちらをご覧ください。

7. フィルターボタンをクリックします。追加されたフィルターの数は、データグリッド上部に表示されるチップで確認できます。 

8. 詳細フィルターは、ルールを適用せずにデータをフィルターします。フィルター後のデータに満足したら、Keep rows」または「削除 rows」ルールを適用することができます。


Topbar

Studioページのトップバーには、左側にデータセット切り替え機能、右側にメニュー棒グラフがあります。トップバーのデータセット名横のドロップダウンをクリックすると、他のデータセットへ切り替えることが可能です。他のデータセットで残りのデータ準備作業をすぐに再開したい場合に便利です。

ドロップダウンを使用して、他のデータセットのデータ品質を確認することも可能です。これにより、ワークスペース内でデータ準備作業の優先順位を決めるのに役立ちます。