Zoho DataPrepを活用したデータ準備

Zoho DataPrepを活用したデータ準備

Zoho DataPrepは、データを整理/加工するためのサービスです。複数のデータソース(ファイルやデータベースなどのデータの取得元)から取得した大量のデータを簡単に整理することができます。Zoho DataPrepの機能を使用することで、Zoho Analyticsに保存されているデータを整理/加工することが可能です。これにより、分析する前にデータを整理してデータの品質を保持し、実際のデータがレポートや指標データに正しく反映されるようにすることができます。



データのインポート時におけるデータ準備

Zoho DataPrepを使用している場合、Zoho Analyticsにデータをインポートする際にZoho DataPrepの機能を使用してデータを整理できます。データを整理するには、初回のインポートの設定画面で[データの準備]をクリックします。以下の画像のようにZoho DataPrepの画面が表示されます。



画面右側の[データセットの詳細情報]の欄には、インポートするデータの品質に関する詳細情報が表示されます。



既存のテーブルのデータ準備

データのインポート時以外にもZoho DataPrepの機能を使用してデータを整理できます。すでにインポートしたデータに対してデータ準備を行うには、テーブルの画面上部の[その他]をクリックします。データの品質を確認する場合は[データ品質を表示する]を選択し、データをすぐに整理/加工する場合は[データの準備]を選択します。


データ品質の表示

[その他]のメニューで[データ品質を表示する]を選択すると、対象のテーブルにおけるデータの品質の概要を確認できます。こちらの画面で確認できる概要情報は、以下のとおりです:

  1. データの品質分析 - テーブル内の列、行、データの種類の件数が表示されます。
  2. データの品質(グラフ) - テーブル内のデータの品質を表すグラフが表示されます。
  3. 列単位のデータの品質 - 無効なデータを含む列の一覧が表示されます。

データの準備

[その他]のメニューで[データの準備]を選択すると、Zoho DataPrepのデータ準備の画面が表示されます。以下では、Zoho DataPrepのデータ準備の画面に表示される各項目について説明します。

データ品質のグラフ(横棒グラフ)

Zoho DataPrepのデータ準備の画面では、さまざまな角度からデータの品質を確認し、データを整理することができます。上記のデータの品質の表示画面に加えて、データ準備の画面でもデータの品質を確認することが可能です。

各列の上部にある横棒グラフは、列内のデータの品質を表します。データの品質は有効なデータ、無効なデータ、欠損データの3種類に分類されます。 

また、有効なデータは緑色、無効なデータは赤色、欠損データは灰色で表示されます。横棒グラフ内のいずれかのセクションをクリックすると、対象のデータのみを抽出して表示できます。無効なデータや欠損データのみを抽出して簡単に整理/加工することが可能です。 

横棒グラフにマウスのカーソルを合わせると、列のデータの品質の概要が表示されます。列のデータの品質をすばやく確認するのに役立ちます。こちらの概要画面から特定のデータを抽出して整理/加工することもできます。

[すべての列を表示する]をクリックすると、すべての列のデータの品質の概要が表示されます。 


データセット(テーブル)の詳細情報 

Zoho DataPrepでは、データの準備/加工処理を行う対象のデータは「データセット」と呼ばれます。Zoho Analyticsのテーブルは、Zoho DataPrepの画面でデータセットとして扱われます。[データセットの詳細情報]では、データセット(テーブル)全体のデータの品質や概要を確認できます。 

[データセットの詳細情報]の欄は、データ準備の画面に移動した際や列が選択されていない際に表示されます。 

[データセットの詳細情報]に表示される内容は以下のとおりです:

  • サンプルデータの行数
  • サンプルの作成方法(データ準備の画面に表示するサンプルデータの抽出方法を指定できます。4種類の方法から指定可能です)
  • 行数
  • 列数
  • データの種類の件数

[サンプルデータの行数]、[サンプルの作成方法]の項目は、対象のデータセット(テーブル)のデータ量が多い場合に表示されます。データ量が少ない場合は表示されません。



サンプルの作成方法

[サンプルの作成方法]の項目では、データ準備の画面に表示するサンプルデータの抽出方法を指定できます。サンプルデータは、4種類の方法から作成可能です。また、必要に応じてデータの準備/加工中にいつでも変更できます。サンプルデータの作成方法を変更するには、[サンプルの作成方法]の項目の[編集]アイコンをクリックします。

選択可能なサンプルデータの作成方法は以下のとおりです: 

  • 先頭データからのサンプル - 対象のデータセット(テーブル)において、先頭から特定の件数のデータを抽出してサンプルデータを作成します。
  • ランダムなサンプル - 対象のデータセット(テーブル)において、特定の件数のデータをランダムに抽出してサンプルデータを作成します。 
  • エラーからのサンプル - 対象のデータセット(テーブル)において、無効なデータまたは欠損データを抽出してサンプルデータを作成します。 
  • 列からのサンプル - 対象のデータセット(テーブル)において、選択した列の重複しないすべての値を抽出してサンプルデータを作成します。


データ品質のグラフ(ドーナツグラフ)

データ品質のグラフ(ドーナツグラフ)には、有効なデータ、無効なデータ、欠損データの割合が表示されます。ドーナツグラフの各セクションをクリックすると、有効なデータ、無効なデータ、欠損データの詳細情報を確認できます。以下の画像は、グラフの例です。



データの分布

各列の上部にあるヒストグラムは、列内のデータの分布やデータの値の範囲を表します。列内の異常値を識別するのに役立ちます。ヒストグラム内の各セクションをクリックすると、特定の分布や範囲のデータのみを抽出して表示できます。 


列の詳細情報

データ準備の画面で列の見出し(ヘッダー)をクリックすると、画面右側に列の詳細情報が表示されます。 

  • 列名、データの種類、重複しない値の数、欠損値/無効な値の数などの列のデータに関する詳細情報を確認できます。 
  • 加工処理の一覧から[データの種類を変更]を選択すると、列のデータの種類を変更することが可能です。 
  • また、[詳細をさらに表示する]をクリックすると、選択した列の詳細情報をより詳しく確認できます。  



ヒストグラム

列の詳細情報の画面に表示されるヒストグラムでは、列内のデータの分布やデータの値の範囲をより詳しく確認できます。こちらからデータを検索したり、フィルターを適用したりすることも可能です。また、以下の画像のように、ヒストグラム内の値の[編集]アイコンをクリックし、列内の値を変更することもできます。

 

候補の自動提案

Zoho DataPrepには、列に対する加工処理の候補を自動で提案する機能が用意されています。候補の中から処理を選択し、データの準備/加工処理をすばやく行うことができます。加工処理の候補は、対象のデータセット(テーブル)に基づいて自動で表示されます。加工処理の候補は列単位またはデータセット(テーブル)単位で表示されます。いずれかの列を選択すると、画面右側に加工処理の候補が表示されます。列を選択していない際には、データセット(テーブル)単位での加工処理の候補が表示されます。

  • いずれかの加工処理の候補をクリックすると、対象の加工処理の画面が表示されます。また、対象の列の隣に、加工処理を適用した場合の値のプレビューも表示されます。 
  • 加工処理の画面で処理の内容を指定し、プレビューで加工処理を適用した後の列を確認することが可能です。 


列の情報の詳細表示

列の詳細情報の画面で[詳細をさらに表示する]をクリックすると、対象の列の詳細情報をより詳しく確認できます。

列の情報の詳細表示画面で確認できる内容は、以下のとおりです:

  • 概要 - 列のデータに関する概要が表示されます。
  • 統計 - 列のデータに関する統計情報が表示されます。
  • ヒストグラム - 列のデータ内の重複しない値または値の範囲が表示されます。表示される内容は、列のデータの種類によって異なります。
  • 異常値 - 異常値が表示されます。たとえば、文字数が極端に多い値や、他の値と形式が異なる値が異常値として検出されます。表示される内容は、列のデータの種類によって異なります。
  • 列単位のデータの品質 - 列のデータの品質を表すグラフが表示されます。有効なデータ、無効なデータ、欠損データの割合を確認できます。
  • パターン - 列内のデータで識別されたパターン(形式)を出力します。
  • 候補 - 列に対する加工処理の候補が表示されます。候補の中から処理を選択し、データの準備/加工処理をすばやく行うことができます。 


検索とフィルター

画面上部の[検索とフィルター]の欄では、データを検索したり、フィルターを適用してデータを抽出したりすることができます。検索するキーワードを欄に入力すると、候補のデータが表示されます。こちらをクリックして検索結果をすばやく確認することも可能です。 

また、[検索とフィルター]の欄のフィルターアイコンをクリックすると、標準のフィルター条件をもとにデータの品質に応じてデータを抽出できます。 

  • キーワードを入力して検索すると、フィルターの欄が表示されます。こちらから条件を選択したり、キーワードを変更したりすることが可能です。 
  • 適用可能な条件は以下のとおりです:
    • 次の値を含む(初期値)
    • 次の値を含まない
    • 次の値で始まる
    • 次の値以外で始まる
    • 次の値で終わる
    • 次の値以外で終わる
    • 次の値と等しい
    • 次の値と等しくない
  • 別のキーワードを入力して検索すると、フィルターの欄が追加されます。
  • フィルターの欄を削除するには、欄に表示される[X]アイコンをクリックします。
  • すべてのフィルターを削除するには、[すべてクリアする]をクリックします。


元に戻す/やり直す

[元に戻す][やり直す]ボタンは、検索欄の左側に表示されます。[元に戻す]をクリックすると、直前に行われた加工処理をもとに戻すことができます。また、[やり直す]をクリックすると、直前に行われた加工処理を再度行うことが可能です。




加工処理の適用

データ準備の画面で列の見出し(ヘッダー)を右クリックすると、適用可能な加工処理のメニューが表示されます。メニューから加工処理を選択して内容を指定すると、列に対して加工処理を適用することができます。加工処理を選択して内容を指定する際には、対象の列の隣に加工処理後の列のプレビューが表示されます。

また、複数の列に対して同じ加工処理を適用することも可能です。適用するには、加工処理の画面の[適用する列]で列を選択します。適用した加工処理はルールとして記録され、[ルールセット]から確認できます。 




Zoho DataPrepで行える操作とZoho Analytics内のZoho DataPrepの機能を通じて行える操作の違い

データセット(テーブル)に対して処理を行うにあたって、Zoho DataPrepで行える操作とZoho Analytics内のZoho DataPrepの機能を通じて行える操作は異なります。それぞれの違いは、以下の表のとおりです:

機能DataPrepZoho Analytics内の機能
インポート時インポート後
データセット(テーブル)の加工処理   
重複の削除
結合××
追加××
ピボット(クロス集計)××
列から行への変換×
フィルター
選択×
数式の追加×
分析関数×
派生データセットの作成××
    
列の加工処理   
データの種類の変更×
置換
分割×

 

×
空白の削除
切り詰め
接頭語/接尾語の追加
空白セルへの値の入力
件数の算出×
抽出×
形式の変更×
四捨五入
区分の作成×
表記ゆれの解消
大文字/小文字の変更
言語の検出×
キーワードの抽出×
感情分析×
日付形式の変更×
日付形式の統一×
マップから抽出×
リストから抽出×
列の並べ替え
列名の変更×
列の削除×
列の移動×

Zoho DataPrepで実行可能な加工処理の詳細については、こちらをご参照ください。


ルールセット

データセット(テーブル)に適用した加工処理はルールとして実行順に記録されます。Zoho DataPrepでは、複数のルールの組み合わせ(一覧)は「ルールセット」として扱われます。ルールセットの画面では、これらの記録された加工処理(ルール)の一覧を確認できます。また、こちらの画面からルールを適用し直したり、削除したりすることも可能です。 



ルールセットにアクセスするには、以下の手順を実施します:

  1. データ準備の画面右側にある[ルールセット]アイコンをクリックします。
  2. ルールセットの画面が表示されます。こちらの画面上部には、データセット(テーブル)のデータソース(データの取得元)が表示されます。 
  3. 最後に適用されたルールの前のルールの欄をクリックすると、対象のルールが適用された状態のデータセット(テーブル)のデータが表示されます。対象のルールの欄に表示されるメニューアイコンから、適用したルールを編集できます。 
  4. また、ルールの欄をクリックすると、その後に適用されたルールは選択できない状態(灰色)で表示されます。  
  5. 最後に適用されたルールとその前のルールの間で新しい加工処理を適用すると、その間に新しいルールが追加されます。  
  6. その場合、新しいルール以降の加工処理が再度実行されます。エラーが発生した際は、対象のルールが強調表示されます。 
  7. たとえば、最後に適用されたルールとその前のルールの間で「名」の列を削除する加工処理を適用し、ルールが新しく追加されたとします。最後に適用されたルールで「名」の列が使用されている場合は加工処理を実行できないため、エラーが発生し対象のルールが強調表示されます。 


ファイルの解析情報 

対象のデータセット(テーブル)のデータソース(データの取得元)がCSV、TSV、TXT形式のファイルの場合、ファイルの解析情報を確認できます。データのインポート後にファイルの解析情報を確認することはできませんのでご注意ください。ファイルの解析情報を確認するには、以下の手順を実施します:

  1. データ準備の画面右側にある[ルールセット]アイコンをクリックします。 
  2. ルールセットの画面が表示されます。こちらの画面上部には、データセット(テーブル)のデータソース(データの取得元)が表示されます。 
  3. [データソース]の欄で[設定]アイコンをクリックし、[ファイルの解析情報を表示する]をクリックします。 
  4. ファイルの文字コード、区切り文字、テキストの引用符などのファイルの解析情報が表示されます。 
  5. 選択可能なファイルの文字コードは、以下の表のとおりです:
    IBM00858IBM857ISO-8859-6US-ASCIIwindows-1253
    UTF-8IBM862ISO-8859-7UTF-16windows-1254
    IBM437IBM866ISO-8859-8UTF-16BEwindows-1255
    IBM775ISO-8859-1ISO-8859-9UTF-16LEwindows-1256
    IBM850ISO-8859-2ISO-8859-13windows-1250windows-1257
    IBM852ISO-8859-3KOI8-Rwindows-1251x-IBM737
    IBM855ISO-8859-4KOI8-Uwindows-1252x-IBM874
    x-UTF-16LE-BOM

  6. [区切り文字]の欄では、区切り文字を選択できます。選択可能な区切り文字は、コンマ(,)、タブ、セミコロン(;)、スペース( )、パイプ(|)です。
  7. [テキストの引用符]の欄では、テキストのデータの種類において使用される引用符を選択できます。選択可能な引用符は、単一引用符(')、二重引用符(")です。
  8. [最初の行をスキップする]の欄では、データのインポート時にスキップする行数を指定できます。
  9. [見出し(ヘッダー)を含むデータ]のチェックボックスにチェックを入れる場合、見出し(ヘッダー)の行番号を指定します。こちらで入力した行番号が列の見出し(ヘッダー)として識別されます。


ルールセットの操作

ルールセットの操作メニューでは、ルールセットからルールを検索したり、ルールセットの変更履歴を確認したりできます。ルールセットの操作メニューの一覧は以下のとおりです: 

  • ルールセットの履歴
  • 検索

ルールセットの履歴 - ルールセットの操作履歴を時系列順に確認できます。ルールを作成/変更したユーザー、操作日時、操作内容などの詳細情報を確認することが可能です。 

検索 - ルールセット内のルールを検索できます。  たとえば、列名を検索し、対象の列に対して行われた操作を確認することが可能です。


各ルールの操作

各ルールのメニューアイコンをクリックすると、操作メニューが表示されます。こちらからルールを編集/削除したり、無効にしたりできます。また、[次の前にルールを挿入する]をクリックすると、選択中のルールの直前に新しいルールを挿入することが可能です。[情報を表示する]をクリックすると、ルールに関する情報を確認できます。

編集する - 適用したルールの加工処理を編集できます。[編集する]をクリックすると、対象の加工処理の画面が表示されます。内容を入力して[適用する]をクリックすると、新しい内容で加工処理が再適用されます。 

削除する - ルールセットから対象のルールを削除できます。削除すると、削除したルール以降の加工処理が再度実行されます。 

メモ:削除したルールを元に戻すこともできます。元に戻すには、画面左上の[元に戻す]ボタンをクリックします。 

無効にする - ルールセット内のルールを無効にできます。無効にすると、無効にしたルール以降の加工処理が再度実行されます。同じ操作メニューから再度有効にできます。 

次の前にルールを挿入する - 選択中のルールの直前に新しいルールを挿入できます。[次の前にルールを挿入する]をクリックすると、対象のルールの直前に新しい欄が表示されます。加工処理を適用した後、こちらの欄に加工処理のルールが記録されます。 

情報を表示する - ルールの操作を行ったユーザーに関する情報を確認できます。また、ルールの操作日時や、操作を行ったユーザーの一覧も確認可能です。 


データセット(テーブル)への変更内容の適用

加工処理の内容を指定した後、[適用する]をクリックするとデータセット(テーブル)への変更内容が適用されます。 

その際、適用する範囲を指定できます。指定可能な範囲は以下のとおりです: 

  • 今回のみ
  • 今回と今後の予約済みのインポート
  • 今後の予約済みのインポートのみ

データフロー

Zoho Analyticsの[データソース]の画面では、データをインポートしてデータの準備/加工処理を行い、保存するまでの流れを確認できます。これらの一連の流れは、[データフロー]の欄に表示されます。こちらでは、データに加工処理を再適用したり、適用した加工処理を削除したりできます。



編集

[編集する]をクリックすると、Zoho DataPrepの画面が表示されます。こちらからデータの準備/加工処理を再度行うことができます。


削除 

[削除する]をクリックすると、適用したデータの加工処理を削除できます。データはインポートした元のデータに復元されます。 


準備済みデータを元に戻す

データに対して直前に適用した加工処理を元に戻すことができます。元に戻すには、テーブルの画面上部の[その他]をクリックし、メニューから[準備済みデータを元に戻す]を選択します。加工処理を誤って適用してしまった際や、加工処理を元に戻したい際に役立ちます。

[準備済みデータを元に戻す]の操作は、テーブルに対して加工処理を行った後にのみ表示されます。[準備済みデータを元に戻す]を選択して確認画面で[はい]をクリックすると、加工処理を行う直前のデータに復元されます。

この操作では、直前の加工処理のみを元に戻すことができます。それ以前の加工処理を元に戻すことはできません。また、実行後に操作を取り消すことはできません。実行後には加工処理を再適用することができます。



データのインポート/エクスポート

Zoho DataPrepからZoho Analyticsへのデータのインポート

Zoho DataPrep用の詳細分析コネクターを使用すると、Zoho DataPrepに保存されている準備/加工済みデータをZoho Analyticsにインポートできます。Zoho DataPrepからZoho Analyticsにデータを定期的にインポートするためのスケジュール処理を設定することも可能です。Zoho DataPrep用の詳細分析コネクターに関する詳細については、こちらをご参照ください。



Zoho AnalyticsからZoho DataPrepへのデータのインポート

Zoho DataPrepでは、Zoho Analyticsからデータをインポートできます。以下の画像は、Zoho DataPrepの操作画面でZoho AnalyticsからZoho DataPrepにデータをインポートする例です。データを定期的にインポートするためのスケジュール処理を設定することも可能です。Zoho AnalyticsからZoho DataPrepへのデータのインポート方法については、こちらをご参照ください。



Zoho DataPrepからZoho Analyticsへのデータのエクスポート

Zoho DataPrepでは、準備済みデータをZoho Analyticsにエクスポートできます。以下の画像は、Zoho DataPrepの操作画面でZoho DataPrepからZoho Analyticsにデータをエクスポートする例です。データを定期的にエクスポートするためのスケジュール処理を設定することも可能です。Zoho AnalyticsからZoho DataPrepへのデータのエクスポート方法については、こちらをご参照ください。



トラブルシューティング

1.テーブルでのデータ準備時にエラーを修正するには?

テーブルでのデータ準備時にエラーを修正するには、テーブルの画面上部の[その他]をクリックし、メニューから[準備済みデータを元に戻す]を選択します。これにより、直前の加工処理を適用する前のデータに復元されます。


2.データのインポート時に無効なデータや欠損データを修正するには? 

Zoho DataPrepには、無効なデータや欠損データを修正するための機能がたくさん用意されています。検索と置換、切り詰め、形式の変更、空のセルへの値の入力、日付形式の統一、データの種類の変更など、さまざまな操作が可能です。



3.Zoho DataPrepのデータ準備の機能をすべて利用するにはどうすればよいですか?

Zoho DataPrepのデータ準備の機能に比べて、Zoho Analyticsの操作画面から行えるデータ準備の操作には制限があります。Zoho DataPrepのデータ準備の機能をすべて利用するには、Zoho AnalyticsからZoho DataPrepにデータをインポートしてデータの準備/加工処理を行い、完了後にZoho DataPrepからZoho Analyticsにデータをエクスポートすることをお勧めします。


4.インポートのスケジュール処理中にエラーが発生した場合はどうすればよいですか? 

インポートのスケジュール処理中にエラーが発生した場合は、データを再度インポートし、データに加工処理を再適用してください。


5.Zoho DataPrepを活用してZoho Analyticsのデータの準備を効率よく行うにはどうすればよいですか? 

Zoho DataPrepを活用してZoho Analyticsのデータの準備を効率よく行うには、Zoho DataPrepでデータの準備/加工処理を行い、その後、対象のデータをZoho Analyticsにエクスポートすることをお勧めします。 


6.Zoho DataPrepからZoho Analyticsの既存のテーブルにデータをインポートするには?

現在、Zoho DataPrepからZoho Analyticsの既存のテーブルにデータをインポートすることはできません。インポートできるように対応中です。