データパイプライン

データパイプライン

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

組織にはさまざまなソースから大量のデータがあり、その生データを分析に適した形に整備する必要があります。Zoho 分析のビジュアルデータパイプラインビルダーを使用すると、複数のデータステージを含むデータフローを作成し、詳細なデータ変換機能を適用して、分析に適したデータを準備できます。これにより、データ準備プロセスを自動化できるため、データ準備に費やす時間を大幅に削減できます。

データパイプラインの作成

データパイプラインの作成は、データ取り込みデータ変換パイプライン実行という 3 つの主要なステージで構成されます。

データ取り込み

Zoho 分析では、ファイルやフィード、クラウドストレージ、データベースやデータレイク、業務アプリケーションなど、さまざまなデータソースからワークスペースにデータをインポートして分析できます。パイプラインを作成するためにテーブルを選択し、必要なデータクレンジングおよび変換機能を適用します。

  1. サイドナビゲーションパネルの[作成]アイコンをクリックし、ドロップダウンメニューから[Data Pipeline]を選択します。
  2. [Table selection for the data pipeline]ペインで、パイプラインに使用するテーブルを選択し、[次]をクリックします。
  3. Pipeline builder(Zoho DataPrep 搭載)のウィンドウが開きます。
  4. ステージは、データフローの変換を適用しながらデータを処理するためのノードとして作成されます。選択した各テーブルには、デフォルトで 1 つのステージが作成されます。

データ変換

  1. [+]アイコンをクリックし、[Prepare Data]を選択して DataPrep Studio ページを開き、その他のデータ変換を行います。
  2. もしくは、ステージを右クリックし、そのステージに追加する必要な変換機能を選択します。
    • Append:2 つ以上のデータセットを結合し、同じ構造(列)を前提として、一方のデータセットの行をもう一方に追加します。
    • Join:共通のキーに基づいて 2 つのデータセットを結合し、両方のデータセットの列をまとめます。
    • Pivot:1 つの列のユニークな値を複数の列に変換します。
    • Unpivot:列を行に変換し、ピボット操作を元に戻します。ワイド形式のデータを正規化して縦長形式にする際によく使用されます。
  3. データフローの作成が完了したら、最終ステージを右クリックし、[Create as an output table]を選択します。

パイプライン実行

出力テーブルを作成すると、Zoho 分析では、データパイプラインを手動実行するか、スケジュールを設定して自動実行するかを選択できます。作成したパイプラインは、最初は[下書き]として保存されます。パイプラインをワークスペースのテーブルとして追加するには、[下書き]オプションをクリックし、ステータスを[Ready に設定]に変更します。

手動実行

右上の[Run]オプションをクリックします。各パイプライン実行はジョブとして保存され、実行ごとに概要が表示されます。

パイプライン実行のスケジュール設定

パイプラインをスケジュールすると、あらかじめ定義した間隔でデータパイプラインの実行を自動化できます。毎回手動でパイプラインを実行する代わりに、特定の時刻や頻度で自動的にパイプラインを起動するスケジュールを設定できます。

パイプライン実行をスケジュールするには、

  1. 右上の[Schedule]オプションをクリックします。
  2. [繰り返し]オプションから、パイプラインを実行する間隔を選択します。サポートされている実行間隔は次のとおりです。
    • Every N Hours
    • Every Day
    • Weekly Once
    • Monthly Once
  3. パイプラインを実行するタイムゾーンを選択します。デフォルトでは、ローカルのタイムゾーンが選択されています。
  4. [一時停止する Schedule が次の後]オプションでは、指定した回数の失敗後にスケジュールを停止するように設定できます。

ジョブ概要

パイプラインの実行はジョブと呼ばれ、ジョブではパイプライン内でのインポート、変換、エクスポートの進行状況が追跡されます。パイプラインが実行されるたびに、ジョブ概要が表示されます。

概要

[概要]タブには、次のようなパイプライン実行に関する一般的な詳細が表示されます。

  • パイプラインステータス:実行が成功したか失敗したかを示します。
  • 期間:実行にかかった時間です。
  • Run by:パイプラインを実行したユーザーです。
  • 使用ストレージと処理データ:データパイプラインの実行に使用された合計データストレージと行数を表示します。
  • 開始時間と終了時間:実行の開始時刻と完了時刻を表示します。

ステージ

[Stages]タブには、パイプライン内の各ステージの詳細な概要が表示されます。ここでは、データフローの作成に使用されたテーブル、テーブルに適用された変換機能、エクスポートされる最終テーブルの詳細などを確認できます。

出力

[Output]タブには、データ品質、消費された合計行数、データサイズ、最終テーブルのパイプライン実行ステータスが表示されます。

パイプラインの編集

[編集 Pipeline]オプションを使用すると、パイプラインフローを変更できます。このオプションを選択すると、パイプラインビルダーペインが開きます。


ジョブ履歴

[ジョブ履歴]には、すべてのパイプライン実行のデータが表示され、実行時間、ステータス、実行を開始したユーザー、消費されたストレージと行数などの詳細を確認できます。手動実行と同期スケジュールによるジョブも個別に一覧表示されます。

 

データパイプラインの管理

[Data Sources]タブには、設定済みのすべての外部連携と、ワークスペース内で作成されたデータパイプラインフローが一覧表示されます。
[Pipelines]タブをクリックすると、ワークスペース内のパイプラインを表示および管理できます。ここでは、各パイプラインの最終更新日時、最終実行時間、次回スケジュール、スケジュールステータスなどの一般的な情報が提供されます。

  1. 任意のパイプラインをクリックすると、Pipeline Builderが開き、パイプラインの変更や実行を行えます。
  2. [その他]アイコンをクリックすると、ジョブ履歴の表示やパイプラインの削除を行えます。