テキストからの抽出

テキストからの抽出

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




Zoho DataPrep では、設定を利用して列からデータの一部を特定し抽出できます。extract変換を使うことで、列データの非常に特定の部分を抽出することが可能です。

例えば、列に英字と数字が混在していて、英字のみが必要な場合があります。 テキスト列に「ABC123」という値がある場合、「ABC」という値を新規列に抽出できます。 「123」や「BC12」、その他の組み合わせも新しい列に抽出することができます。

DataPrep では、列からテキストを特定して抽出するための以下の設定を提供しています:
  1. 開始位置と終了位置
  2. 開始位置と長さ
  3. テキストまたはパターンの一致
  4. 数字
  5. 正規表現
  6. 先頭から n 文字
  7. 末尾から n 文字
  8. 有効な値
  9. 無効な値
  10. メール
  11. URL

抽出設定

上記のいくつかの設定について、さらに詳しく説明します。

開始インデックスと終了インデックス

開始インデックス - 開始インデックスから値を抽出します。初期設定の開始インデックスは1です。
終了インデックス - 終了インデックスまで値を抽出します。

開始インデックスと長さ

開始インデックス - 開始インデックスから値を抽出します。初期設定の開始インデックスは1です。
長さ - 開始インデックスから指定した長さ分の値を抽出します。

テキストまたはパターンの一致

照合するテキストまたはパターン - 指定したテキストやパターンに一致する値を抽出します。
開始テキストまたはパターン - 指定したテキストやパターンから始まる値を抽出します。
終了テキストまたはパターン - 指定したテキストやパターンの直前で終わる値を抽出します。
Notes
メモ:DataPrepでのパターンマッチングに慣れていない場合は、こちらをご覧ください。

数字

列内のテキストから数字を抽出します。

正規表現

正規表現パターン - 抽出したい値の正規表現を入力します。

最初の「n」文字

抽出する文字数 - 値の先頭から抽出したい文字数を指定します。

最後の「n」文字

抽出する文字数 - 値の末尾から抽出したい文字数を指定します。

有効な値

列から有効な値を抽出します。

無効な値

列から無効な値を抽出します。

メール

メール列からユーザー名、ドメイン、または両方を抽出します。



URL

URLのドメイン、ポート、パス、クエリパラメーターやその他の情報を抽出します。




列からデータを抽出するには

1. テキスト列を右クリックし、コンテキストメニューから抽出オプションを選択します。

2. 基準列名項目で新しい列名を指定します。

3. 抽出設定のいずれかを選択し、特定の部分を抽出するために必要な入力値を指定します。

4. 抽出した値を「列」または「リスト」として保存することも保存形式オプションで選択できます。



Notes
大文字・小文字を無視:テキストまたはパターンの一致時に大文字・小文字を区別しません。
抽出する一致数:カラムとして抽出する一致数を指定します。初期設定の番号は1です。

5. この変換は複数のカラムに同時に適用できます。アイコンを使い、適用するカラムセクションでカラムを選択してください。

フィルターを適用する方法

この変換と一緒にフィルターも適用したい場合は、フィルター機能を利用できます。

Info
変換はフィルターが適用された行のみに実行され、全データセットには適用されませんのでご注意ください。

1. フィルタータブをクリックします。

2. アイコンをクリックし、フィルターセクションで必要なカラムを追加します。ドラッグ&ドロップでフィルターの並び替えも可能です。



3. 頻度列が追加された場合、ドロップダウンから以下のいずれかの設定を選択できます:
  1. Actual: このオプションでは、列内の実際の値に基づいて行をフィルターできます。詳細はこちらをご覧ください。
  2. Data 品質: このオプションでは、列内データの品質に基づいて行をフィルターできます。詳細はこちらをご覧ください。
  3. Patterns: このオプションは、選択した列のデータパターンに基づいて行をフィルターするのに役立ちます。詳細はこちらをご覧ください。
  4. Seasonal: このオプションは、四半期、月、週などの季節パラメーターに基づいて行をフィルターできます。詳細はこちらをご覧ください。
  5. Outliers: このオプションでは、選択した列のデータに存在する外れ値に基づいて行をフィルターできます。詳細はこちらをご覧ください。
Notes
メモ: フィルター設定は、フィルター対象となる列のデータ型に応じて表示されます。

4. フィルターセクションに2つ以上のフィルターを追加すると、ANDまたはORの論理演算子がフィルターの横に表示されます。クリックすることで、ANDとORの論理演算子を切り替えられます。
  1. 論理演算子を使用して条件を組み合わせ、優先順位のルールを適用できます。最終的な式は条件式ボックスに表示されます。編集をクリックして論理演算子やかっこを利用し、優先順位や評価順を指定して初期設定の式を変更できます。必須の変更を行った後は保存をクリックしてください。
  1. 例として、式 ((1 OR 2) AND (3 OR 4)) では、まず (1 OR 2) の条件が実行され、次に (3 OR 4) の条件が実行されます。最後にAND演算子が使用されているため、両方の条件が真の場合にフィルターが適用されます。
5. 各フィルターのフィルターオプションに基づき、次のセクションでさらに特定の値を選択して絞り込むことができます。



例えば、上記のスクリーンショットでは、Data 品質オプションがフィルターセクションのすべての列フィルターで選択されています。選択内容に基づき、さらに特定の値でフィルター設定を行うことができ、すべての列(Data 品質)セクションに表示されます。

6. 最後のセクションで、選択した商品を含めるか除外するかを選択できます。

7. 何らかの理由ですべてのフィルターを削除したい場合は、クリアボタンを使用できます。

8. フィルター変換の有効なプレビューは、変更を加えると表示されます。

9. 適用するボタンをクリックして、フィルターとあわせて変換を適用します。

データを並べ替えるには

並べ替えタブでは、任意の列を基準に昇順または降順でデータを並べ替えることができます。並べ替え列のドロップダウンから列を選択し、並べ替え順を指定します。

Info
この機能は変換と組み合わせてのみ使用でき、単独では利用できません。ただし、データだけを並べ替えたい場合は並べ替え変換を使用できます。



関連情報
値の件数
日付の値を抽出する方法
リストおよびマップ列から値を抽出する方法