テキストからの抽出

テキストからの抽出

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




Zoho DataPrep では、設定を使用して列からデータの一部を特定し抽出することができます。extract変換を利用することで、列データの中から必要な部分のみを抽出できます。

例えば、列に英字と数字が混在していて、英字だけを取得したい場合。 テキスト列に値 'ABC123' がある場合、新規列に 'ABC' のみを抽出できます。 また、'123' や 'BC12' など、任意の組み合わせも新しい列に抽出可能です。

DataPrep では、次の設定を利用して列からデータを特定・抽出できます。
  1. 開始インデックスと終了インデックス
  2. 開始インデックスと長さ
  3. テキストまたはパターンの一致
  4. 数値
  5. 正規表現(Regex)
  6. 先頭 n 文字
  7. 末尾 n 文字
  8. 有効な値
  9. 無効な値
  10. メール
  11. URL

Extract 設定

上記の設定の一部について、詳細を以下にご案内します。

開始インデックスと終了インデックス

開始インデックス - 開始インデックスから値を抽出します。デフォルトの開始インデックスは1です。
終了インデックス - 終了インデックスまで値を抽出します。

開始インデックスと長さ

開始インデックス - 開始インデックスから値を抽出します。デフォルトの開始インデックスは1です。
長さ - 開始インデックスから指定した長さ分の値を抽出します。

テキストまたはパターンの照合

照合するテキストまたはパターン - 指定したテキストまたはパターンに一致する値を抽出します。
開始テキストまたはパターン - 指定したテキストまたはパターンから始まる値を抽出します。
終了テキストまたはパターン - 指定したテキストまたはパターンの前で終了する値を抽出します。
Notes
メモ : DataPrep でのパターンマッチングに慣れていない場合は、こちらをご覧ください。

番号

列内のテキストから数字を抽出します。

正規表現

正規表現パターン - 抽出したい値の正規表現を入力します。

最初の'n'文字

抽出する文字数 - 値の先頭から抽出する文字数を指定します。

最後の'n'文字

抽出する文字数 - 値の末尾から抽出する文字数を指定します。

有効な値

列から有効な値を抽出します。

無効な値

列から無効な値を抽出します。

メール

メール列からユーザー名、ドメイン、または両方を抽出します。



URL

URLのドメイン、ポート、パス、クエリパラメーター、その他を抽出します。



列からデータを抽出するには

1. テキスト列を右クリックし、コンテキストメニューから抽出オプションを選択します。

2. ベース列名項目で新しい列名を設定します。

3. 抽出設定のいずれかを選択し、選択した列から特定部分の値を抽出するのに必要な入力を行います。

4. 抽出した値を「列」または「リスト」として保存することも、出力の保存先オプションで選択できます。



Notes
大文字と小文字を区別しない : テキストやパターンの一致時に大文字と小文字を区別しません。
抽出する一致の番号 : 抽出する一致の番号を列として指定します。初期設定の番号は1です。

5. この変換は複数の列に同時に適用できます。アイコンを使用し、適用する列セクションで列を選択してください。

フィルターを適用する

この変換とあわせてフィルターを適用したい場合は、フィルター機能を利用できます。

1. フィルタータブをクリックします。

2. アイコンをクリックし、フィルターセクションに必要なカラムを追加します。ドラッグ&ドロップでフィルターの並び替えも可能です。


3. 追加した頻度列について、ドロップダウンから以下のいずれかの設定を選択できます。
  1. Actual: 実際の値に基づいて行をフィルタリングします。詳細はこちらをご覧ください。
  2. Data 品質: データの品質に基づいて行をフィルタリングします。詳細はこちらをご覧ください。
  3. Patterns: 選択した列のデータパターンに基づいて行をフィルタリングします。詳細はこちらをご覧ください。
  4. Seasonal: 四半期・月・週などのシーズナルパラメーターに基づいて行をフィルタリングします。詳細はこちらをご覧ください。
  5. Outliers: 選択した列のデータに存在する外れ値に基づいて行をフィルタリングします。詳細はこちらをご覧ください。
Notes
メモ: フィルターの設定は、フィルター対象として追加したカラムのデータ型によって表示内容が変わります。

4. フィルターセクションに2つ以上のフィルターを追加すると、フィルターの横にANDまたはORの論理演算子が表示されます。クリックすることでANDとORを切り替えることができます。
  1. 論理演算子を使って条件を組み合わせ、優先順位のルールを適用できます。最終的な式はCriteria expressionボックスに表示されます。編集をクリックして、論理演算子やかっこを使い、優先順位や評価順を指定するよう初期設定の式を変更できます。必要な変更を加えたら保存をクリックしてください。
  1. 例: ((1 OR 2) AND (3 OR 4))という式では、最初に条件(1 OR 2)が評価され、次に条件(3 OR 4)が評価されます。3番目に、AND演算子が使われているため、両方の条件が真である場合にフィルターが適用されます。
5. さらに、各フィルターの選択オプションに応じて、次のセクションで特定の値を絞り込んで選択できます。


例として、上記のスクリーンショットでは、Data 品質オプションがフィルターセクションのすべてのカラムフィルターに対して選択されています。選択内容に基づき、さらにフィルターで特定の値を設定するためのオプションがすべてのカラム(Data 品質)セクションに表示されます。

6. 最後のセクションで、選択した項目を含めるか除外するかを選択できます。

7. 何らかの理由で全てのフィルターを削除したい場合は、クリアボタンを使用できます。

8. フィルター変換の有効なプレビューが、変更を加えるたびに表示されます。

9. 適用するボタンをクリックすると、フィルターとともに変換が適用されます。

関連情報
値の件数
日付値の抽出方法
リストおよびマップカラムから値を抽出する方法