DataPrepのAIと機械学習を活用したキーワード抽出操作で、選択したテキスト列からキーワードを抽出できます。
例えば、テキスト列に「DataPrep is Powered By Artificial Intelligence」という値がある場合、キーワード抽出変換の結果は['DataPrep','Artificial Intelligence']となります。
テキスト列からキーワードを抽出する方法
1. 列を右クリックし、コンテキストメニューからキーワード抽出を選択します。
2. 新規列名欄に、生成される列の名前を入力します。
3. 最大抽出キーワード数項目で、列データから抽出するキーワードの最大数を指定します。
4. キーフレーズ内の最大キーワード数項目で、1つのキーワードセット内の最大単語数を指定します。例えば「Operating System」というフレーズの場合、キー長の値は最大2となります。
5. 抽出したいキーワードの種類を選択します。抽出可能なキーワードの種類は次の通りです。
6. DataPrepは変換中に列の有効プレビューを表示します。 プレビューする ボタンをサイドパネル下部でクリックすると、出力列をプレビューできます。
7. この変換は1つの列のみに適用できます。適用する ボタンをクリックして変換を適用してください。
フィルターを適用する方法
この変換と同時にフィルターを適用したい場合は、フィルター機能を利用できます。
1. フィルター タブをクリックします。
2.

アイコンをクリックし、
フィルター セクションに必要な列を追加します。ドラッグ&ドロップでフィルターの並べ替えも可能です。
3. 追加した頻度列に対して、以下のいずれかの設定をドロップダウンから選択できます:
- Actual: 実際の値に基づいて行をフィルターします。詳細はこちらをご覧ください。
- Data 品質: データの品質に基づいて行をフィルターします。詳細はこちらをご覧ください。
- Patterns: 選択済み列のデータパターンに基づいて行をフィルターします。詳細はこちらをご覧ください。
- Outliers: 選択済み列のデータに存在する外れ値に基づいて行をフィルターします。詳細はこちらをご覧ください。
メモ: フィルターの設定は、追加された列のデータ型に基づいて表示されます。
4. フィルター セクションに2つ以上のフィルターを追加すると、フィルターの横に論理演算子「AND」または「OR」が表示されます。クリックして論理演算子を「AND」と「OR」で切り替えられます。
- 論理演算子を使用して条件を組み合わせ、優先順位のルールを適用できます。最終的な式はCriteria expression ボックスに表示されます。編集 をクリックすると、論理演算子や括弧を使って優先順位や評価順を指定し、初期設定の式を変更できます。必要な変更を加えた後、保存 をクリックしてください。
- 例えば、式 ((1 OR 2) AND (3 OR 4)) では、まず (1 OR 2) の条件が実行され、その後に (3 OR 4) の条件が実行されます。3番目に、AND演算子が使用されているため、両方の条件が真の場合にフィルターが適用されます。
5. さらに、各フィルターで選択済みのフィルターオプションに基づいて、特定の値を選択して絞り込むことができます(次のセクションを参照)。
例えば、上記のスクリーンショットでは、Data 品質オプションがフィルターセクションのすべての列フィルターで選択されています。選択内容に応じて、特定の値をフィルターする追加設定がすべての列(Data 品質)セクションに表示されます。
6. 最後のセクションで、選択済みの商品を含めるか除外するかを選択できます。
7. 何らかの理由で全てのフィルターを削除したい場合は、クリアボタンを使用できます。
8. フィルター変換の有効なプレビューが、変更時に表示されます。
9. 適用するボタンをクリックして、フィルターとともに変換を適用します。
データを並べ替えるには
並べ替えタブで、任意の列を基準として昇順または降順でデータを並べ替えることができます。並べ替え列ドロップダウンから列を選択し、並べ替えの順序を指定してください。
この機能は変換と併用時のみ使用でき、単独の機能としては利用できません。ただし、データの並べ替えのみを行いたい場合は、
並べ替え変換を使用できます。