キーワード抽出

キーワード抽出

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。




DataPrepのAIと機械学習を活用したキーワード抽出操作で、選択したテキスト列からキーワードを抽出できます。
例えば、テキスト列に「DataPrep is Powered By Artificial Intelligence」という値がある場合、キーワード抽出変換の結果は['DataPrep','Artificial Intelligence']となります。

 

テキスト列からキーワードを抽出する方法

1. 列を右クリックし、コンテキストメニューからキーワード抽出を選択します。

2. 新規列名欄に、生成される列の名前を入力します。

3. 最大抽出キーワード数項目で、列データから抽出するキーワードの最大数を指定します。

4. キーフレーズ内の最大キーワード数項目で、1つのキーワードセット内の最大単語数を指定します。例えば「Operating System」というフレーズの場合、キー長の値は最大2となります。

5. 抽出したいキーワードの種類を選択します。抽出可能なキーワードの種類は次の通りです。

 

  • 有効なキーワードのみ - 各セルから有効なキーワードのみを抽出します。


  • ランキング付きキーワード - 各セルからキーワードを抽出し、スコア付けします。


           

  • インデックス付きランキングキーワード - 各セルからキーワードを抽出し、インデックスと出現頻度を含めてランキングします。

 
 

6. DataPrepは変換中に列の有効プレビューを表示します。 プレビューする ボタンをサイドパネル下部でクリックすると、出力列をプレビューできます。


7. この変換は1つの列のみに適用できます。適用する ボタンをクリックして変換を適用してください。

フィルターを適用する方法

この変換と同時にフィルターを適用したい場合は、フィルター機能を利用できます。

1. フィルター タブをクリックします。

2. アイコンをクリックし、フィルター セクションに必要な列を追加します。ドラッグ&ドロップでフィルターの並べ替えも可能です。



3. 追加した頻度列に対して、以下のいずれかの設定をドロップダウンから選択できます:
  1. Actual: 実際の値に基づいて行をフィルターします。詳細はこちらをご覧ください。
  2. Data 品質: データの品質に基づいて行をフィルターします。詳細はこちらをご覧ください。
  3. Patterns: 選択済み列のデータパターンに基づいて行をフィルターします。詳細はこちらをご覧ください。
  4. Outliers: 選択済み列のデータに存在する外れ値に基づいて行をフィルターします。詳細はこちらをご覧ください。
メモ: フィルターの設定は、追加された列のデータ型に基づいて表示されます。

4. フィルター セクションに2つ以上のフィルターを追加すると、フィルターの横に論理演算子「AND」または「OR」が表示されます。クリックして論理演算子を「AND」と「OR」で切り替えられます。
  1. 論理演算子を使用して条件を組み合わせ、優先順位のルールを適用できます。最終的な式はCriteria expression ボックスに表示されます。編集 をクリックすると、論理演算子や括弧を使って優先順位や評価順を指定し、初期設定の式を変更できます。必要な変更を加えた後、保存 をクリックしてください。
  1. 例えば、式 ((1 OR 2) AND (3 OR 4)) では、まず (1 OR 2) の条件が実行され、その後に (3 OR 4) の条件が実行されます。3番目に、AND演算子が使用されているため、両方の条件が真の場合にフィルターが適用されます。
5. さらに、各フィルターで選択済みのフィルターオプションに基づいて、特定の値を選択して絞り込むことができます(次のセクションを参照)。



例えば、上記のスクリーンショットでは、Data 品質オプションがフィルターセクションのすべての列フィルターで選択されています。選択内容に応じて、特定の値をフィルターする追加設定がすべての列(Data 品質)セクションに表示されます。

6. 最後のセクションで、選択済みの商品を含めるか除外するかを選択できます。

7. 何らかの理由で全てのフィルターを削除したい場合は、クリアボタンを使用できます。

8. フィルター変換の有効なプレビューが、変更時に表示されます。

9. 適用するボタンをクリックして、フィルターとともに変換を適用します。

データを並べ替えるには

並べ替えタブで、任意の列を基準として昇順または降順でデータを並べ替えることができます。並べ替え列ドロップダウンから列を選択し、並べ替えの順序を指定してください。

この機能は変換と併用時のみ使用でき、単独の機能としては利用できません。ただし、データの並べ替えのみを行いたい場合は、並べ替え変換を使用できます。