言語検出

言語検出

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。





選択したテキスト列の言語を検出することができます。 言語検出 操作を使用します。 DataPrep 独自の機械学習エンジンによって実現されています。 例えば、選択した列のテキスト値が「Hello, World!」の場合、言語検出変換は「Japanese」と返します。

 

この変換は合計70以上の言語をサポートしています。 対応している言語一覧は以下の通りです:

  • アフリカーンス語(af)

  • アラゴン語(an)

  • アラビア語(ar)

  • アストゥリアス語(ast)

  • ベラルーシ語(be)

  • ブルトン語(br)

  • カタルーニャ語(ca)

  • ブルガリア語(bg)

  • ベンガル語(bn)

  • チェコ語(cs)

  • ウェールズ語(cy)

  • デンマーク語(da)

  • ドイツ語(de)

  • ギリシャ語 (el)

  • 日本語 (en)

  • スペイン語 (es)

  • エストニア語 (et)

  • バスク語 (eu)

  • ペルシャ語 (fa)

  • フィンランド語 (fi)

  • フランス語 (fr)

  • アイルランド語 (ga)

  • ガリシア語 (gl)

  • グジャラート語 (gu)

  • ヘブライ語 (he)

  • ヒンディー語 (hi)

  • クロアチア語 (hr)

  • ハイチ語 (ht)

  • ハンガリー語 (hu)

  • インドネシア語 (id)

  • アイスランド語 (is)

  • イタリア語 (it)

  • 日本語 (ja)

  • クメール語 (km)

  • カンナダ語 (kn)

  • 韓国語 (ko)

  • リトアニア語 (lt)

  • ラトビア語(lv)

  • マケドニア語(mk)

  • マラヤーラム語(ml)

  • マラーティー語(mr)

  • マレー語(ms)

  • マルタ語(mt)

  • ネパール語(ne)

  • オランダ語(nl)

  • ノルウェー語(いいえ)

  • オック語(oc)

  • パンジャブ語(pa)

  • ポーランド語(pl)

  • ポルトガル語(pt)

  • ルーマニア語(ro)

  • ロシア語(ru)

  • スロバキア語(sk)

  • スロベニア語(sl)

  • ソマリ語(so)

  • アルバニア語(sq)

  • セルビア語(sr)

  • スウェーデン語(sv)

  • スワヒリ語(sw)

  • タミル語(ta)

  • テルグ語(te)

  • タイ語 (th)

  • タガログ語 (tl)

  • トルコ語 (tr)

  • ウクライナ語(イギリス)

  • ウルドゥー語 (ur)

  • ベトナム語 (vi)

  • ワロン語 (wa)

  • イディッシュ語 (yi)

  • 簡体字中国語 (zh-cn)

  • 繁体字中国語 (zh-tw)

  • 列の言語を検出する方法

    1. 列を右クリックし、 言語検出 変換をコンテキストメニューから選択します。



    2. 結果として生成される列の名前を 新規列名前 セクションで指定します。


    3. 必要に応じて出力の種類を選択します。オプション名の通り、 言語名前 は言語名を出力し、言語コードは言語のコードを出力します。


    4. 例えば、 言語名前 を選択した場合、日本語のテキストには「Japanese」と表示され、 また、 言語コード を選択した場合、日本語のテキストには「en」と表示されます。


    5. DataPrepは変換中に列の有効なプレビューを表示します。サイドパネル下部の プレビューする ボタンをクリックすると、出力列をプレビューできます。


    6. この変換は1つの列のみに適用できます。 適用する ボタンをクリックして変換を適用してください。


    Notes
    メモ : 言語検出変換は、テキストの長さが50文字以上の場合に正確な結果を得ることができます。

    フィルターを適用する方法

    この変換とあわせてフィルターを適用したい場合は、フィルター機能を使用できます。

    1. フィルタータブをクリックします。

    2. アイコンをクリックし、フィルターセクションで必要な列を追加します。ドラッグ&ドロップでフィルターの並べ替えも可能です。



    3. 追加した頻度列に対して、ドロップダウンから次のいずれかの設定を選択できます。
    1. 実際値: このオプションを選択すると、列内の実際の値に基づいて行をフィルターできます。詳細はこちらをご覧ください。
    2. データ品質: このオプションを選択すると、列内のデータ品質に基づき行をフィルターできます。詳細はこちらをご覧ください。
    3. パターン: このオプションでは、選択した列のデータパターンに基づいて行をフィルターできます。詳細はこちらをご覧ください。
    4. 外れ値: このオプションを利用すると、選択した列データ内の外れ値に基づいて行をフィルターできます。詳細はこちらをご覧ください。
    Notes
    メモ: フィルター設定は、フィルターに追加した列のデータ型に基づいて表示されます。

    4. フィルターセクションに複数のフィルターを追加すると、フィルターの横に論理演算子ANDまたはORが表示されます。論理演算子はクリックしてANDとORの間で切り替えることができます。
    1. 論理演算子を使って条件を組み合わせ、優先順位のルールを適用できます。最終的な式は条件式ボックスに表示されます。編集をクリックすると、論理演算子や括弧を使って優先順位や評価順序を指定し、初期設定の式を変更できます。必須の変更を行った後は保存をクリックしてください。
    1. 例として、式 ((1 OR 2) AND (3 OR 4)) では、(1 OR 2) の条件が最初に実行され、次に(3 OR 4)の条件が実行されます。最後に、AND演算子が使われているため、両方の条件が真である場合にフィルターが適用されます。
    5. 各フィルターに選択したフィルターオプションに基づき、次のセクションで特定の値をさらに絞り込んで選択できます。



    例えば、上記のスクリーンショットでは、データ品質オプションがフィルターセクション内のすべての列フィルターに選択されています。選択内容に応じて、すべての列(データ品質)セクションで特定の値をフィルターするための追加設定が表示されます。

    6. 最後のセクションで、選択した項目を含めるか除外するかを選択できます。

    7. 何らかの理由で全てのフィルターを削除したい場合は、クリアボタンをご利用ください。

    8. フィルター変換の有効プレビューが、変更時に表示されます。

    9. 適用するボタンをクリックすると、フィルターと共に変換が適用されます。

    関連情報