E表記や指数値を正規化する方法は?

E表記や指数値を正規化する方法は?

お知らせ:当社は、お客様により充実したサポート情報を迅速に提供するため、本ページのコンテンツは機械翻訳を用いて日本語に翻訳しています。正確かつ最新のサポート情報をご覧いただくには、本内容の英語版を参照してください。

ケース1: データセットに指数表記が含まれる列がある場合

ここでは、負および正の指数表記が混在している列を持つデータセットを例に説明します。指数表記の値は、小数表記に変換する必要があります。そのためには、分割トランスフォームを使用して指数表記を含む列を分割し、分割した列にFormulaトランスフォームを適用してください。

指数表記を小数に変換する手順

1. パイプラインを作成し、必須のデータ元からDataPrepにデータセットをインポートします。データ元

このデータセットでは、Exponent列に指数表記の値が含まれています。


2. 次に、指数表記を含むExponent列に分割トランスフォームを使用します。

列を分割する方法

  • delimiter を選択し、E の文字をハイライトします。これにより、列を分割できます。選択範囲は黄色で強調表示されます。

    メモ: この選択と変換の方法は「Text selection transforms」と呼ばれます。こちらをクリックして詳しくご覧いただけます。

  • DataPrep は右側のパネルに候補リストを表示します。

  • マウスを分割変換の候補に重ねると、すぐにプレビューが表示されます。




  • 候補をクリックすると、データグリッド上で全体のプレビューが表示されます。

  • 候補をクリックすると、候補内に編集および適用するボタンが表示されます。

  • 適用」をクリックして分割変換を適用します。



3. 分割変換を適用した後、分割された列に対してFormula変換を実行し、指数表記の値を小数として取得します。

E表記の数値から小数値を抽出するFormula変換:

  • Transform」メニューをクリックし、「Formula」列オプションを選択します。

  • 新しい列名を新規 列 名前項目に入力します。

  • 関数名を入力することで、Formula項目に以下の関数を挿入できます。

    Info数式例:mul(`Split_Column1`,pow(10,`Split_Column2`))

  • 適用する」をクリックします。出力は新規列に作成されます。



Notes
メモ: 指数 値が負の場合、小数 での表現は40桁の精度(precision)と15桁のスケール(scale)までサポートされます。

ここで、
精度(precision)は、数値内の桁数を指します。最大40桁のうち、最大25桁までを小数点の左側に配置できます。
スケール(scale)は、小数点の右側に配置できる桁数です。

指数 値が正の場合は、小数 での表現は25桁までサポートされます。
例: 1.45E-17 の場合、小数 での表現は-15桁までサポートされるため、結果は0となります。
2.34E+26 の場合、小数 での表現は+25桁までサポートされるため、結果は23400000000000000000000000となります。

4. ここで、結果を取得する過程で一部の列('Exponent_split_1'、'Exponent_split_2')を削除します。

  1. これで、指数 値の小数 表現を持つクリーンなデータセットができました。


ケース2: データセットに指数 値が混在する列が含まれている場合


数字、小数、指数表記を含む列があるデータセットを考えてみましょう。DataPrepにインポートすると、その列は数値データ型として認識されますが、指数表記の値が無効としてマークされます。これを修正するには、指数表記の値を小数に変換して有効にする必要があります。そのためには、分割変換を使用して指数表記の値が含まれる列を分割し、空のセルを「0」で埋め、さらに分割された列に対してFormula変換を適用します。

指数表記の値を小数に変換する手順

1. パイプラインを作成し、データセットをDataPrepに必須のデータ元からインポートします。

このデータセットには、値列に数字、小数、指数表記の値が含まれています。

2. 次に、分割変換を使用して、数字、小数、指数表記の値が含まれる値列に対して操作を行います。

列を分割するには:

指数表記の値が含まれる列を分割する手順については、こちらをご覧ください。


2.
DataPrepでは、空であるセルを埋めるトランスフォームを使用して、列内の空であるセルを補完できます。以下の手順で、空であるセルを値0で埋めます。

空であるセルを埋める方法

  • 列名を右クリックし、コンテキストメニューから空であるセルを埋めるオプションを選択します。

  • カスタム値オプションを空であるセルを埋める方法セクションから選択し、0を入力します。

  • DataPrepは、変換中に列の有効プレビューを表示します。

  • 必要なオプションを選択した後、適用するをクリックします。




3. 分割トランスフォームの適用後、分割されたカラムにFormulaトランスフォームを適用し、指数値の小数表記を取得します。

E-notation 番号から小数値を抽出するためのFormula変換:

Formula変換を適用する手順はこちらで確認できます。

4. この処理の過程で作成された一部の列('Value_split_1'、'Value_split_2')を削除し、結果を取得します。


5. これで、指数表記の値を小数に変換したクリーンなデータセットが完成しました。