ビジネスニーズに合わせた予測結果を予測するためのカスタム予測モデルを構築したり、訓練することができます。
今、必要なスキルやデータの種類を理解したところで、次のステージは、トレーニングデータに入力する値を絞り込んで選択する方法を知ることです。
仮定しましょうとCreatorを使用して名前を付けたアプリケーション「Zylker Insurance」を構築しました。 「Insurance Claim」という名前のフォームを追加しました。このフォームで顧客が請求要求を提出します。 顧客から提出された保険請求が正当かどうかを確認したいと思います。これは、バイナリ予測結果モデルの一種です。
今、当該予測モデルが行う出力に影響を及ぼす要因を考えてみましょう。例えば、「保険請求が正当かどうか」という質問に対して、次のような質問を考えてみます。
上記の情報を使用してデータ選択を行うことができます。
モデルがパターンを見つけ、解釈を行い、予測を導くために使用する最初のデータセットをトレーニングデータといいます. モデルにフィードするデータを最終的に決定したら、 2つの方法でデータを追加できます:アプリケーション内の フォームフィールドから、または CSVファイルからです。 予測モデルにおいて、トレーニングデータは、最初のデータ追加方法で ベースフィールドと依存フィールド 、後者の方法では ベースカラムと依存カラムで構成されます。
あなたは、上記のトレーニングデータを追加する方法のどちらを選択するべきかという疑問を持つかもしれません。アプリケーションにトレーニングデータとして使用するための十分なレコードがある場合は、フォームからフィールドを追加して、そのレコードがトレーニングデータとして使用されることができます。また、アプリケーションに十分なレコードがないが、ファイルにデータが保存されている場合は、CSVファイルからデータを追加する後者のオプションを選択することができます。
注意:
ここで最も重要なことは、歴史的な結果列ではないレコード/列が間接的に結果に影響を及ぼしているかどうかです。
例えば、注文が遅延するかどうかを予測したいとします。データには実際の配送日があるかもしれません。この日付は注文が配送された後にのみ表示されます。この列を含めると、モデルの精度はほぼ100%になります。配送日を予測したい注文はまだ配送されていないため、配送日列が埋められていません。正確な結果を得るためには、トレーニングの前にこのような列を選択解除する必要があります。
アプリケーションフィールドに格納されたデータをモデルへの学習データとして投入することができます。
予測モデルは、基本フィールドと依存フィールドとして追加することができる以下のフィールドタイプをサポートしています。サポートされていないフィールドタイプを持つデータがある場合は、フィールド選択ページに表示されません。
トレーニングデータとしてアプリケーションフィールドを選択する際に、2つのタイプのフィールドデータが必要です。
上記の例では、基本フィールドは「これは不正請求ですか?」であり、従属フィールドとして「顧客としての月数」、「事故の深刻度」、「請求総額」などがあります。
あなたがトレーニングデータのレコードを選択した後、 デフォルトでは、すべてのレコードからのデータが考慮されます。 時には、 あなたは特定のレコードセットに焦点を当てて学習し、予測を行いたいかもしれません。あなたは、必要に応じて一連の条件を設定して、 特定のレコードセット をフィルタリングするための条件を定義できます。 あなたが予測モデルをトレーニングするために使用するレコードに関係のない情報が含まれていることを知っている場合、このステップを使用してデータをフィルタリングすることができます。
想定してみましょう。保険会社がCreatorを使用して、保険請求が不正であるかどうかを予測するアプリケーションを構築しているとします。正確に予測するためには、アプリケーションフォーム内のすべてのレコードをモデルに学習させる必要があり、そうすることでモデルの理解を拡大することができます。
さて、保険会社が2018年以前の事故日付のすべての請求書を処理できないと宣言したとしましょう。この条件が入力された場合、2018年以降に提出された請求書のみが不正請求として考慮されます。この場合、条件を使用してレコードを適切にフィルタリングできます。
トレーニングデータを選択する別の方法として、 CSV形式のファイルに格納されているデータを使用することができます。サポートされていないフィールド列がある場合、それらは列選択ページに表示されません。
列の選択
予測モデルは、次のデータ型のCSVからの学習データをサポートします: 数値テキスト、日付および日時。 これら2つの型からのデータを基本列および依存列として追加できます。
CSVの予測でサポートされていない不要なデータを含む列がある場合、それらはフィールド選択ページに表示されません。これらの2つのデータ型のいずれにも該当しない場合は、サポートされていません。
このCSVから選択される列は、トレーニングのための 基礎 および 従属 列として機能します。
上記の例では、基本列は「不正請求」であり、従属列として「顧客としての月数」、「事故の深刻度」、「請求総額」フィールドがあります。
訓練データを追加した後、 モデルの詳細を確認することができます (例:モデル名、ベースフィールド/カラム、従属フィールド/カラム)。 必要な場合は、モデル名、ベースフィールド/カラム、従属フィールド/カラムを修正することができます。 そうでなければ、モデルを訓練する準備ができました。
予測モデルをアプリケーションで実際に使用する前に、それを実行して期待される結果を生成するように訓練する必要があります。データフィールド/列を選択してレビューした後、モデルを訓練するには訓練をクリックします。
学習モデルが完成したら、モデルの詳細、モデルのバージョン、およびそのデプロイメントの詳細(ある場合)を確認できます。モデルは、現在公開およびアプリへのデプロイの準備ができています。
モデルを以下のように管理することができます:
トレーニング後、モデルをテストして、モデルがどのように動作しているか、トレーニングが満足できるかどうかを確認することができます。テストデータをアップロードし、テストモデル後、 精度スコアとともに予測結果を得ることができます。
精度スコア(%)が高い(85-97)場合は、モデルを公開することができます。精度スコア(%)が良い(70-84)または普通(51-69)の場合は、新しい値でモデルを再訓練することができます。精度スコア(%)が悪い(<50)場合は、データの不整合を確認し、それらを磨き、モデルを再度訓練する必要があります。予測モデルは、テストデータセットの予測結果を基に、訓練済みモデルの精度スコアを計算します。 例えば、データセットに500レコードがあり、モデルがそのうちの492を正しく予測した場合、精度スコアは96%と表示されます。
モデルをトレーニング、テスト、評価した後、期待される結果が得られなかった場合は、性能を向上させるために(任意)モデルを編集することができます。正確性スコアを向上させるために試すことができるいくつかのことを以下に示します。
データの清掃とは、トレーニングデータセットから正確でない、正しくフォーマットされていない、重複した、または不十分な情報を取り除くプロセスです。2つ以上のデータソースを結合すると、データ重複やラベル付けエラーのリスクが増加します。予測結果が正確に見えても、データの誤りによりそれらが信頼できなくなる可能性があります。
モデルの学習に使用する前に、データをきれいにすることが重要です。タイポや欠落した数字、スペルミスなどのエラーを熟知し、各行のデータをよく見直すことで、不適切なデータを取り除くことができます。これを行うことで、モデルの学習に不適切なデータを取り除くことができます。
モデルをトレーニングした後、それを公開してユーザーに利用可能にして予測を開始することができます。詳しくはこちら
プレディクションモデルを環境対応のCreatorアプリケーションで使用するには、そのアプリケーションのプロダクション環境に少なくとも1つのバージョンが公開されている必要があります。モデルをアプリケーションにデプロイした後、異なる環境のステージ間をフィルターすることができます。モデルがデプロイされているステージを確認します。こちらを参照してください。
「導入したばかりで基本操作や設定に不安がある」、「短期間で集中的に運用開始できる状態にしたい」、「運用を開始しているが再度学び直したい」 といった課題を抱えられているユーザーさまに向けた少人数制のオンライントレーニングです。
日々の営業活動を効率的に管理し、導入効果を高めるための方法を学びましょう。