作成およびトレーニングしたカスタム予測モデルを利用して、法人のニーズに合わせた結果を予測できます。
必要なスキルやデータの種類を把握したら、次のステージとして、トレーニングデータに入力する値を絞り込み、選択する方法を理解しましょう。
ここでは、Creatorを使ってZylker Insuranceというアプリケーションを構築したと仮定します。フォーム名はInsurance Claimで、顧客が保険金請求を送信します。顧客から提出された保険金請求が正当かどうかを判定したいと考えています。ご覧の通り、これはバイナリ予測アウトカムモデルの一例です。
次に、予測モデルで判定したい結果に影響を与える要素について考えてみましょう。例えば、「保険金請求は正当かどうか?」という問いに対して、次のような質問を検討します。
上記の情報を活用して、データの選択を行うことができます。
トレーニングデータは、モデルがパターンを見つけ、解釈を行い、予測を導き出すために使用中の初期データセットです。 モデルに取り込むデータが確定したら、データを追加する方法は2つあります。1つはアプリケーション内のform項目から、もう1つはCSVファイルから追加できます。予測モデルでは、トレーニングデータはbase項目と依存項目(1つ目の追加方法の場合)およびbase列とdependent columns(2つ目の方法の場合)で構成されます。
どの方法でトレーニングデータを追加するか迷うことがあるかもしれません。アプリケーション内にトレーニングデータとして使用できる十分なデータがある場合は、フォームの項目からデータを追加する方法を選択できます。そのデータがトレーニングデータとして利用されます。一方、アプリケーション内に十分なデータがない場合でも、ファイルにデータが保存されていれば、CSVファイルからデータを追加する方法を選択できます。
メモ:
ここで最も重要なのは、履歴の結果列ではないデータや列が、結果に間接的に影響を受けていないかどうかを確認することです。
たとえば、順番が遅延するかどうかを予測したい場合、データ内に実際の納品日付が含まれていることがありますが、この日付は順番が納品済みになった後でしか利用できません。この列を含めると、モデルの精度はほぼ100パーセントになります。しかし、納品日付を予測したい注文には、まだ納品日付が入力されていません。正確な予測結果を得るためには、トレーニング前にこのような列の選択を解除してください。
アプリケーション項目に保存されているデータを、トレーニングデータとしてモデルに入力することができます。
Predictionモデルは、ベース項目および依存項目として追加できる以下の項目タイプに対応しています。データに未対応の項目タイプが含まれている場合、項目選択ページには表示されません。
アプリケーション項目をトレーニングデータとして選択する際、2種類の項目データが必要です。
上記の例では、ベース項目は「Is this a Fraud Claim」であり、依存項目は「Months as 顧客」「Incident Severity」「合計 Claim 金額」項目となります。
トレーニングデータ用のデータを選択した後、初期設定では、すべてのデータが考慮されます。場合によっては、特定のデータセットに絞って学習や予測を行いたいこともあります。条件を定義して特定のデータセットをフィルターし、予測モデルのトレーニングに使用できます。この条件は、必要に応じて設定可能です。使用するデータに不要な情報が含まれている場合、この手順でデータをフィルターできます。
例えば、保険会社がCreatorを使って保険金請求が不正かどうかを予測するアプリケーションを作成するとします。正確な予測を行うためには、申請フォーム内のすべてのデータでモデルを学習させることで、モデルの理解度を高めることができます。
また、保険会社が「2018年以前の日付の請求は処理できない」と定めている場合、この条件を設定すると2018年以降に申請された請求のみが不正請求の判定対象となります。このように条件を活用してデータを適切にフィルターできます。
トレーニングデータを選択するもう一つの方法は、ファイルに保存されているCSV形式のデータを使用することです。サポートされていない項目列がデータに含まれている場合、列選択ページには表示されません。
列の選択
予測モデルは、CSVからのトレーニングデータとして、以下のデータ型をサポートしています:番号、テキスト、日付、および日付-時間。これら2種類のデータは、基準列や従属列として追加できます。
下記の2つのデータ型に該当しない不要なデータを含む列は、CSV予測ではサポートされていません。サポートされていない項目列型がデータに含まれている場合、項目選択ページには表示されません。
このCSVから選択する列は、トレーニング用のBase列およびDependent列として機能します。
上記の例では、Base列は「Fraud Claim」となり、Dependent列には「Months as 顧客」「Incident Severity」「合計 Claim 金額」項目が該当します。
トレーニングデータを追加した後、モデルの詳細(Model 名前、Base 項目/列、依存項目/Columnsなど)を確認できます。必要に応じて、Model 名前、Base 項目/列、依存項目/Columnsを戻って修正することも可能です。修正が不要な場合は、そのままモデルのトレーニングを続行できます。
予測モデルをアプリケーションで実際に利用する前に、期待される結果を出せるようトレーニングする必要があります。データ項目/列を選択・確認した後、Trainをクリックしてモデルのトレーニングを開始してください。
モデルのトレーニングが完了すると、モデル詳細、モデルのバージョン、およびデプロイメント詳細(該当する場合)を表示できます。モデルは公開およびアプリへのデプロイが可能な状態になります。
モデルは以下の方法で管理できます。
トレーニングの後、モデルをテストして、動作やトレーニング結果が満足いくものかどうか、アプリケーションに導入する前に確認できます。テストデータをアップロードし、モデルをテストした後、予測結果とともに 精度スコアが表示されます。
予測モデルは、テストデータセットの予測結果に基づいて、トレーニング済みモデルの精度スコアを算出します。例えば、データセットが500件あり、そのうち492件を正しく予測した場合、精度スコアは96パーセントと表示されます。
モデルの学習、テスト、評価を行った後、結果が期待通りでない場合は、モデルを編集してパフォーマンスを向上させることができます。モデルの精度スコアを改善するために試せる方法をいくつかご紹介します。
データクリーニングとは、トレーニングデータセットから不正確、不適切な形式、複製、または情報が不十分なデータを削除するプロセスです。2つ以上のデータソースを組み合わせると、データの重複やラベル付けミスのリスクが高まります。予測結果が正確に見えても、データのミスがあると信頼性が損なわれる場合があります。
トレーニングデータを投入する前に、データをクリーンアップすることが非常に重要です。これによりモデルのパフォーマンスが向上します。各行のデータについて、誤字脱字や数字の抜け、スペルミス、その他のエラーがないか丁寧に確認することが、不適切なデータを取り除く最善の方法です。こうした作業によって、モデルのトレーニングに明らかに不適切なデータを排除できます。
モデルのトレーニングが完了したら、公開してユーザーが利用できるようにし、予測を開始できます。方法はこちら
「導入したばかりで基本操作や設定に不安がある」、「短期間で集中的に運用開始できる状態にしたい」、「運用を開始しているが再度学び直したい」 といった課題を抱えられているユーザーさまに向けた少人数制のオンライントレーニングです。
日々の営業活動を効率的に管理し、導入効果を高めるための方法を学びましょう。