できること 作成 およびトレーニング カスタム prediction models を活用し、法人ニーズに合わせた予測を実現します。
必要なスキルやデータの種類を把握できたので、次のステージは、トレーニングデータに入力する値を絞り込んで選択する方法を知ることです。
ここで、Creatorを使って「Zylker Insurance」というアプリケーションを構築したと仮定します。「Insurance Claim」というフォームを追加し、顧客が保険請求を送信できるようにしています。顧客から提出された保険請求が正当かどうかを判定したいと考えています。このケースは二値予測アウトカムモデルの一例です。
次に、予測モデルで導き出したい結果に影響を与える要素について考えてみましょう。例えば、「保険請求が正当かどうか?」という質問に対し、次のような問いを考えてみてください:
上記の情報を活用してデータを選択できます。
トレーニングデータは、モデルがパターンを見つけ、解釈し、予測を行うために使用中の初期データセットです。 モデルに取り込むデータを確定したら、データは2つの方法で追加することができます:アプリケーションのform項目から、またはCSVファイルから追加できます。予測モデルでは、トレーニングデータはbase項目と依存項目(データ追加の1つ目の方法)およびbase列とdependent columns(2つ目の方法)で構成されます。
上記のいずれの方法でトレーニングデータを追加するか迷うことがあるかもしれません。アプリケーションにトレーニングデータとして使用できる十分なデータがある場合は、フォームの項目を追加し、そのデータをトレーニングデータとして利用できます。一方、アプリケーションに十分なデータがないものの、データがファイルに保存されている場合は、CSVファイルからデータを追加する後者のオプションを選択できます。
ここで最も重要なのは、履歴の結果列ではないデータや列が、結果に間接的に影響していないかどうかを確認することです。
たとえば、順番が遅延するかどうかを予測したい場合、データ内に実際の納品日が含まれているかもしれませんが、この日付は順番が納品済みとなった後でしか利用できません。この列を含めると、モデルの精度はほぼ100パーセントとなります。しかし、納品日を予測したい注文はまだ納品されていないため、納品日列には値が入力されていません。正確な予測結果を得るためには、このような列はトレーニング前に選択を解除する必要があります。
アプリケーション項目に保存されているデータをトレーニングデータとしてモデルに取り込むことができます。
Predictionモデルでは、以下の項目タイプをベース項目および依存項目として追加できます。サポートされていない項目タイプがデータに含まれている場合、項目選択ページには表示されません。
アプリケーション項目をトレーニングデータとして選択する際には、2種類の項目データが必要です:
上記の例では、ベース項目は「Is this a Fraud Claim」となり、依存項目は「Months as 顧客」「Incident Severity」「合計 Claim 金額」項目となります。
トレーニングデータ用のデータを選択した後、初期設定では、全てのデータが考慮されます。場合によっては、学習や予測を特定のデータセットに絞って行いたいこともあります。フィルター条件を定義して特定のデータセットを予測モデルの学習用データとして抽出できます。この条件は、必要に応じて複数の条件を設定することで指定できます。トレーニングデータに不要な情報が含まれていることが分かっている場合は、この手順を利用してデータをフィルタリングできます。
例えば、保険会社がCreatorを使って保険金請求が不正かどうかを予測するアプリケーションを作成しているとします。これを正確に予測するには、アプリケーションフォームにある全データを使ってモデルを学習させることで、モデルの理解度が向上します。
また、保険会社が「2018年以前の日付のある請求は処理できない」と宣言した場合、その条件を設定することで、2018年以降に発生した請求のみが不正請求の審査対象となります。このような場合は、条件を利用してデータを適切にフィルタリングできます。
特定データ
項目を選択し、オペレーターをトレーニングし、値を設定して、モデルのトレーニングに使用するデータセットを選定するための1つまたはその他の基準を定義します。
保険会社は、事故の日付が2018年より前のすべての請求リクエストは処理できないと宣言しています。この基準を設定すると、2018年以降に発生したリクエストのみが不正請求として判定されます。
トレーニングデータを選択するもう一つの方法は、お持ちのファイルに保存されているCSV形式のデータを使用することです。対応していない項目列が含まれている場合、それらは列選択ページに表示されません。
列の選択
予測モデルは、次のデータ型のCSVからのトレーニングデータをサポートしています:番号、テキスト、日付、および日付-時間。これら2つの型のデータは、基準列および従属列として追加できます。
トレーニングデータを追加した後、モデルの詳細(モデル名、ベース項目/列、依存項目/列など)を確認できます。必要に応じて、モデル名、ベース項目/列、依存項目/列を戻って修正することも可能です。特に修正が不要な場合は、そのままモデルのトレーニングを続行できます。
予測モデルをアプリケーションで実際に使用する前に、期待される結果を得るためのトレーニングが必要です。データ項目/列を選択し確認したら、トレーニングをクリックしてモデルを学習させてください。
トレーニング後、モデルをテストして、パフォーマンスやトレーニングの満足度を確認できます。アプリケーションにデプロイする前に、テストデータをアップロードし、モデルをテストすると、予測結果とともに 精度スコアが表示されます。
予測モデルは、テスト用データセットの予測結果にもとづき、トレーニング済みモデルの精度スコアを算出します。例えば、データセットが500件あり、モデルが492件を正しく予測した場合、精度スコアは96パーセントと表示されます。
モデルの学習、テスト、評価を行った後、期待した結果が得られない場合は、パフォーマンスを向上させるためにモデルを編集することができます。ここでは、モデルの精度スコアを改善するために試すことができるいくつかの方法を紹介します。
データクレンジングとは、トレーニングデータセットから不正確、不適切な形式、複製、または不十分な情報を除去するプロセスです。2つ以上のデータソースを結合する場合、データの重複やラベル付けミスのリスクが高まります。予測結果が一見正確に見えても、データの誤りにより信頼性が損なわれる可能性があります。
トレーニングデータを投入する前に、データのクリーニングが非常に重要です。これによりモデルのパフォーマンスが向上します。データの各行について、誤字脱字や数値の欠落、スペルミスなどを丁寧に確認すると、不適切なデータを排除する最善の方法となります。こうすることで、モデル学習に明らかに不適合なデータを取り除くことができます。
モデルのトレーニングが完了したら、公開してユーザーが利用できるようにし、予測を開始できます。方法を見る
「導入したばかりで基本操作や設定に不安がある」、「短期間で集中的に運用開始できる状態にしたい」、「運用を開始しているが再度学び直したい」 といった課題を抱えられているユーザーさまに向けた少人数制のオンライントレーニングです。
日々の営業活動を効率的に管理し、導入効果を高めるための方法を学びましょう。