Kaggle 【12/26】

やったこと

  • Santander Custmer Transaction Prediction
  • 不均衡データへのアプローチ法
  • 不均衡データの考え方

 

Santander Custmer Transaction Prediction

これは、提供する商品を顧客が買うか買わないかを予測するコンペティション。このコンペの特徴↓

  1. 二値分類 (不均衡データ)
  2. IDと目的変数以外のカラムは全て隠されている
  3. 評価指標は真理値と予測値のROC曲線間の面積

 

不均衡データへのアプローチ法

不均衡データへのアプローチ法は以下の3つに代表される。

  1. データレベル:不均衡なデータのどちらかに合わせる
  2. コスト考慮型学習::少量データへの誤分類に大きなペナルティを課す
  3. 異常検知:少量データを異常値とみなす

 

不均衡データの考え方

不均衡な目的変数になるような分析対象は頻度が少ないデータほど社会的な影響が大きいと感じた。病気判定やスパムメールの判定などは、'偽を真'と誤分類することは取り返しはつくがその逆はあってはいけない。本コンペも購入される機会が少ないということはそれだけ購入することが稀であると捉えられる。そのため少量データに潜在的な価値が生まれる。

目的変数が不均衡である評価指標に"正解率"を適用し精度を上げるなら全て多量データと判定すれば、それなりの精度が出せる。しかし、上で述べた社会的な影響を考慮すると、正解率という評価指標では機械学習モデルは意味をなさない。このような不均衡データに対して、偏りに依存しない評価指標が必要になる。それが"ROC","AUC"である。

 

これから

  • データの偏りに依存しない評価指標の理解
  • カラムの意味が不明な特徴量のEDA
  • モデルの選定・評価