なんやブログ|データ分析格闘記

データ分析を生業に、分析ナレッジや読書感想などを書くブログ。ミナミのデータ分析格闘ブログ

【データ分析】共通的なデータ加工の考察

f:id:bee5boo5bee:20210205150702p:plain

本記事に来られた方は、kaggle や atmaCup などでコンペティションに参加されている方も多いかもしれませんね。

また、お仕事でデータ分析をされている方も多いでしょう。

本記事では、共通的に使えそうな特徴量について列挙してみたいと思います。

日付に関する項目

  • 年、月、日、年月
  • 曜日
  • 月〜金、土日
  • 平日、祝日、土日祝
  • 3連休以上
  • 土日祝の前日、連休の前日
  • 曜日(7)+時間(24)をまとめて数値化(例:木曜日の21時は、木曜日(3)+ 21 x0.01 = 3.21)
  • 土日祝フラグ(0 / 1)+時間(0~24)をまとめて数値化(例:土曜日の21時は、土曜日(1)+ 21 x0.01 = 1.21)
  • 法律の改正日(消費税の増税、酒税法、GoToEatなど)
  • 特定のイベントまでの日数
  • 特定のイベントからの経過日数
  • 前回のイベントからの経過日数  

時刻に関する項目

  • 時、分
  • 30分単位、15分単位、10分単位、5分単位
  • 4時間単位(6-10、10-14、14-18、18-22、22-2、2-6)
  • 3時間単位(6-9、9-12、12-15、15-18、18-21、21-0、0-3、3-6)  

ユーザ情報に関する項目

  • 年齢、年代
  • 性別
  • 職業
  • 世帯人数
  • 家族構成(夫婦のみ、夫婦+子供1人、夫婦+両親など)
  • 所在地・出身地(都道府県)
  • 過去の購買履歴

その他

  • 雨の日判定(外部データが使えない時は傘の購入情報など)

プライバシーポリシー | 趣味のページ