本ページは、筆者の個人的な備忘録として読書感想を残しておくためのものです。
なので、私が大切だと思ったポイントを箇条書きでアウトプットしています。
今回の書籍は下記の本です。みなさんのご参考になれば嬉しく感じます。
- 所感
- 書籍のポイントピックアップ
- 最後に
所感
データの本質を捉えるということで、データ分析のキーワードなどを押さえておくことに役立つかと思います。
書籍内のキーワードを残しているので、実際の内容は書籍を見ていただくことをオススメします。
書籍のポイントピックアップ
観測は簡単ではない
測りにくいものを定量化する際、測りやすい指標が優先的に使われやすい傾向がある。何かのアウトプットを測りたいときに、測りやすいインプットに関する量で代替させるという誤りは色々なところで見られるので注意すること。
誤差とばらつき
- 誤差:真の値と観測した値との差
- ランダム誤差(偶然誤差):計測のたびに変化する誤差
- バイアス(系統誤差):値が一定の誤差
- 確率変数:ランダムに得られる値を取る変数
- 確率密度関数:連続値のビンの高さをつなぐ関数
- 正規分布(ガウス分布)
- 中心極限定理:確率変数の和の確率分布は正規分布に近づくこと
- 経験分布:得られたデータから描く分布
- 理論分布:数学的な仮定から得られる分布
データに含まれるバイアス
- 選択バイアス:全体から見て一部のデータが選択されたことに起因するバイアス
- 生存者バイアス:生き残ったものしか観測されないバイアス(異常なデータが観測されないケース)
- サンプリングバイアス:サンプリングによってデータの偏りが出てくるバイアス
- 志願者バイアス:実験参加に対する意欲が高い被験者のバイアス
- 脱落バイアス:被験者が途中で脱落してしまうバイアス(最後まで残った被験者だけだと偏りが出てくる)
- 生存者バイアス:生き残ったものしか観測されないバイアス(異常なデータが観測されないケース)
- 観測介入に関するバイアス
- アンケートで質問することは難しい。直前の質問に影響されるケースなどがある。
- ランダム回答法で、回答者の心理的な負担を軽減可能。ランダムに約半数の回答者に「はい」と回答をさせる方法。
- アンケートで質問することは難しい。直前の質問に影響されるケースなどがある。
- チェリーピッキング:都合の良いデータや事象だけを集めること
- 確証バイアス:自分の仮説や信念に整合する情報ばかり集め、それらに矛盾する情報を無視または集めようとしないこと
交絡因子と因果関係
- 交絡因子:原因となる変数と関連し、かつ結果の変数と因果関係を持つ要因のこと
- ランダム化比較試験(RCT):集団を対象として分析を行い、着目する変数の平均的な効果を評価することを目指す
- ランダム化比較試験が行えない場合
- 重回帰分析
- ロジスティック回帰
- 回帰不能デザイン(前提条件で分類)
- 傾向スコアマッチング
データサンプリングの方法論
- 全数調査=悉皆調査(しっかいちょうさ)
- 無作為抽出:ランダムサンプリング
- 標準誤差:標本平均の標準誤差
- 95%信頼区間:95%の確率で母平均が含まれること(真の割合)
さまざまなサンプリング法
- 単純無作為抽出法:乱数によってサンプリング
- 系統抽出:リストの上から一定間隔でサンプリング
- 層化多段抽出法:個々の対象が所属するブロックのレベルでランダムに選択することで対象を絞っていく方法(層化:似た要素のグループにまとめること)
- クラスター抽出:対象が何らかのクラスターを形成している場合に、クラスターごとに要素を抽出する方法
- 有意抽出:母集団を代表していると思われる対象たちを主観的に選んでデータを取得する方法
- 便宜的抽出:データを取りやすい対象を調査する方法
一般性(外的妥当性):結果を一般化できるか。その標本において得られた効果が母集団全体でも同じように成り立っているか。
サンプリングとバイアス
- カバレッジ誤差:標本抽出枠に含まれていない要素がある誤差
- 標本抽出枠:標本を選ぶために使用するリスト
データの扱い
取得したデータの確認:データは手で触れば触るほどエラーが載る
- 単位や桁
- 外れ値のチェック
- 除いて良い外れ値か
変数データの振る舞い
記述統計量を考える
- 量的変数とカテゴリ変数
- 記述統計量(要約統計量)
データの分布を見る
- ストリッププロット:観測値をそのままプロットしたもの
- スウォームプロット:点が重なったところにどれくらいの観測値が集まっているか
- バイオリンプロット:データ分布をカーネル密度推定で推定して表示
- ヒストグラムの罠:ビンの幅によっては何か意味がありそうなパターンに見えてしまうことがある
理論分布と対応付ける
- パラメータ:理論分布の形状を決める値
- パラメータ推定(当てはめ・フィッティング):理論分布がデータの分布と近くなるようにパラメータの値を決めてやること
- 統計モデリング:データを理論分布で表現すること
- 二項分布:0または1が観測される対象を何度も観測してできる分布。n が大きければ正規分布に近づく性質。
- 分布の種類:確率 p で表が出るコインがあったとする。
- 幾何分布:コインの表が出るまで投げたときにk回目で始めて表が出る確率
- 二項分布:コインを何度も投げたときに表になった枚数がkとなる確率
- 負の二項分布:コインを裏が合計でr回出るまで何度も投げるときにk回表がでる確率。
- ポアソン分布:ランダムな事象が、一定時間内に起きた回数の分布
- 指数分布:ランダムな時点で発生する事象の時間間隔に従う分布
- ガンマ分布:ランダムな時点で発生する事象がα回起こるまでの時間が従う分布
- 幾何分布:コインの表が出るまで投げたときにk回目で始めて表が出る確率
裾の厚い分布:非常に大きな値が無視できない確率で発生する分布
- 対数正規分布:片対数プロットすると正規分布になる分布
- パレート分布
- レヴィ分布
- ワイブル分布
累積分布関数:その場所より左側にどれくらいの割合のデータが存在するかを表した関数
変数の間の関係を調べる
仮説検定についての説明 ※キーワードのみで詳細省略
- 対立仮説
- p値
- 有意水準
- t検定
- 正規性
- 等分散性
- スチューデントのt検定
- ウェルチのt検定
- t分布
- コーエンのd
- 対応あるt検定 ↔ ウィルコクソンの符号順位検定
- 相関係数の罠:相関係数は便利な指標だが、万能ではない。相関係数は外れ値に極めて大きく影響される。
多変量データを解釈する
- 探索的データ分析:データから特徴を見つけ出すことが目的
- 確証的データ分析:検証したい仮説をチェックすることが目的
- Bonferroni法:検定の回数をM回として、有意水準をMで割ったものを採用する
- 第二種過誤
- Holm法
- メタ分析
3つ以上の比較
- 分散分析(ANOVA):着目した要因が観測値に影響を与えているかを評価
- 一元配置分散分析:着目する要因が1つの場合
- 二元配置分散分析:着目する要因が2つの場合
- 主効果
- 相互作用
- 多重比較
- Tukey法
相関の構造を探る:見かけの相関に注意する
- 偏相関
- 相関行列
- 偏相関係数
- 因子分析:少ない数の共通因子の和でうまく表現することを目指す
- 潜在変数:因子分析での共通因子のこと(観測できていない変数)
- 主成分分析(PCA)
- クラスタリング
- 非階層的クラスタリング:単にグループに分けるクラスタリング
- 階層的クラスタリング:どの観測値同士が近いかをクラスターにまとめていく
- 樹状図
- 目的変数(従属変数)
- 説明変数(独立変数)
- カイ二乗検定:カテゴリカルデータに適した分析手法
数理モデリングの要点
- 数理モデル:変数の振る舞いや関係性を数理的な表現で模擬したもの
- 適合度:数理モデルの妥当性、当てはまりの良さ
- 決定係数:R2 値
目的に応じたモデリング
- 理解志向型モデリング:対象のメカニズムを理解することを目指す
- 応用志向型モデリング:予測やデータ生成など応用の性能を追求する
- 深層学習
- 過学習(オーバーフィッティング)
- 汎化
- 深層学習
データ分析の罠
データ操作に関する罠
- 実数と割合
- シンプソンのパラドックス
- 平均値の振る舞い
- 極端なデータが混ざっているデータ
- 不用意な切り取り
- グラフを歪めない
手持ちのデータにとらわれる罠
- 別の角度から観測したデータを使って、より広い視点で対象を分析するほうがうまくいくことが多い
- 質的データのほうが重要なこともある
分析の目的にまつわる罠
- 本当は何も言えないのに、結論を主張してしまうこと。分析のプロセスはベストを尽くした上で、それでもなんともいえない状況を作る必要がある。
データ解釈の罠
- 再現性の問題
- データの再現性
- 解釈時に生じる認知バイアス
- 時間と因果の罠
- 楽観主義バイアス:リスクを過小評価して、自分にとって都合のいいことが起こるように想定してしまうこと
- 文脈の効果:「生存率は90%・死亡率は10%」同じ意味でも印象は異なる。
- 利得と損失の非対称性
- 誤ったデータ解釈の例(JTによる「肺がん死亡率と喫煙者数の関係」によると、喫煙と肺がんの関係性は認められない。肺がん死亡率は男女とも似た傾向に対して、喫煙者率は男性と女性で大きく異なる。)
データ活用の罠
- いつでも予測ができるわけではない
- 前処理のコストを下げる
・選択式にする(住所・郵便番号など)
・データを取る負担を考える - フィードバックのあるシステム構築
結果のフィードバックの内システムは間違っていても改善ができないので非常に危険
最後に
もし内容にご興味を持たれましたら、本書籍をご購入ください。