15 まとめ

Author
Affiliation

佐久間 智広

神戸大学大学院経営学研究科

Published

2024/07/20

Modified

2024/07/17

1 社会調査とは

(第1回)

1.1 定義

新しい知識や情報を得るために,システマティックに探求されるもの

(佐藤 2015, 25)

理論的枠組みや先行研究を踏まえて適切な問いを立て,確実な調査技法を用いて良質のデータを獲得し,的確な方法で分析を行うことによって,問いに対する答えを導き出す

  1. まだわかっていない(新しい知識や情報が必要なこと)について
  2. 関連するすでに分かっていること(理論や過去の研究結果)を踏まえて予測を立て
  3. 検証に適したデータを取得して
  4. 適切な方法で分析することを通して
  5. 問いに対する答えを決める

1.1.1 この授業では

  1. まだわかっていない(新しい知識や情報が必要なこと)について
  2. 関連するすでに分かっていること(理論や過去の研究結果)を踏まえて予測を立て
  3. 検証に適したデータを取得して
  4. 適切な方法で分析することを通して
  5. 問いに対する答えを決める

のうち,4に関連する分析方法,特に定量的データを使った定量的分析の基礎と,Rを使った分析例を扱いました。(第2回はRの基礎

2 データの種類とまとめ方

第3回

2.1 調査方法

  • 調査の方法 = 得られるデータにはさまざまなものが

実験データ


  • マウスを使った医学・薬学の実験
  • 大規模観測装置を使った天文学・物理学実験
  • 学生等を参加者とした心理学や経済学,経営学の実験
  • 実際の企業や政府を取り巻く制度や法律の変化を使った自然実験
  • 実際の企業や政府の行動を変化させて試してみる現場順実験

アーカイバルデータ


  • 企業の公表財務データ
  • 社内の人事・会計データ
  • プロ野球選手の成績・年俸データ
  • 国勢調査や各種政府統計データ
  • 文章データ

アンケート(質問票)データ


  • 自分でアンケートを設計して得たデータ

観察データ


  • 定量的観察データ(交通量調査など)
  • 定性的観察データ(現場での参与観察)

インタビューデータ


  • 当事者に直接質問を投げかける(構造化インタビュー・半構造化インタビュー)
  • テーマについて自由に話してもらう(フォーカスグループインタビュー)

2.2 データの分類

2.2.1 定量的データ


  • 実験データ
  • アーカイバルデータ
  • アンケートデータ1
  • 定量的観察データ

2.2.2 定性的データ


  • 定性的観察データ
  • インタビューデータ

2.3 データの種類

データ(変数)はその性質に応じて分類が可能です。

  • 観測値が数値となるような変数を量的変数,量的変数について計測されたデータを量的データと言います。
  • 属性や項目,カテゴリなどを便宜的に数値データとしたようなものを質的変数,計測されたデータを質的データと言います。


質的変数

「分類する」変数
数字の大小比較に意味がない

例:血液型

量的変数

数字そのものが意味を持っている
数字の大小比較に意味がある

例:身長



種類 尺度 説明
質的変数 名義尺度 性質を分類するために使われる(男 = 0, 女 = 1,のように性質に数値を割り当てる)。数値に意味はない。比較も計算もできない 性別,学籍番号
質的変数 順序尺度 並び順に意味がある尺度。大小関係はあるが,計算はできない。 人気ランキング,成績(秀優良可不可)
量的変数 間隔尺度 大小関係に加えて間隔にも意味がある。足し算はできるけど掛け算には意味がない(西暦1000年の2倍は西暦2000年,という計算に意味はある?) 西暦・温度
量的変数 比例尺度 比較・足し算・掛け算全てできる 身長・体重・価格・売上高・利益
  • データがそれぞれどの種類の尺度なのかによってまとめ方や分析での使い方が変わります。

    • 例えば,名義尺度である学籍番号の平均値を計算することは意味がありません。

2.4 データの並び

  • 列が変数,行が測定単位になっている
  • データ分析に望ましい形

3 データを要約する

第4回

3.1 データを要約する

データ解析の出発点は,データを効率的に整理・要約することで,その特徴を抽出すること

  • 代表的な数値を使う
  • 図表やグラフを使う

これを記述統計学と呼ぶ(↔︎️推測統計学)

代表値 意味
平均 データの重心 \(\bar X = \frac{1}{n} \Sigma_{i=1}^{n} X_i\)
中央値 データを大きさ順に並べたときの真ん中 省略
最小値 データの中で最も小さい値
最大値 データの中で最も大きな値
分散 データのばらつき度合い \(Var(X) = \frac{1}{n} \Sigma_{i = 1}^n(\bar X - X_i)^2\)
標準偏差 分散の平方根 \(SD(X) = \sqrt{\text{分散}} = \sqrt{\frac{1}{n} \Sigma_{i = 1}^n(\bar X - X_i)^2}\)

3.2 グラフを使ったデータの要約

  • 名義尺度など,計算が不可能なものを要約し,可視化する方法として,度数分布表や棒グラフ,円グラフ等があります
  • また,定量的な尺度を可視化する方法として,ヒストグラムや箱ひげ図などが多く使われます。

これらはいずれもデータの概要を視覚的に表現するものです。

  • 一方で,データの可視化はその見せ方によって人の印象を操作することができてしまいます。
  • グラフを書くことは,分析でもなんでもないと言うことには注意が必要です。
度数分布表

名義尺度や順序尺度(もしくは範囲を区切った量的変数)ごとにどれほどデータがあるかをまとめた表

棒グラフ

カテゴリごとの度数を棒の高さで表したグラフ

ヒストグラム

特定のカテゴリごとの度数がわかるグラフ。棒グラフとは違って,連続的な変数をある一定の範囲で区切っている

箱ひげ図

複数のグループごとの中央値やばらつき度合いを視覚的に表現

度数分布表

Code
freq(data3$hometown
     ,report.nas = FALSE,
     display.labels = FALSE,
     display.type = FALSE,
     headings = FALSE,
     style = "rmarkdown")
  Freq % % Cum.
京都 7 23.33 23.33
兵庫 6 20.00 43.33
北海道 1 3.33 46.67
大阪 10 33.33 80.00
奈良 3 10.00 90.00
島根 1 3.33 93.33
滋賀 2 6.67 100.00
Total 30 100.00 100.00

棒グラフ

Code
data3 %>% 
  ggplot(aes(x = hometown)) +
  geom_bar() +
  theme_gray (base_family = "HiraKakuPro-W3")

ヒストグラム

Code
data3 |> 
  ggplot(aes(test)) + #<1>
  geom_histogram(breaks = seq(5, 105, 10)) + #<2>
  scale_x_continuous(breaks = seq(0, 100, 10))  #<3>

箱ひげ図

Code
data3 %$%
  boxplot(test ~ class)

4 クロス集計・相関

第6回

4.1 量的変数同士の関係

4.1.1 散布図

散布図から視覚的にわかることとして,右肩上がりだと正の関係(片方が高いともう片方も高い),右肩下がりだと負の関係,バラバラに散らばっていると関係がなさそう,ということ。

Code
set.seed(123)
x_p <- rnorm(100, 10, 10)
y_p <- x_p + rnorm(100, 10, 5)

x <- rnorm(100, 10, 10)
y <- rnorm(100, 10, 10)

x_n <- rnorm(100, 10, 10)
y_n <- -x_n - rnorm(100, 10, 5)
Code
par(mfrow=c(1, 3))
plot(x_p, y_p)
plot(x, y)
plot(x_n, y_n)

左は正の関係(xが増えるとyも増える),真ん中は関係なし(xとyに特段の関係が見て取れない),右は負の関係(xが増えるとyが減る)

4.2 相関係数

相関係数rは,-1以上1以下の数値をとる。関係が強いほど-1もしくは1に近く。

4.3 質的変数同士の関係

クロス集計表

Code
icedata <- icedata |>
  mutate(weekend = factor(weekend, 
                          levels = c(0,1), 
                          labels = c("Weekdays", "Weekends")
                          )
  )

icedata %$% 
  ctable(weekend, tenki,
         style = 'rmarkdown',
         display.labels = FALSE,
         headings = FALSE)
tenki 晴れ 曇り Total
weekend
Weekdays 6 (60.0%) 1 (10.0%) 3 (30.0%) 10 (100.0%)
Weekends 1 (25.0%) 2 (50.0%) 1 (25.0%) 4 (100.0%)
Total 7 (50.0%) 3 (21.4%) 4 (28.6%) 14 (100.0%)

4.4 質的変数と量的変数の関係

質的変数ごとに分けた記述統計

Code
datasummary(kyaku ~ weekend * (mean + sd + max + min),
            data = icedata)
Weekdays Weekends
mean sd max min mean sd max min
kyaku 412.20 116.47 652.00 275.00 368.00 68.18 451.00 284.00

質的変数ごとに分けた箱ひげ図

Code
icedata %$%
  boxplot(kyaku ~ weekend)

5 母集団と標本

第7回

5.1 母集団と標本

5.2 ランダムサンプリング(無作為抽出)

  • 母集団に含まれる各個体が一様に等しい確率で選ばれているということ
  • 無作為抽出もしくはランダムサンプリングという
  • 無作為抽出によって選ばれた標本を無作為標本という


  1. 母集団から無作為に標本を集める(無作為抽出
  2. 母集団がどんな分布でも,標本平均は不偏(不偏性)で,なおかつ正規分布に従う(中心極限定理
  3. 正規分布に従うとわかると,標本平均がどれぐらいの信頼度で母集団を推定できているかを把握できる

無作為抽出という手順と,確率の性質を組み合わせて利用することで,未知の母集団を推測できる!

6 推定・検定

第8回

6.1 統計的推測

このように,データを元に母集団の形(特にそれを特徴づけるパラメータ\(\theta\))を推測することを統計的推測

統計的推測には,大きく分け二つ

  • 推定:未知のパラメータ\(\theta\) を当てる
  • 検定:未知のパラメータ\(\theta\)がある仮説を満たすかどうかを検証する

推定を行い,検定をする,というイメージ

6.2 検定

6.2.1 帰無仮説と対立仮説

標本を用いて計算された母集団の推定結果について,どちらか一方を選ぶような形で推定結果を検証する手続きをとります。これを統計的仮説検定と言います。

帰無仮説

考察の基準となる仮説

対立仮説

帰無仮説が棄却されたときに解釈される仮説

統計的仮説検定では,このような二つの仮説を立て,一方を選ぶような手続きを取ります。


6.2.2 検定は背理法

統計的検定は,データに基づいて得られた検定統計量について,以下のような手続きで帰無仮説か対立仮説かを選びます

  1. 帰無仮説を仮定する
  2. データから検定統計量を計算する
  3. 検定統計量が帰無仮説のもとでは確率的にほとんどあり得ないような値を取った時,帰無仮説を棄却し,対立仮説をとる
  • 確率的にほとんどあり得ない,の程度を有意水準という
    • 分野によって採用されがちな有意水準は違うけれど,社会科学でよくみられるのは5%水準
    • つまり,帰無仮説が正しかったとしたら今回得られた検定統計量の値が出る確率は5%以下,という時に対立仮説をとる。

7 回帰分析

第9回第10回第11回

7.1 回帰分析

2つ以上の変数の関係を統計モデルの形で仮定し,パラメータを推定する

典型的には直線関係

\[ y_i = \beta_0 + \beta_1x_i+u_i \tag{1}\]

\(\beta_0\)は切片,\(\beta_1\)は傾き。\(u_i\)は誤差。個々の点と直線の乖離

Code
ice <- read_csv("data/9_ice4.csv")
Code
g <- ggplot(data = ice, #<1>使うデータを指定
            aes(x = kion, y = kyaku) #<2>x軸とy軸を指定
            ) +
  geom_point() + #<3>散布図
  geom_smooth(method = "lm",se = FALSE) #<4>散布図にフィットする直線を書く。方法は,線形モデル(lm)
plot(g)

7.2 最小二乗法

回帰分析では,最小二乗法という方法で計算します。この方法の考え方は

直線と各データの誤差を最小にする線が最も良い線であろう

というものです。

これは,他の図で矢印になっている誤差を全部足したらしたらゼロになる点を探すことを意味します。±打ち消し合うので \(E(u)=0\) が理想です。

7.3 回帰分析における仮説検定

  • 回帰分析は,未知の母集団における法則性を推定
  • 少ないデータによって未知の母集団を推定しているので,その推定値は必ずしも母集団と一致するわけではない
  • そこで,この母集団を推定するにあたっての性能を統計的に検定する
  • 具体的には,係数が0(つまり関係ない)かどうかを平均値の差の検定と同じt検定で検定します。
Code
lm(kyaku ~ kion, data = ice) |>  
  summary()

Call:
lm(formula = kyaku ~ kion, data = ice)

Residuals:
    Min      1Q  Median      3Q     Max 
-47.969 -17.709  -1.218  17.413  51.031 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -229.98      73.79  -3.117  0.00596 ** 
kion           17.25       2.30   7.499 6.08e-07 ***
---
Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

Residual standard error: 29.54 on 18 degrees of freedom
Multiple R-squared:  0.7575,    Adjusted R-squared:  0.744 
F-statistic: 56.23 on 1 and 18 DF,  p-value: 6.082e-07

7.4 重回帰分析

複数の独立変数を一つの式に

\[ y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + u \tag{2}\]

7.4.1 他の要因を一定とした場合の関係を推定できる

  • 重回帰分析は,単回帰分析を複数行うこととは違い,「他の要因をコントロールした」係数を推定できる点が特徴です。
    • その他の要因を一定としたとき,ある独立変数が従属変数とどのように関係しているかがわかる
      • この「他の条件がすべて等しければ」はceteris paribusというラテン語で表記されたりします
      • 上記の例の場合,価格の係数は「気温を一定としたとき,価格は客数とどのように関係しているか」が分かる

7.5 ダミー変数・交互作用・対数回帰・非線形回帰

7.5.1 ダミー変数

カテゴリ変数もダミー変数(偽の変数?)として回帰分析に含めることが可能。

\[ income = \beta_0 + \beta_1 age + \beta_2 gender + u \tag{3}\]

\(income\) は年収(円)、 \(age\) は年齢(歳)、 \(gender\)は性別(男は0女は1)とします。この回帰モデルを推定した場合、 \(\beta_1\)の推定値は「年齢が1歳上がると年収が \(\beta_1\)円上がる」ということを示します。一方,ダミー変数は0か1で属性をに分割しています。そのため,以下のように,男性と女性で違う式が推定されます。

\[ \begin{cases} income = \beta_0 + \beta_1 age + u & gender = 0 \text{(男性)} \\ income = \beta_0 + \beta_1 age + \beta_2 + u & gender = 1 \text{(女性)} \end{cases} \]

7.5.2 交互作用

\[ test_i = \beta_0 + \beta_1 time_i + \beta_2 IQ_i +\beta_3 time_i \times IQ_i + u_i \tag{4}\]

みたいな式を使うと,独立変数同士の交互作用を含めた検証が可能。\(\beta_3\)の項目は,時間とIQの掛け合わせに。これによって,テストの点数の時間に対する効果(の一部)は,IQに依存する,という関係が式に含まれることになる


7.5.3 対数回帰

  • 変数が正で,なおかつ大きな数字の時,変数を対数化する( \(\log_e\) の形にする)ことで,解釈がしやすかったり,よりデータにフィットした分析ができたりします。
  • 特に, \(\log_e\)の形に変換することで,係数を弾力性として解釈できます。
  • つまり,解釈の際の単位を%とできます。

7.5.4 非線形回帰

  • 回帰分析では,独立変数の2次以上の項目を推定することを通して,直線ではない関係を推定することもできる

\[ y_i = \beta_0 + \beta_1 x_{i} + \beta_2 x^2_{i}+ u_i \tag{5}\]

8 因果推論

第12回

8.1 相関≠因果関係

  • xとyに相関関係がある,もしくは回帰分析によって統計的に有意な関係がある,ということは必ずしもxがyに影響を与えるという因果関係を表しているわけではない。
    • 単なる相関
    • 単なる偶然(擬似相関)
    • 共通の要因がある(交絡)

交絡の例

交絡の例

単に相関を計算したり,回帰分析をしただけではx → yという因果関係はわからない。


たくさんの参加者を集めて,その人たちにランダムに処置(投与するかしないか)を割り振る

  • これによって個人個人の差は平均的に同じになる
    • 症状が重い人軽い人,その他持病がある人ない人,性別などは確率的に均一になることが期待される

ランダムに割り振った集団間の比較をすることで薬の「平均的な」効果を推定することができる

つまり…

  • 個人レベルで見ると因果関係はそもそも検証が不可能

  • 集団レベルでランダムに処置を割り振ることで,平均的な効果の推定を通した因果関係が可能

8.2 因果推論の困難性に関わる回帰分析の問題

  • 回帰分析において因果推論の問題の多くは内生性の問題に行き着く
    • 内生性とは回帰分析における独立変数と誤差項の間に相関がある状態のこと
    • 内生性があると,回帰分析を行う際に重要な仮定が崩れ,推定結果が間違ったものになる


  • 内生性の問題が起こる原因は例えば

    欠落変数

    独立変数と関係があり,コントロール変数として回帰分析に含めなければいけない変数が含まれていない→誤差項に入ってしまっている

    測定誤差

    測りたいものを,誤差のある指標でしか測れない。例えば,「英語のうまさ」は直接測れない。

    • 英検・TOEIC・TOEFLなど英語テストの種類はたくさんあるけどそれぞれ違うし,スコアが高いからといって「うまい」わけではない人もいる?
    同時性

    xはyに影響することはするけど,yがxにも影響する。

    • 例えば,y: 犯罪件数とx: 警察官の数

9 実験研究

9.1 実験とは

実験的手法は,調査者が何らかの介入をして,その介入効果を見るようなもの。そのような特徴から

  • 因果関係を検証できる
  • 実験で検証したい要因以外が調整されているので,堅い証拠が得られる(内的妥当性が高い)

元々理系では実験的手法が中心だったけれど,上記の特徴から社会科学領域でも実験的研究が重視されてきている

  • うまく設計できれば,x → yの因果関係をうまく確かめられる
  • 明らかにしたい問題が,データの取得可能性や操作可能性から実験で検証可能なら,まず実験してみたら良い

9.1.1 ABテスト

アクセスしてくる人のうち一定割合に別のデザインの画面を表示し,クリックする先やクリック率等を比較する。(どちらのデザインの方が良いか?)

10 さいごに

10.1 社会調査のプロセスと,この授業で扱ったこと

  1. まだわかっていない(新しい知識や情報が必要なこと)について
  2. 関連するすでに分かっていること(理論や過去の研究結果)を踏まえて予測を立て
  3. 検証に適したデータを取得して
  4. 適切な方法で分析することを通して
  5. 問いに対する答えを決める

このプロセスは問題解決の最も効率的な方法?

  • 卒論や社会調査だけの話ではない



  • どんなデータがある?
  • データの要約・図示
  • 統計分析の背後の仕組み
    • 母集団の情報を,限られたデータから予測したい
  • 多変量解析
    • 回帰分析とその応用
  • 相関と因果関係
    • 因果関係を予測する方法としての実験

10.2 この授業で扱っていないこと

10.2.1 問題・課題の設定


明らかにするべき課題は何か?

  • 自身の専門?
  • 興味・関心?
  • 社会的・業務的課題?

例えば 伊丹 (2001) は問題の見つけ方について詳しいです。

10.2.2 仮説の設定


問題・課題について関連する理論や先行研究を集め

  • すでに分かってることは何か?
  • 逆にまだ分かっていないことは何か?

を整理することで,問題・課題の中で重要な点を明らかにする。その上で

  • 理論上こういうことが予測できる

という仮説を設定する

理論や先行研究を見つけて利用するには専門知識が必要
  • 理論や先行研究は多岐にわたる
  • どんな理論や研究があって今回の問題にはどれがあるのか?
  • 問題に合わせた専門知識が必要

10.2.3 データの取得と前処理


仮説を検証するのに適したデータを選択

  • 実験?
  • 政府統計?
  • 株式・財務データ?
  • 企業データ?
  • POSデータ
  • アンケートデータ?

得られたデータを分析可能な形に整備

  • 場合によっては死ぬほど時間がかかる
データに関する専門知識が必要

会計データなら会計に関する知識・スポーツデータならそのスポーツに関する知識を駆使

  • 「データが何を表しているのか」を熟知する必要がある

10.2.4 結論


仮説検定の結果から,当初の問題の結論を論理的に結びつける

  • 問題→仮説で大きな問題をデータ分析の問題に落とし込んだ
  • 結果→結論で,データ分析の結果を大きな問題の答えに

データ分析という道具を使って,ある問題の答えを出した,という位置付けを意識してください


この授業は

  • 統計理論の授業(実際のデータ分析には触れない)
  • 統計ソフトの使い方(理論はわからない)

の間あたり,理屈がわかって分析ツールを使えるようになることを目指して(ある種挑戦的に)授業を作ってみました。

この授業の内容を理解し,各回の分析手法を体験していただけていたら

  • データって何?どんな種類があるの?
  • 回帰分析って何やってるの?回帰分析の結果で議論される「統計的に有意」ってどんな意味?

といったことがわかった上で,Rでの簡単な分析方法を身につけていただけた(らいいなと思っています)


アンケート特有の分析手続き(因子分析など)など研究方法特殊的な一部の分析を除いて,卒論レベルで求められる知識や分析手法は一通り扱ったつもりです






ありがとうございました




授業に関係なくても,データ分析などでご相談があれば連絡ください

sakuma@port.kobe-u.ac.jp

参考文献

伊丹敬之. 2001. 創造的論文の書き方. 東京: 有斐閣.
佐藤郁哉. 2015. 社会調査の考え方 上. 東京大学出版会.

Footnotes

  1. アンケート調査のデータを定量的データと見做さないような学問領域もある↩︎