3 調査方法・データの種類

佐久間智広

sakuma@port.kobe-u.ac.jp

神戸大学大学院経営学研究科

2024/04/22

1 データを用いた調査

1.1 調査の目的

現状を知る
問いを明らかにする、特に因果関係を見つけるようなことを目指して調査が行われます。

1.2 調査の方法

調査の方法にはさまざまなものが
- 実験
- アーカイバルデータ分析
- アンケートデータ分分析
- 観察データ分析
- インタビューデータ分析
この授業では、統計的な処理のできる定量データを扱います。
- ただし、文字データはテキストマイニングなどの方法で定量データ化が可能ですが本授業では扱いません。

1.2.1 実験データ

マウスを使った医学・薬学の実験
大規模観測装置を使った天文学・物理学実験
学生等を参加者とした心理学や経済学，経営学の実験
実際の企業や政府を取り巻く制度や法律の変化を使った自然実験
実際の企業や政府の行動を変化させて試してみる現場順実験

1.2.2 アーカイバルデータ

企業の公表財務データ
社内の人事・会計データ
プロ野球選手の成績・年俸データ
国勢調査や各種政府統計データ
文章データ

1.2.3 アンケート（質問票）データ

自分でアンケートを設計して得たデータ

1.2.4 観察データ

定量的観察データ（交通量調査など）
定性的観察データ（現場での参与観察）

1.2.5 インタビューデータ

当事者に直接質問を投げかける（構造化インタビュー・半構造化インタビュー）
テーマについて自由に話してもらう（フォーカスグループインタビュー）

1.3 データの分類

1.3.1 定量的データ

実験データ
アーカイバルデータ
アンケートデータ¹
定量的観察データ

1.3.2 定性的データ

定性的観察データ
インタビューデータ

1.4 調査方法の選択

調査の際には
- 調査の目的に合っているか
- より厳密な証拠が得られる方法はないか
といった基準で選択することが必要。

1.5 EBM (Evidence Based Medicine: 根拠に基づいた医療)

医学研究での考え方、それぞれの調査方法から得られる証拠はその確からしさ、根拠の強さに違いがあることを前提に、証拠のレベルを設定、より高いレベルの根拠をもとに医療行為の方法を決めよう、と言うもの
この考え方は、EBMgt（Evidence Based Management：根拠に基づいたマネジメント）として経営学に応用されたり、EBPM (Evidence Based Policy Making: 根拠に基づく政策決定)として政策決定に応用されたりしています。
この考え方に従うと、もし可能ならばより高いエビデンスレベルが得られる方法を選択することが望ましくなります。

1.5.1 参考: エビデンスレベル

根拠に基づく医療（Evidence Based Medicine: EBM）という考え方の中の言葉
各研究方法から得られる証拠（エビデンス）をその信頼度で分類している
根拠に基づく政策立案（EBPM）や，根拠に基づく経営（EBMgt） (Rousseau 2006) として，経営学を含む他分野でも紹介されつつある

エビデンスレベル一覧（Wikipediaから）
Level	内容
1a	ランダム化比較試験のメタアナリシス
1b	少なくとも一つのランダム化比較試験 (RCT)
2a	ランダム割付を伴わない同時コントロールを伴うコホート研究（前向き研究、prospective study, concurrent cohort study）
2b	ランダム割付を伴わない過去のコントロールを伴うコホート研究 (historical cohort study, retrospective cohort study)
3	症例対照研究（ケースコントロール、後ろ向き研究）
4	処置前後の比較の前後比較、対照群を伴わない研究
5	症例報告、ケースシリーズ
6	専門家個人の意見（専門家委員会報告を含む）

2 データ解析

2.1 データ解析の目的

得られたデータは，解析され，色々な役に立てられます。大きく分けて，予測と発見があると言われています。

2.2 予測

現在のデータを使って，別の場所・時間の傾向を予測するのに役立つ

天気予報
- 過去の気象データから，将来の天気を予測する
株価予測
- 過去の企業業績・計画・為替・世界情勢等のデータから，企業の株価を予測する
販売予想
- 過去の販売実績・顧客アンケート・競合他社のデータ等からある製品の今期の販売数を予測する

予測をするには，データを使った原因と結果の特定が必要

データは以後の因果関係を仮定したり理解したりが必要で，（少なくとも現代の）AIに任せることはできない

例

2つの隣り合う市がある。1つの市だけ最低賃金が上がった。
最低賃金が上がる前後のデータを比較することで，最低賃金が就業率や求人数に与える影響を検証
この検証結果から，「最低賃金の変更が社会に与える影響」を予測

2.3 発見

例えば，データをいくつかのグループに分ける。

性別ごとに分ける
年代ごとに分ける
国籍ごとに分ける

あらかじめ分け方が決まっていない場合には，データ自身にグループを作成させるクラスタリングを行う

想像していなかったグループが見つかることも

例

あるスーパーマーケットは，顧客ごとの購買組み合わせを分析
ビールと紙おむつが同時に買われる傾向があることを発見
- 小さな子供を持つ父親が，ビールとオムツを買う傾向があるようだ
ビール売り場とオムツ売り場を近づけると良いかも？

3 データの種類

3.1 概念の計量化

定量的データを使った社会調査では，知りたいものを数値の形をとったデータに置き換えます。言い換えると背後に一般的な概念を想定した代理変数がデータです。

その地域や国の経済活動の規模をGDPで表現する
知的能力をIQテストのスコアで表現する
英語能力をTOIECの点数で表現する

このように，抽象的な概念を客観的な数値で表現することが，定量的データを使った社会調査の1つの利点です。

一方で，概念とそれの代理変数である数値は必ずしも一対一対応しているわけではない点に注意が必要です。

TOIECの点数が高くても英語が話せるとは限らない
IQが高くても，良い大学に入れるかどうかはわからない

知りたい概念のどの側面をどの程度反映した指標なのかを考えながら使う必要が。。

3.2 データの種類

データ（変数）はその性質に応じて分類が可能です。

観測値が数値となるような変数を量的変数，量的変数について計測されたデータを量的データと言います。
属性や項目，カテゴリなどを便宜的に数値データとしたようなものを質的変数，計測されたデータを質的データと言います。

質的変数: 「分類する」変数
数字の大小比較に意味がない

例：血液型

量的変数: 数字そのものが意味を持っている
数字の大小比較に意味がある

例：身長

種類	尺度	説明	例
質的変数	名義尺度	性質を分類するために使われる（男 = 0, 女 = 1，のように性質に数値を割り当てる）。数値に意味はない。比較も計算もできない	性別，学籍番号
質的変数	順序尺度	並び順に意味がある尺度。大小関係はあるが，計算はできない。	人気ランキング，成績（秀優良可不可）
量的変数	間隔尺度	大小関係に加えて間隔にも意味がある。足し算はできるけど掛け算には意味がない（西暦1000年の2倍は西暦2000年，という計算に意味はある？）	西暦・温度
量的変数	比例尺度	比較・足し算・掛け算全てできる	身長・体重・価格・売上高・利益

データがそれぞれどの種類の尺度なのかによってまとめ方や分析での使い方が変わります。
- 例えば，名義尺度である学籍番号の平均値を計算することは意味がありません。

3.3 課題

以下のデータの各列はそれぞれどの尺度ですか。ただし

id: 学籍番号
class: クラス
gender: 性別

test: テストの点
hometown: 出身地

Code

1pacman::p_load(tidyverse,magrittr)
2test <- read_csv("data/3_test.csv")

1: パッケージの読み込み
2: 3_test.csvというファイルをtestという名前でRに読みこませる

3.4 Rが理解しているデータの種類

データの種類にはいくつかあるということでしたが，rにもそれに（完全にではないけれど）対応したデータの種類があります。

numeric (num数値型)：数値データ
character (chr文字列型)：文字データ
factor (fctr因子型)：カテゴリデータ
logical (lgl論理値型)：trueかfalseの2択データ

エクセルやcsvファイルを読み込んだとき，Rは自動でこれらのうちのどれかとして読み取ります。どの種類として読み込まれたかは，画面右上のEnvironmentタブにあるDataウインドウから確認可能です。また，単にデータ名を実行するもしくはstr(データ名)でも確認可能です。

Code

str(test)

spc_tbl_ [30 × 5] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
 $ id      : num [1:30] 1 2 3 4 5 6 7 8 9 10 ...
 $ class   : num [1:30] 1 1 1 1 1 1 1 1 1 1 ...
 $ gender  : chr [1:30] "男" "女" "女" "女" ...
 $ test    : num [1:30] 100 20 60 80 40 90 30 60 90 30 ...
 $ hometown: chr [1:30] "京都" "京都" "大阪" "兵庫" ...
 - attr(*, "spec")=
  .. cols(
  ..   id = col_double(),
  ..   class = col_double(),
  ..   gender = col_character(),
  ..   test = col_double(),
  ..   hometown = col_character()
  .. )
 - attr(*, "problems")=<externalptr>

初期状態では，genderとhometownがchr（文字列），それ以外がnum（数値）になっています。しかし，例えばidやclassは名義尺度であるべきです。

3.5 データの種類の変更

後で使うclassをカテゴリデータに変えてみます。使うコマンドはas.factor(変えたい変数)です。

Code

testa <- test %>% 
  mutate(class = as.factor(class))

1行目は，testaという新しいデータを作って，その中に以下の処理をしたものを入れるということを意味しています。

2行目のmutate(新しい変数名 = 指示) は，新しい変数（列）を足すコマンドです。現在ある列名と同じものを指定すると上書きされます。今回は，classという数値変数をカテゴリ変数に変えたものを，元と同じclassという名前で作成（上書き）しています。

文字列については，分析の際には自動的にカテゴリ変数として扱われるので，特段の変更処理は必要ありません。

4 データセットの形式

4.1 データセットの並び方

データを集計して，表にまとめるときには，いくつかの方法があります。が，データ分析上望ましいのは，変数が列，測定単位が行の形です。

4.1.1 例：テストの点数

ある学校の1組には，A,B,C,Dさんの4人がいました。
Aさん，Cさんは男性，Bさん，Dさんは女性です。
それぞれのテストの点数は以下のとおりでした。
- Aさん国語80，数学60，英語90
- Bさん国語90，数学50，英語60
- Cさん国語60，数学60，英語60
- Dさん国語70，数学70，英語70

4.1.2 Wide形式

例：田中兄弟の身長

ある兄弟は，毎月身長を測っています。年齢データとともに表にまとめました。

（分析するにあたって）よくない形

Code

pacman::p_load(tidyverse, magrittr, readxl, kableExtra,rmarkdown,tinytable)

case_wide <- read_excel("data/case_wide.xlsx")
kable(case_wide)

name	age	m1	m2	m3	m4	m5	m6	m7	m8	m9	m10	m11	m12
田中一郎	25	171	173	174	175	177	178	179	181	182	183	185	185
田中次郎	24	170	171	172	173	174	176	177	179	180	181	183	184
田中三郎	23	166	167	169	170	172	172	173	174	175	176	177	178
田中四郎	22	161	162	164	165	167	168	169	171	172	173	174	176
田中五郎	21	190	192	193	194	195	197	198	200	201	203	205	206
田中六郎	20	155	156	158	159	160	161	162	163	164	166	167	168
田中七郎	19	180	182	183	185	186	188	189	191	193	194	195	196

時系列の身長データが月ごとに別の列になっている
- m1からm12は，全て身長の数値

望ましい形

列が変数，行が測定単位になっている
データ分析に望ましい形

ひとまずこれを目指す！

Code

case_widel <- case_wide |>
  pivot_longer(starts_with("m"),
               names_to = "month",
               names_prefix = "m",
               values_to = "height") |>
  mutate(month = as.numeric(month))
head(case_widel,20) |> kable()

name	age	month	height
田中一郎	25	1	171
田中一郎	25	2	173
田中一郎	25	3	174
田中一郎	25	4	175
田中一郎	25	5	177
田中一郎	25	6	178
田中一郎	25	7	179
田中一郎	25	8	181
田中一郎	25	9	182
田中一郎	25	10	183
田中一郎	25	11	185
田中一郎	25	12	185
田中次郎	24	1	170
田中次郎	24	2	171
田中次郎	24	3	172
田中次郎	24	4	173
田中次郎	24	5	174
田中次郎	24	6	176
田中次郎	24	7	177
田中次郎	24	8	179

5 データセットの種類

データセットには，集計された種類で大きく3種類に分けられます。

クロスセクションデータ¹（cross section data）
時系列データ（time-series data）
パネルデータ²（panel data）

5.1 クロスセクションデータ

測定単位がそれぞれ独立しているデータ。
- 例えば，
  - 1回だけとったアンケート
  - 1回だけやった学力テスト
- 1時点の傾向がわかる

5.2 時系列データ

1つの測定対象に対して複数時点でとったデータ
- 時系列変化がわかる

[ユニクロの2018年から2022年までの業績データ](https://www.fastretailing.com/jp/ir/financial/past_5yrs.html)

5.3 パネルデータ

複数の測定対象に対して，複数時点でとったデータ
- クロスセクション × 時系列
- いろんなことがわかる

5.4 まとめ（データセットの種類）

参考文献

Rousseau, D. M. 2006. Is there Such a thing as “Evidence-Based Management”? Academy of Management Review 31 (2): 256–269.