Stata勉強-2
引き続きStataによる社会調査データの分析より
集計/データクリーニングに使えるコマンド
・グループごとの集計
tabstat 集計したい変数, by(グループ分けに使う変数) s(統計量)
※指定可能な統計量:mean/sd/n/median/max/min
カンマ区切りとスペース区切りに注意。
s(), if q5~=999とかも可能。
「tablateは度数分布表示。tabstatはグループごとの集計」
・一括処理(すべての処理したい変数にたいして、AをBにrecode)
for varlist 処理したい変数: recode X A=B
例:for varlist q1 q3 q4: recode X 999=.
処理したい変数はq1-q4の形でハイフンで範囲指定可能。(このケースだとq2も処理される)
・変数の加工
egen:グループ分け
egen 新グループ変数=cut(分割に使う変数), at(分割セット)
例:egen sedai=cut(age), at(0,20,30,40,50,60,99) *0以上20"未満",20以上30"未満",以下略
egen 新グループ変数=cut(分割に使う変数), group(分ける数)
groupで指定した数で均等になるよう分ける
カテゴリー統合
recode 質問番号 1=2 11=10 999=.
収入を尋ねる質問で、11段階+無効の12段階の回答
1~11のうち、1や2、10や11は該当者が少なくなるので、まとめるコマンド
1に2を含める11に10を含める、という意味なのか・・・?実際に触ってから確かめる
ダミー化
for numlist 1/5:gen 作る変数X=0
for numlist 1/5:replace 作る変数X=1 if q11==X
for numlist 1/5:replace 作る変数X=. if q11==.
作る変数1~作る変数5が作られ、作る変数1にはq11回答が1の人は1が入る
1/5は1 2 3 4 5と同じ。1 2 5とかもいける
xiというコマンドもある