Stata勉強-2 - 矢塚の備忘録

引き続きStataによる社会調査データの分析より

集計/データクリーニングに使えるコマンド
・グループごとの集計
　　tabstat 集計したい変数, by(グループ分けに使う変数) s(統計量)
　　　※指定可能な統計量：mean/sd/n/median/max/min

カンマ区切りとスペース区切りに注意。
s(), if q5~=999とかも可能。

「tablateは度数分布表示。tabstatはグループごとの集計」

　・一括処理（すべての処理したい変数にたいして、AをBにrecode）
　　for varlist 処理したい変数: recode X A=B
　　　例：for varlist q1 q3 q4: recode X 999=.
　　　処理したい変数はq1-q4の形でハイフンで範囲指定可能。（このケースだとq2も処理される）

　・変数の加工
　　egen：グループ分け
　　　egen 新グループ変数=cut(分割に使う変数), at(分割セット)
　　　　例：egen sedai=cut(age), at(0,20,30,40,50,60,99) *0以上20"未満",20以上30"未満",以下略
　　　egen 新グループ変数=cut(分割に使う変数), group(分ける数)
　　　　groupで指定した数で均等になるよう分ける

　　カテゴリー統合
　　　recode 質問番号 1=2 11=10 999=.
　　　　収入を尋ねる質問で、11段階+無効の12段階の回答
　　　　1～11のうち、1や2、10や11は該当者が少なくなるので、まとめるコマンド
　　　　1に2を含める11に10を含める、という意味なのか・・・？実際に触ってから確かめる

　　ダミー化
　　　for numlist 1/5:gen 作る変数X=0
　　　for numlist 1/5:replace 作る変数X=1 if q11==X
　　　for numlist 1/5:replace 作る変数X=. if q11==.
　　　　作る変数1～作る変数5が作られ、作る変数1にはq11回答が1の人は1が入る
　　　　1/5は1 2 3 4 5と同じ。1 2 5とかもいける
　　　xiというコマンドもある