Stata勉強-2

引き続きStataによる社会調査データの分析より


集計/データクリーニングに使えるコマンド
・グループごとの集計
  tabstat 集計したい変数, by(グループ分けに使う変数) s(統計量)
   ※指定可能な統計量:mean/sd/n/median/max/min

カンマ区切りとスペース区切りに注意。
s(), if q5~=999とかも可能。

「tablateは度数分布表示。tabstatはグループごとの集計」

 ・一括処理(すべての処理したい変数にたいして、AをBにrecode)
  for varlist 処理したい変数: recode X A=B
   例:for varlist q1 q3 q4: recode X 999=.
   処理したい変数はq1-q4の形でハイフンで範囲指定可能。(このケースだとq2も処理される)

 ・変数の加工
  egen:グループ分け
   egen 新グループ変数=cut(分割に使う変数), at(分割セット)
    例:egen sedai=cut(age), at(0,20,30,40,50,60,99) *0以上20"未満",20以上30"未満",以下略
   egen 新グループ変数=cut(分割に使う変数), group(分ける数)
    groupで指定した数で均等になるよう分ける

  カテゴリー統合
   recode 質問番号 1=2 11=10 999=.
    収入を尋ねる質問で、11段階+無効の12段階の回答
    1~11のうち、1や2、10や11は該当者が少なくなるので、まとめるコマンド
    1に2を含める11に10を含める、という意味なのか・・・?実際に触ってから確かめる

  ダミー化
   for numlist 1/5:gen 作る変数X=0
   for numlist 1/5:replace 作る変数X=1 if q11==X
   for numlist 1/5:replace 作る変数X=. if q11==.
    作る変数1~作る変数5が作られ、作る変数1にはq11回答が1の人は1が入る
    1/5は1 2 3 4 5と同じ。1 2 5とかもいける
   xiというコマンドもある