単変量解析
年齢のヒストグラムを作成
R
hist(dat$年齢)
むむ…偏ってる
対数変換したヒストグラムを作成
R
hist(log(dat$年齢))
検定したら正規分布になっていないかもしれませんが、最終的にどのような解析で使用するかで変数の変換が必要になります。次のように2値に変換する場合もあります。
set に 年齢c という変数を追加します。年齢c に条件を付けて2値にします:「年齢65歳未満を0、65歳以上を1」と記載します。
R
dat$年齢c <- ifelse(
dat$年齢 > 65, 0, 1
)
datをみたら、年齢cという列が追加されており、「年齢65歳未満を0、65歳以上を1」のルールに従って2値変数になっています。
R
View(dat)
年齢65歳未満と65歳以上の人数はどうなっているでしょうか?
R
table(dat$年齢c)
年齢65歳未満は 18名、65歳以上は 12名 でした!
作業終了時のポイント
例)サクラエディタに記録したプログラム
テキストエディタに記載したプログラムは同じ作業フォルダに保存しましょう。分かりやすいように同じ名前にします・・・”統計学習01″.
この状態で保存成功したら、「作業スペースを保存しますか?」という問いには「いいえ」で大丈夫です
また作業したい場合
エディタに記載したプログラムをRにペーストするだけで再開できます。ディレクトリ指定、パッケージ保管場所の指定、CSVファイルの読み込みが一瞬でやれます!!!
これができるようになったらエディタのみ保管しておけばOK Rが入っているPCであればいつでもどこでも作業再開OK
職場と自宅の2台のPCを使用している場合
PCの名称が同じであればここの設定は不要です。作業する場所は、デスクトップを想定してます。PCの名称が異なる場合以下のように2種類のディレクトリを作成します。場所やファイルを指定する場合には ¥¥ が必要です(¥が2つ必要です!)。それぞれのPCのパスを記載して、いつでもどこでも書けるように、USBやクラウドなどに保存しておくと便利です。
R
#職場のPCを使う場合
setwd("C:/Users/職場PC名 /Desktop/職場のフォルダ")
#自宅のPCを使う場合
setwd("C:/Users/自宅PC名 /Desktop/自宅のフォルダ")
セットされたか確認します。繰り返しになりますが、必ず確認してください。
R
getwd()
エラーが出なければセット完了です。自宅のフォルダにcsvファイルを入れてRで読み込みます。
R
dat <- read.csv("set01.csv", header=T, fileEncoding = "UTF-8")
コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください