単変量解析
年齢のヒストグラムを作成
hist(data$年齢)

むむ…偏ってる。対数変換したヒストグラムを作成してみましょう。
log_age <- log(data$年齢)
hist(log_age)

検定したら正規分布になっていないかもしれませんが、最終的にどのような解析で使用するかで変数の変換が必要になります。次のように2値に変換する場合もあります。set に 年齢c という変数を追加します。年齢c に条件を付けて2値にします:「年齢65歳未満を0、65歳以上を1」と記載します。
data$年齢c <- ifelse(
data$年齢 > 65, 0, 1
)
datをみたら、年齢cという列が追加されており、「年齢65歳未満を0、65歳以上を1」のルールに従って2値変数になっています。
head(data)

年齢65歳未満と65歳以上の人数はどうなっているでしょうか?
table(data$年齢c)

年齢65歳未満は 18名、65歳以上は 12名 でした!
作業終了時のポイント
例)メモ帳に記録したプログラム

テキストエディタに記載したプログラムは同じ作業フォルダに保存します。

R練習用に必要なプログラムを記載したら、同じ解析を再現できます。よって、Rを終了時の「作業スペースを保存しますか?」という問いには、「いいえ」を選択されて結構です。
また作業したい場合
メモ帳(テキストエディタ)に記載したプログラムをRにペーストするだけで再開できます。ディレクトリ指定、パッケージ保管場所の指定、CSVファイルの読み込みが一瞬でやれます!!!

これができるようになったらエディタのみ保管しておけばOK。Rが入っているPCであればいつでもどこでも作業再開OK。
職場と自宅の2台のPCを使用している場合
PCの名称が同じであればこの設定は不要です。作業する場所は、デスクトップを想定してます。PCの名称が異なる場合以下のように2種類のディレクトリを作成します。R3.2.0より以前のバージョンでは ¥¥ が必要です(¥が2つ必要です!)。それぞれのPCのパスを記載して、いつでもどこでも書けるように、USBやクラウドなどに保存しておくと便利です。
#職場のPCを使う場合
setwd("C:/Users/職場PC名 /Desktop/職場のフォルダ")
#自宅のPCを使う場合
setwd("C:/Users/自宅PC名 /Desktop/自宅のフォルダ")
セットされたか確認します。繰り返しになりますが、必ず確認してください。
getwd()
エラーが出なければセット完了です。自宅のフォルダにcsvファイルを入れてRで読み込みます。
dat <- read.csv("set01.csv", header=T, fileEncoding = "UTF-8")
コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください