このブログではRを使用してデータサイエンスを学習します
Rを使って、常に手を動かしながら学習を進めましょう
Rとは?
Rはニュージーランドにあるオークランド大学の Ross Ihaka と Robert Gentleman が開発し、世界の統計家の協力により現在も拡張し続けている統計とグラフィックスに特化したオープンソースのフリーソフトウェアです
つまりプログラム公開と使用権利が万人に無償で付与されていることになります
操作方法を習得することで、臨床で利用する検定も簡単に実行可能となります
例えば等分散の独立2 群の差の検定の場合には、
\(t.test(x, y, var.equal =T)\)
という簡単なプログラムにデータを挿入するだけで平均値、t 値、p 値、信頼区間などを算出してくれます.
Rのプログラム
このサイト内で次のように黒枠内に書かれている部分は、Rにそのままペーストできる記載になります。以下の4行をコピーしてRにペーストしてみてください。
血圧 <- c(112, 138, 124, 120, 136, 142)
曜日 <- c("月曜日", "火曜日", "水曜日", "木曜日", "金曜日", "土曜日")
df <- data.frame(曜日, 血圧)
df
最後はエンターキー
以下のような一覧表が表示されます
曜日 血圧
1 月曜日 112
2 火曜日 138
3 水曜日 124
4 木曜日 120
5 金曜日 136
6 土曜日 142
dfという文字の中に上記の一覧が格納されたことになります
このような方法でサイトのなかのプログラムをコピペしながら学習を進めていきす
でも、たまに数式も記載しますがご了承ください
\(p=\) \( \frac{exp(y)}{1+exp(y)} \)
使用するもの
ネット上で色々な記事やYouTubeの解説がありますが、このサイトでは私が使っている方法のみを紹介します
Rstudioはとても便利なツールで以前使用していたのですが、今は全く使っていないので、ここでは使用いたしません
使用するものは以下の4つです
- WindowsPC
(このサイトで解説するのはwindowsPCのみです…MACユーザーの皆様ごめんなさい) - R(無料)⇒ ダウンロード
- エディタ: エディタはなんでもOK、Visual Studio Code, サクラエディタ など(どちらも無料です)、はじめて使われるのであればサクラエディタがお勧めです
- インターネット
これだけ準備できていればデータサイエンスの学習は可能です