ワードクラウド

データの準備と要約

ダウンロードした note.txt作業フォルダに保存してください

MeCabのインストール

以下のサイトからMeCabをインストールします

MeCab: Yet Another Part-of-Speech and Morphological Analyzer

MeCabは 京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソース 形態素解析エンジンです。 言語, 辞書,コーパスに依存しない汎用的な設計を 基本方針としています。 パラメータの推定に Conditional Random Fields (CRF) を用 いており, ChaSenが採用している 隠れマルコフモデルに比べ性能が向上しています。また、平均的に ChaSen, Juman, KAKASIより高速に動作します。 ちなみに和布蕪(めかぶ)は, 作者の好物です。

MeCab

MeCabがインストールされているか確認します

MeCab をクリックして、適当な日本語入力してみてください
ここでは「こんにちは、今日は統計学の勉強をしましょう」
と入力してみます

文字化けしますが、この表示がでれば MeCab が正常にインストールされています

RMeCabのインストール

RMeCabは、石田基広先生作のRパッケージです

R から日本語形態素解析ソフトである MeCab をバックグランドで操作するためのインターフェイス です

RMeCab をインストールします(Rのパッケージインストール

install.packages("RMeCab", repos = "http://rmecab.jp/R")
library(RMeCab)

RMeCabがインストールされたかどうかを確認します

dat_1 <- RMeCabFreq("note.txt")
View(dat_1)

dat_1の全体を見て、必要な言葉のみにします

ここでは、datの名詞、動詞、形容詞を抜き出して、dat_2に格納します

dat_2 <- subset(
  dat_1, Info1 == c("名詞", "動詞", "形容詞")
)

代名詞、副詞可能、接尾、非自立を除外

dat_3 <- subset(
  dat_2, !Info2 %in% c("代名詞", "副詞可能", "接尾", "非自立", "形容動詞語幹")
)

Rのコードで分からないことはChatGPTに質問しましょう!

ChatGPTへの質問内容

dat_3 <- subset(dat_2, !Info2 %in% c("代名詞", "副詞可能", "接尾", "非自立"))
このRコードを詳しく教えてください。特に、!、%in%の部分をお願いします。

dat_3を確認して、「する」、「なる」を除外することにしました

dat_4 <- subset(
  dat_3, !Term %in% c("する", "なる")
)

wordcloud

パッケージwordcloudをインストールします(Rのパッケージインストール

install.packages("wordcloud")
library(wordcloud)

1回以上出現している単語(全単語)

pattern <- brewer.pal(8, "Dark2")
wordcloud(
  dat_4$Term, dat_4$Freq, min.freq = 1, colors = pattern
)

文字を全て横書きで表示

pattern <- brewer.pal(8, "Dark2")
wordcloud(
  dat_4$Term, dat_4$Freq, min.freq = 1, colors = pattern, rot.per = 0
)

2回以上出現した単語を表示

pattern <- brewer.pal(8, "Dark2")
wordcloud(
  dat_4$Term, dat_4$Freq, min.freq = 2, colors = pattern, rot.per = 0
)

コメント欄 『間違い』や『分かりにくい部分』などのご意見もお寄せください

タイトルとURLをコピーしました