本文へ移動

新人BLOG

R言語を使ってみました

2022-07-08
しげです!

今日はデータサイエンスで有名なR言語を触ってみたので、
その感想を書きたいと思います。

そもそも「R言語って何?」という方も多いと思います。

R言語は一言で言うと、「データの分析に特化したプログラミング言語」となります。
なんか小難しい話にきこえますよね?

R言語は、膨大なデータをわかりやすいグラフに変更することができます。

例えば、下の統計データは各地点の気温などのデータです。

地点最大風速気圧日照時間最大瞬間風速湿度
札幌9.5
1019.13.616.552
仙台6.71019.8010.749
東京5.41016.6010.145
京都3.91013.91.17.354
大阪3.71013.50.55.957
広島6.71013.50.55.957
福岡4.310130.37.160
那覇9.31012.73.213.655
西表島6.61013.53.312.465

このようなデータは気象庁のアメダスのHPから無料でダウンロードできます。

でも、こんな数字やら記号やら見ても変化とかわかりませんよね?

だけど、R言語はこのデータを解析して簡単にいろんなグラフに可視化できてしまいます!
実際にR言語はCRANのHPから無料の開発環境が提供されているので、それを使って色々いじってみましょう。
複数のデータをチャーノフの顔グラフで可視化する
チャーノフのグラフで表示
上のデータのcsvファイルを読み込んで「チャーノフの顔グラフ」というグラフで、表示させてみました→

…これ、グラフなの?って思いませんか?

そう、立派なグラフなんです!

最大風速や気圧、日照時間の各項目のデータを顔の大きさ、眉毛の傾き、目の大きさ、顔色でそれぞれ対応させてグラフ化しています。

これで一体何が分かるのかというと、大きな変化が起きているのかが総合的に感覚的に把握ができるということです。

例えば、顔の変化から北海道と東北、関東~中国地方 、沖縄と3つのグループに大きな変化あると気づくかと思います。
つまり、気象データから3つの地域で気温、風速、湿度などの複数のデータから大きな変化が起きているということです。

チャーノフの顔グラフを使ってデータを可視化すれば、一つデータでは大きな違いが見つけられにくいものも総合的に違いを発見しやすいと思います。
R言語は統計を可視化するための言語
R言語以外にもデータサイエンスで有名な言語にはPythonがあります。

たとえば、Pythonは初心者でも扱いやすいうえにWebアプリケーション開発もできる機械学習に最適な汎用的な言語です。

しかし、統計の知識があまりない人がPythonを使っても、Pythonのメリットを最大限に生かせないのではないかと私は思います。

R言語はWebアプリケーションは作ることができませんが、統計分析に最適化された言語です。
なので、実際に大学や研究施設の現場で使われるのはR言語が多いです。

R言語は統計の知識が乏しい人にはとっつきにくいイメージがある言語だと感じる方もいるかもしれません。
でも、実際はそんなことはなくR言語は中学生レベルの数学の知識がある程度できていれば感覚的に扱える言語でした。

R言語を色々触っていますが、簡単に箱ひげ図だったり標準偏差のグラフをプロットできたり、いろいろと楽しいです!

統計の基礎学習→R言語→Python

という順番で学習をおこなえば、ビッグデータを扱ったWebアプリケーションの開発をスムーズに行える知識が養えるのではないかと思います。

アメリカや中国ではビッグデータがすでに企業や国に応用的に取り入れられて大きな市場になっています。

日本はデータサイエンスの技術者が少ないうえに、ビッグデータを使って何ができるのかよくわからない企業様も多いのかと思います。

なので自分が学んだビッグデータの技術をお客様にわかりやすく提示ができるようになれば、、そんなことを思って学習していました(笑)

今後も機会学習やデータサイエンスの学習もちょくちょくやっていきたいと思います!
ここまで読んでいただきありがとうございました!!
TOPへ戻る