altgolddesu’s blog

つれづれなるままに日暮らし

データの分析と知識発見('16)

Google

講義概要

現在、ICTの進歩に伴い、大量のデータが収集、蓄積され、それを元に大量の計算がなされ多くの情報・知識を得ることができるようになった。現在氾濫するデータや情報にどう接し、それとどう付き合っていくべきなのか、また、そういった情報を抽出するためにはどういった処理をすれば良いのか、といった事について、具体的に演習を通して身につけることを目指す。

授業の目標

大量のデータをどのように処理し、分析するのか、またそういった分析をすることで、どういった知識が抽出できるかについて、具体的な実践を通して身につけることを目標とする。

履修上の留意点

データ分析の手法を説明するとともに、Rを用いて実際の分析の手順についても説明する。理解するには大学初年次程度の数学の知識や基本的なパソコン操作が行えることを前提として講義を行う。

1 はじめに データ分析の流れと尺度水準について説明する。講義で導入するソフトウェアとしてRやRStudioについて説明し、Rを用いた基本的な計算について説明する。

e ポートフォリオ

【キーワード】
R、データ分析の流れ、尺度水準 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

2 関数とパッケージ Rにおける関数の使い方や定義の仕方について説明し、パッケージの追加や利用の仕方について説明する。RStudioを用いてレポートを作成する方法について説明する。

【キーワード】
平均、分散、関数、パッケージ 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

3 多次元データとファイル操作 多次元のデータを扱うことを考え、配列やリストといったデータの形式について説明する。ファイルからデータを読み込むための方法について述べる。

【キーワード】
相関係数、分散、行列、データフレーム、リスト 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

4 データの視覚化 データをグラフにすることによって、データの持つ特徴を視覚的に把握することができ、より多くの情報を得ることができる。ここでは、 代表的なグラフの種類や書き方について説明し、グラフを作成する上で気をつけるべき事柄について述べる。

【キーワード】
散布図、棒グラフ、円グラフ、折れ線グラフ、ヒストグラム 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

5 表の作成 質的データを分析する方法としてクロス集計について説明する。クロス集計表において項目間の関連を判断するための指標について説明し、データを読み込み、Rで表を作るための方法について学ぶ。

【キーワード】
クロス集計表、シンプソンのパラドックス、ユール係数、ファイ係数 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

6 検定 検定はデータを元に何か判断を下す場合の定量的な根拠となる。根拠を得るためには確率分布の知識が必要となる。そこで検定の考え方、確率分布について説明し、Rでカイ2乗検定を行う手順を説明する。

【キーワード】
仮説検定、帰無仮説、統計分布、カイ2乗検定 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

7 回帰分析 回帰分析とは、データの中のある変数を他の変数の線形結合によって表現しようとする方法である。まず回帰分析の係数の導出法や、当てはまりの指標について説明し、Rでシミュレーションを行う。

【キーワード】
目的変数、説明変数、最小2乗法、偏相関係数 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

8 主成分分析 主成分分析とは、多次元の成分の中で主となる成分を見つけ出す手法のことであり、それによって、多次元のデータを低次元で表現することも可能になる。主成分分析について説明し、Rを用いてシミュレーションを行う。

【キーワード】
主成分分析、分散行列、中心化、標準化、寄与率 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

9 多次元尺度法 距離をもとに座標を計算する方法である多次元尺度法について説明する。まず、距離の公理について説明したのち、手法について説明し、Rでシミュレーションを行う。

【キーワード】
距離、三角不等式、古典的多次元尺度法 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

10 因子分析 主成分分析と似た方法として因子分析がある。因子分析はデータの中に潜む共通の要因を見つけようとするものである。因子分析の概要、および因子負荷量の計算について説明し、Rでシミュレーションを行う。

【キーワード】
因子分析、共通因子、独自因子、軸の回転 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

11 クラスター分析 データの集まりの中で似た特徴をもつまとまりのことをクラスターという。最初に近い特徴を持つものから順にクラスターを結合する階層的クラスター分析について説明し、次に非階層的クラスター分析の方法として、k-means法について説明する。

【キーワード】
階層的クラスター分析、非階層的クラスター分析、k-means法 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

12 アソシエーション分析 データの関係として関係があるかどうかを表すのが相関であった。ここでは、データを元に「AであればBである」といった因果関係を導く方法であるアソシエーション分析について説明し、Rでシミュレーションを行う。

【キーワード】
支持度、信頼度、期待信頼度、リフト値、アプリオリ 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

13 決定木 決定木とは条件の分岐を木構造で表現したものである。それは、データをある条件をもとに分割していく手法である。そこで、まず木構造について説明し、次にどのようにデータを分割するかという判断基準について説明し、Rでシミュレーションを行う。

【キーワード】
二分木、分類木、ジニ係数、不純度 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

14 ニューラルネットワーク ニューラルネットワークについて説明する。それを踏まえ、例題を元に学習を行う教師あり学習について説明し、データの中からルールを学び予測する方法について説明し、Rでシミュレーションを行う。

【キーワード】
ニューラルネットワーク教師あり学習、汎化、過学習 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

15 テキストマイニング 講義のまとめとしてテキストを分析する手法の例について紹介する。この章では形態素解析をするフリーのソフトウェアを利用して文書から形態素解析によってテキストから定量的なデータを導き、今までに説明した手法を用いて文書の分類を行う例を示す。

【キーワード】
形態素解析形態素MeCab 秋光 淳生
(放送大学准教授) 秋光 淳生
(放送大学准教授)

シミュレーション R

プログラミング* 言語*