| 回 | 主題 | コマシラバス項目 | 内容 | 教材・教具 |
|
1
|
多変量解析ことはじめ(ガイダンスも行う)
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第1回の講義では、オリエンテーションを行った後、「多変量解析ことはじめ」として、1)多変量解析とは何か、2)多変量解析は社会・環境課題の分析にどう役立つのか、3)多変量解析は広範なデータサイエンス手法の中でどう位置づけられるのか、について学習する。そして、多変量解析の材料である「変数」の意味と分類について学び、量的変数を扱ううえで理解しておく必要のある「確率分布」の考え方、「標準化」の考え方、についても学習し、多変量解析を学習するための準備を整える。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① ガイダンス ② 多変量解析の魅力 ③ データサイエンスにおける多変量解析の位置づけ ④ DIKWピラミッドと多変量解析 ⑤ データと変数
|
|
細目レベル
|
① 最初に、本科目の目的、到達目標、授業の進め方、オフィスアワー、評価方法、参考文献等についての確認を行う。そして、第1回から第15回までの各回の授業を通して何を学習するのかについて、その概要を説明する。
|
② 本科目で学習する「多変量解析」(multivariate analysis)とはどのようなものか、その概略を理解する。多変量解析は、統計学の一分野であり、同時に複数の変数を扱う解析手法の総称である。多変量解析を用いることで、変数間の関係性、相互作用、パターンを理解し、データセット全体の構造を把握することが可能となる。私たちは、データの羅列を眺めているだけでは殆ど何も理解できないが、多変量解析を用いることで、データがもつ情報を理解し、役立てることができる。主な手法には、クラスター分析、主成分分析(PCA)、因子分析、回帰分析、判別分析などがある。これらの手法は、マーケティング、金融、生物学、医学研究、心理学、社会科学といった幅広い分野で応用されている強力なツールである。ここでは、私たちの身の回りで多変量解析が応用されている事例を紹介する。事例を通して、多変量解析手法を用いるとどのようなことが可能になり、どのような利点があるのかを知り、多変量解析の魅力を理解する。
|
③ 単純な数値の記録から機械学習やAIに至るまで、データサイエンスが発展してきた経緯の中で、多変量解析はどのように位置づけられるのだろうか。また、多変量解析を学ぶことにはどのような意味があるのだろうか。ここでは、広範なデータサイエンスの歴史を俯瞰し、多変量解析の位置づけを理解する。現代社会において、私たちは、毎日、機械学習や生成AIなどの恩恵を享受して生活している。その恩恵は、私たちの好みや過去の購入履歴に基づき買い物の利便性を向上させるレコメンデーションシステム、情報セキュリティ分野で不可欠な顔認証システム、言語間の壁を取り払いつつある自動翻訳サービス、生成AIによる文章、画像、動画の生成など多岐にわたる。このような進歩は、長年にわたる統計学の研究やコンピュータ科学の発展といった、データサイエンスの歴史の上に築かれたものである。このような歴史の中で、多変量解析は、複雑に絡み合う複数の変数間の関係性を明らかにし、データの深層に潜む構造やパターンを解き明かす上で、極めて重要な役割を担ってきた。今日においてもなお、多変量解析は、データの本質を探求するために不可欠なツールであり、多変量解析を学習することは、データを多角的に理解し有意義な洞察を得るために、そして、機械学習やAI等、より高度なデータサイエンス技術を習得するために、欠かせないステップである。
|
④ 「データ」と「情報」の違いは何だろうか。私たちは何のためにデータを収集するのだろうか。ここでは、まず、「データ」、「情報」、「知識」、「知恵」という発展の過程を階層的に表したモデル:「DIKWピラミッド」(DIKWは、Data, Information, Knowledge, Wisdomの略)の概念を学び、この概念の中で、多変量解析がどのような役割を果たすかを理解する。データは、文脈がなく意味をなさない数字や文字の羅列である。そのため、データは、多くの場合、それだけでは役に立たず、分析や処理を経て初めて解釈可能となる。データを加工(集計、分析など)し、文脈を与え、意味を持たせることで生まれるのが情報である。情報により、私たちは、特定の状況や問題に関する理解を深めることができる。さらに、情報を経験やこれまでの学習内容と組み合わせ、理解を深めることで生み出される新たな情報が知識である。知識には、情報をどのように活用するかに関する理解やスキルも含まれる。知識を使ってじっくり考え、賢明な判断を下す能力が知恵である。知恵は、知識を超えた理解や道徳的な判断を含み、経験から得られることが多い。社会環境課題にあてはめると、問題への有効な対策は、知恵そのものだが、知恵を得るには知識が、知識には拠り所となる情報が、情報には材料となるデータが欠かせない。多変量解析は、データを情報へと変換するための重要なツールであり、多変量解析がなければ、現代社会にあふれる膨大なデータを、知恵へと導くことは困難だといえる。特に、複数の要因が複雑に関連する環境問題を扱う場合、事象の解釈に多変量解析が果たす役割は大きい。
|
⑤ そもそもデータとはどのようなものであり、多変量解析においてデータはどう扱われるのだろう。また、データと変数の違いはなんだろうか。データとは、データムの複数形であり、実験や観察などによって得られた事実や科学的数値を指す。データには、数値、テキスト、画像、音声などさまざまな形式が存在する。多変量解析を行うためには、データを数値化したりカテゴライズしたりして、数学的に取り扱いのできるかたちに変換し、名前を付けて格納しておく必要がある。このようにして変換されたデータや、その格納場所の名前が「変数」である。端的には、変数とは分析可能な形式に変換されたデータである。変数には、数値で表され大小や量の差異を持つ「量的変数」と、カテゴリーや属性で表される「質的変数」あり、量的変数には「間隔尺度」と「比例尺度」が、質的変数には「名義尺度」と「順序尺度」が含まれる。ここで「尺度」とは、変数がどのように数値化やカテゴリ化されるかを示すものであり、このような変数の種類や尺度を理解しておくことは、適切な多変量解析手法を選択するうえで重要である。さらに、ここでは、確率分布と確率変数の概念、さまざまな確率分布の特徴、データの標準化についても学習し、多変量解析の材料となるデータを実際に変数として多変量解析手法に適用する際の注意点について理解する。
|
|
キーワード
|
① 多変量解析 ② データ ③ 変数 ④ 確率分布 ⑤ データ標準化
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
2
|
多変量解析の役割
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第2回の講義では、さまざまな社会・環境課題の分析に、なぜ多変量解析が必要なのかについて学習する。複雑な社会・環境課題を解決するためには、どのような介入を行えばどのような結果が得られるのか、といった「因果関係」を知り、有効な対策を特定する必要がある。ここでは、まず、因果関係とは何かを理解し、実験研究によって因果関係を理解するための方法である「ランダム化比較試験」(RCT)、およびランダム化について学習する。そして、実験研究が行えない場合に行われる「観察研究」では、相関関係に基づいて因果関係を解釈しなければならないことを理解する。そして、観察研究における因果関係の解釈において、多変量解析が果たす役割を学ぶ。さらに、「相関関係」や「交絡」の意味、多変量解析の結果解釈における注意点等について学習する。
|
【コマ主題細目①~④】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 因果関係把握の必要性と難しさ ② ランダム化比較試験による因果関係の把握 ③ 実験研究と観察研究 ④ 観察研究における多変量解析の役割
|
|
細目レベル
|
① ここでは、1)因果関係とは何か、2)なぜ因果関係を理解する必要があるのか、そして、3)因果関係を示すことはなぜ容易でないのか、について学習する。因果関係とは、ある事象(原因)が他の事象(結果)を引き起こす関係のことである。因果関係が成立するためには、時間的先行性(原因が結果に先立って発生すること)、連続性(原因と結果の間には直接的または間接的な連続性があり、原因がなければ結果も生じないという関係)、反証可能性(他の可能な原因が除外され、特定の原因と結果の関係が唯一の合理的説明として残る状況)が必要である。各種の社会・環境問題に対して有効な対策を特定するためには、単に相関関係(二つの変数が統計的に関連していること)を示すだけでは不十分であり、介入(対策)と結果(効果)の因果関係を理解し、有効な対策を特定する必要がある。しかし、複数の要因が複雑に関連する事象について、特定の介入が結果を生じさせるメカニズムやプロセスを理解することは極めて困難である。
|
② 因果関係を理解するために有効な方法がある。ランダム化比較試験(Randomized Controlled Trial、RCT)である。ここでは、RCTとは何かを学び、RCTにおけるランダム化の重要性、「因果推論の根本問題」について理解する。因果関係を理解するには「事実」と「反事実」を比較すればよい。つまり、「それをした場合」と「それをしなかった場合」を比較すればよいのである。しかし、因果推論の根本問題(Fundamental problem of causal inference)のため、事実と反事実を比較することは容易でない。実験が可能な事象に関する研究(実験研究)では、RCTの適用によりこの問題を克服する。RCTで介入の効果を評価することは最も信頼性の高い「黄金標準」と考えられている。RCTでは、対象を無作為に(ランダムに)実験群(介入を受ける群)と対照群(介入を受けない群)に割り当てるランダム化によって、他の要因の影響を排除でき、両群の違いを、統計的手法を用いて検定することにより、介入の効果が有意であるかどうかを判断できる。
|
③ 細目②では、実験が可能な研究ではRCTによって介入の効果が評価できることを学んだ。しかし、どのような研究対象にもこのような実験が適用できるわけではない。社会・環境問題に関する各種の課題では、倫理的な制約、発生確率的な制約、経済的な制約、時間的な制約等によって、「実験研究」を行うことができないケースも多い。そのような場合、研究者が現象や事象を観察し、記録することによってデータを収集し、そのデータを分析して結論を導き出す「観察研究」が行われる。観察研究は、実験研究とは異なり、研究者が外部の要因を介入させないで、自然な状況で現象を観察する。そのため、他の要因の影響を十分に排除することが難しく、因果関係の解釈がより困難となる。相関関係は二つ以上の変数が関連していることを示すが、必ずしも因果関係を意味するわけではない。「交絡」とは、見落とされた変数が原因と結果の両方に影響を与えることで、誤った因果関係を示唆する現象であり、観察研究においては、観察された関連性に影響を与える未測定の変数である「交絡因子」の影響に注意を払う必要がある。ここでは、実験研究が適用できない研究の事例を紹介し、観察研究において問題となる「交絡因子」とは何か、「他の要因の影響を十分に排除する」とはどういうことであり、なぜ困難なのかについて理解する。
|
④ 実験を行うことのできない事柄に関して、介入の結果を知るにはどうしたらよいだろうか。ここでは、本科目で学習する多変量解析が、観察研究において果たす役割について学ぶ。多変量解析は、直接的に因果関係を示すことのできる手法ではない。どれほど精緻な多変量解析を行っても、得らえる結果は相関関係に留まる。しかし、観察研究において多変量解析を用いることは、背後にある因果関係の解釈に、重要な役割を果たす。具体的には、複数の変数を同時に考慮することで、交絡因子の特定と制御が、一定程度、可能になり、特定の変数間の関係性をより正確に示すことができる。また、目的の変数間の関連性の強度や方向をある程度正確に示すことができる。ここでは、多変量解析の適用により、相関関係に基づいて背後にある因果関係の解釈を実現した観察研究の事例を通じて、観察研究における多変量解析の役割と、その重要性を理解する。
|
|
キーワード
|
① 因果関係 ② 相関関係 ③ 実験研究 ④ 観察研究 ⑤ ランダム化比較試験(RCT)
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
3
|
クラスター分析1_概要
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第3回の講義では、第4回・第5回で学ぶ「非階層的クラスタリング」・「階層的クラスタリング」の足掛かりとなるよう、クラスター分析の全体像について理解する。クラスター分析は、要素を似たもの同士にまとめる分析手法である。このコマでは、クラスター分析の概略と種類を学んだ後、「そもそも“似ている”(類似性)とはどういうことか」という点にフォーカスをあて、クラスター分析において “似ている程度”(類似度)が、どのように定義され、定量化されているかを学習する。
|
【コマ主題細目①~③】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① クラスター分析とは ② クラスター分析の種類 ③ “似ている“を定量化する
|
|
細目レベル
|
① クラスター分析とはなんだろう。ここでは、クラスター分析を用いる目的や、クラスター分析という手法の概略について学習する。クラスター分析は、データポイントを似ているもの同士のまとまりに分ける(グループ化する)ための統計的な分析手法である。この分析により、データの構造やパターンを特定し、類似するデータポイントを同じクラスターにまとめる。クラスター分析の主な目的は、データを理解しやすく整理することで、複雑な対象をより深く理解することである。クラスター分析は、社会科学、生物学、画像解析など、多くの分野で応用されており、複雑な対象を扱う環境学の分析においても重要な役割を果たす。ここでは、クラスター分析の全体像を理解する。
|
② クラスター分析は、「非階層的クラスタリング」と「階層的クラスタリング」の2種類に大別される。どちらも、データセットをグループに分割することに変わりはないが、これらは異なる方法論に基づいており、それぞれに特徴と利点がある。「非階層的クラスタリング」は、データセットを事前に定義されたクラスター数に分割する方法であり、「階層的クラスタリング」では、データポイント間の類似度に基づいてデータセットを階層的にグループ化していく。事前にクラスター数を特定できる場合には「非階層的クラスタリンクラスターデータが処理可能なサイズに収まっており、事前にクラスター数などが特定できない場合には、「階層的クラスタリング」が選択されることが多い。第4回において「非階層的クラスタリング」、第5回において「階層的クラスタリング」の詳細や実装方法等について学習する。
|
③ クラスター分析で行う「グループ化」とは、“似ている”もの同士まとめることである。私たちは、「AさんとBさんは性格が“似ている”ね。」「CとDは形がよく“似ている”ね。」など、日常的に“似ている”という言葉を使うが、そもそも、“似ている”とは、どういうことだろうか。また、分析に用いるために“似ている”ということ(類似性)を定量化するにはどうしたらよいだろうか。類似性を定量化するための最も単純な方法は、類似性の程度を「距離」として捉えることである。クラスター分析では、類似性を定量化するために「距離尺度」が用いられる。データポイント同士の類似性を評価するための主な距離尺度は、ユークリッド距離、マンハッタン距離、コサイン類似度である。ユークリッド距離は、空間内の直線距離を測定し、マンハッタン距離は、軸に沿った距離の合計を測定する。コサイン類似度は、ベクトルの角度に基づいて類似性を測定する。これらの距離尺度を適切に選択し、「類似性」を定量化された「類似度」に変換することで、データの特性や分析の目的に合わせた意味のあるクラスタリングが可能となる。また、階層的クラスタリングでは、データポイントだけでなく、クラスター間の類似性も評価する。これについては、第5回の細目⑤で学習する。
|
|
キーワード
|
① クラスター分析 ② グループ化 ③ 類似性 ④ 類似度 ⑤ 距離尺度
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
4
|
クラスター分析2_非階層的クラスタリング
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第4回の講義では、クラスター分析の中でも特に「非階層的クラスタリング」を学習する。非階層的クラスタリングは、データを予め定められた数のグループに分けるための多変量解析手法である。本コマでは、非階層的クラスタリングを行うとどのような利点があるのかについて学習した後、非階層的クラスタリングの中で最も一般的なk平均法(k-means)をR言語によって実装しながら、具体的な実装方法、結果の解釈、アルゴリズムの仕組み等を理解する。
|
【コマ主題細目①~④】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 非階層的クラスタリング ② 非階層的クラスタリングにできること ③ 非階層的クラスタリングの実装と解釈(k-meansを例として) ④ k-meansの機構と理論
|
|
細目レベル
|
① 第3回の細目②に挙げた2種類のクラスタリング手法のうち「非階層的クラスタリング」(non-hierarchical clustering)について学ぶ。非階層的クラスタリングは、データを予め定められた数のグループに分ける統計的手法である。この手法では、データ全体を一度に処理し、各データポイントを特定の数のクラスターに割り当てる。非階層的クラスタリングには、k-meansやDBSCANなどいくつかのアルゴリズムがある。長所として、計算が比較的単純であるため、大規模なデータセットに対しても効率的に動作することが挙げられる。短所として、この手法では、クラスターの形状が球形であることが仮定されているため、潜在的に球形以外の形状を持つクラスターを適切に識別できないという問題がある。また、クラスターの数をあらかじめ指定する必要があるため、最適なクラスター数を見つけるのが難しいことも短所に挙げられるが、最近では、最適なクラスター数をデータから知る方法もいくつか提案されている。
|
② 非階層的クラスタリングを用いるとどのようなことが可能になるのだろうか。ここでは、いくつかの非階層的クラスタリング適用事例を見ながら、非階層的クラスタリングの有用性を理解し、どのような場面で非階層的クラスタリングが使えそうか議論する。非階層的クラスタリングを適用することで、解釈の難しい大量のデータを類似したグループに分けることが可能となり、データの構造やパターンの理解、因果関係に関する解釈がしやすくなり、データ駆動の意思決定や予測等に役立つ。また、非階層的クラスタリングは、データセット内の自然なグループを特定できるので、ノイズや外れ値の識別にも有効である。特に、大規模なデータセットに対する高速に処理に適している。
|
③ 実際に非階層的クラスタリングを使うにはどのようなステップを踏めばよいのだろう。ここでは、R言語を使って「k-means」という非階層的クラスタリング手法を実際に適用することで、その実装プロセスを理解する。k-means (k平均法、k-means clustering)は、非階層的クラスタリングの中でも最も一般的なアルゴリズムのひとつであり、計算が単純であり、大規模なデータセットにも有効だという特徴をもつ。最初に教員がRのコードを配布する。次に、各自が配られたコードを走らせ、どのようなアウトプットが得られるかを体験する。そして、教員がコードに含まれる関数とその引数について、一つ一つ解説し、どのような指示を与えることにより、k-meansの結果が得られるのかを学ぶ。そして、得られたアウトプットの解釈とその注意点について学ぶ。
|
④ 細目③で学んだように、R言語等を使えば、k-meansの実装は比較的容易だが、いったいどのような機構や数学的理論が、k-meansの実装を可能にしているのだろう。ここでは、スライドのアニメーション機能を用いた、視覚的かつ動的な解説により、k-meansのアルゴリズムの機構や理論について学習する。 k-meansでは、最初にクラスターの数(k)を決定し、設定したk個のクラスター中心(セントロイド)をランダムに配置する。そして、1)データセット内の各ポイントを最も近いセントロイドに割り当て(属することとし)、2)その平均位置を特定し、3)その平均位置を新たなセントロイドとする。という1)~3)プロセスを、クラスターが変化しなくなるか特定の繰り返し回数に達するまで繰り返すことにより、クラスターを最適化していく。各クラスターのセントロイドとデータポイント間の距離の総和の最小化を行うことで、データを効率的にグループ化する。類似性(=距離の近さ)を測る距離尺度には「ユークリッド距離」が用いられることが多いが、データセットや問題設定によっては、「マンハッタン距離」、「マハラノビス距離」、「コサイン類似度」などが用いられることもある。ここでは、k-meansにおける初期値の影響、置かれている仮定や注意点などについても学習する。
|
|
キーワード
|
① 非階層的クラスタリング ② 距離尺度 ③ k-means ④ セントロイド ⑤ 初期値
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。さらに、授業で使ったコード編集するなどして(コードで遊び)、実装に慣れることができれば望ましい。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
5
|
クラスター分析3_階層的クラスタリング
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第5回の講義では、クラスター分析の中でも特に「階層的クラスタリング」を学習する。階層的クラスタリングは、データポイントをその類似性に基づいて、階層的にクラスターにまとめ上げてゆく多変量解析手法である。本コマでは、階層的クラスタリングを行うとどのような利点があるのかについて学習した後、実際に、R言語により階層的クラスタリングを実装しながら、具体的な実装方法、結果の可視化、デンドログラムの解釈、アルゴリズムの仕組み等を学習する。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 階層的クラスタリング ② 階層的クラスタリングにできること ③ 階層的クラスタリングの実装と解釈 ④ 階層的クラスタリングの機構と理論 ⑤ クラスター間の類似性の測定
|
|
細目レベル
|
① 第3回の細目②に挙げた2種類のクラスタリング手法のうち「階層的クラスタリング」(hierarchical clustering)について学ぶ。階層的クラスタリングは、データポイントをその類似性に基づいて、階層的にクラスターにまとめ上げてゆく方法である。階層的クラスタリングには主に二つのアプローチがある。一つは「凝集型クラスタリング(agglomerative clustering)」で、個々のデータポイントを最初に独立したクラスターとして扱い、徐々に類似するクラスターを統合していく方法である。もう一つは「分割型クラスタリング(divisive clustering)」で、全データを一つのクラスターとして扱い、次第に細分化していく方法である。階層的クラスタリングの結果は、デンドログラムと呼ばれるツリー構造の図によって、解釈しやすいかたちで視覚化することができる。この手法の利点として、クラスターの数を事前に定義する必要がなく、デンドログラムを通じてデータの構造を詳細に可視化し理解することができることが挙げられる。また、この手法では、球形に限らず、多様な形状やサイズのクラスターを捉えることが可能である。しかし、計算コストが高く、特に大規模なデータセットに対しては適用が難しいこともある。また、一度統合されたクラスターは分割されないため、初期の統合の選択が全体のクラスタリング結果に大きな影響を与えることにも注意が必要となる。
|
② 階層的クラスタリングを用いるとどのようなことが可能になるのだろうか。ここでは、さまざまな階層的クラスタリングの活用事例における結果のアウトプットを見ながら、どのような課題に対して階層的クラスタリングが活用でき、どう役立つのかを理解する。階層的クラスタリングは、生物学における種の分類、市場調査における顧客セグメンテーション、文書の分類などに使用される。階層的クラスタリングでは、前回学習した非階層的クラスタリングのように、事前にクラスター数を決める必要がなく、データの内在する構造を明らかにできる点で有用である。また、生成される階層構造は、データの細かな関係性を理解するのに役立ち、異なる階層での分析や解釈が可能となる。
|
③ 実際に階層的クラスタリングを使うには、どのようなステップを踏めばよいのだろう。ここでは、R言語を使って分析を実行しながら、そのプロセスを理解する。具体的なプロセスとしては、まず、データポイント間の距離または類似度を計算する(詳細は、細目④で解説する)。次に、最も似ているデータポイントまたはクラスター同士を統合する。統合の基準は、細目⑤で解説するクラスター間の距離を測る尺度である。このプロセスを全てのデータが単一のクラスターに統合されるか、は特定の停止基準が満たされるまで、繰り返す。最終的には、デンドログラムという図に基づき、データの階層的な関係やクラスタリングの過程を直感的に把握し、適切なクラスター数を決定することが可能となる。デンドログラムは、ツリー構造をした図であり、横軸にデータポイント、縦軸にクラスター間の距離や類似度を表すものである。ここでは、教員が、クラスター分析に必要な一連のRコードと、デンドログラムを可視化するためのRコードを配布する。次に、各自が配られたコードを走らせて、どのようなアウトプットが得られるかを体験する。そして、教員がコードに含まれる関数とその引数について、一つ一つ解説する。
|
④ 細目③で学んだように、R言語等を使えば、階層的クラスタリングを実装することは比較的容易だが、いったいどのような機構や数学的理論がこの手法を可能にしているのだろう。階層的クラスタリングを実現するアルゴリズムの機構や理論について学習する。階層構造の形成には、2つのアプローチ(凝集型クラスタリング・分割型クラスタリング)がある。「凝集型クラスタリング」は、いわばボトムアップ型のアプローチである。全データポイントを最初に個別のクラスターとして扱い、次に類似性の高いクラスター同士を徐々にまとめ上げていく。このプロセスは、全てのデータポイントが単一のクラスターに統合されるまで続けられる。凝集型クラスタリングにおける類似性の定量化には、細目⑤で説明する類似度(距離尺度)が用いられる。一方、「分割型クラスタリング」はトップダウン型のアプローチである。最初に全てのデータポイントを含む単一のクラスターからスタートし、このクラスターをより小さなクラスターに分割していく。この分割は、クラスター内の類似性を最大化し、クラスター間の類似性を最小化するように行われる。分割のプロセスは、あらかじめ定義されたクラスター数に達するか、あるいはクラスターの類似性が特定の閾値を下回るまで続けられる。分割型クラスタリングにおける類似性の定量化においても、理論上は、細目⑤で説明する類似度(距離尺度)を用いることができるが、クラスターをどのように分割するかというプロセスが中心となるため、実際には、特定の距離尺度が直接的な分割基準として用いられることは少なく、より複雑な戦略が取られる傾向がある。
|
⑤ 階層的クラスター分析、特に凝集型クラスタリングでは、グループとグループの類似性を測る距離尺度が必要である。クラスター間の類似性を測る距離尺度の代表的な手法には、最短距離法、最長距離法、平均距離法、ウォード法がある。最短距離法は、クラスター間の最も近い要素間の距離をクラスター間の距離とする。最長距離法は、最も遠い要素間の距離を使用する。平均距離法は、クラスター内の全てのペアの平均距離を考慮する。ウォード法は、クラスタリングによって増加する全体の分散を最小限に抑えるようにクラスターを結合する。どの手法を選択するかによって、異なるクラスタリング結果となる可能性があるため、クラスター間の類似性を定量化する方法は、データの特性やクラスタリングの目的に応じて慎重に選択する必要がある。
|
|
キーワード
|
① 階層的クラスタリング ② 凝集型クラスタリング ③ 分割型クラスタリング ④ デンドログラム ⑤ クラスター間の類似性
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。さらに、授業で使ったコード編集するなどして(コードで遊び)、実装に慣れることができれば望ましい。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
6
|
主成分分析1_実践
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第6回の講義では、今後2回(第6回・第7回)にわたり学習する「主成分分析」の全体像を知り、主成分分析とは何か、主成分分析を用いることで何ができるのかを理解する。そして、実際に、R言語を使って、主成分分析を実装する体験を得ることで、実践的に、分析結果を解釈する能力を身に着ける。また、分析や結果の解釈にあたっての注意点についても学習する。
|
【コマ主題細目①~④】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 主成分分析とは ② 主成分分析にできること ③ 主成分分析の実装(R言語) ④ 主成分分析を行う上での注意点
|
|
細目レベル
|
① 主成分分析(PCA: Principal Component Analysis)とはなんだろう。ここでは、主成分分析を用いる目的や、主成分分析という手法の概略について学習する。主成分分析は、多変量データの特徴を抽出するための統計手法であり、端的には、複数の変数を“統合化“する手法だと考えることができる。主成分分析では、多次元のデータセットにおいて、データの分散が最大となる方向を見つけ、これを新たな軸(主成分)としてデータを低次元に変換する。主成分は元の変数の線形結合で表され、第一主成分は最も分散が大きく、次の主成分はそれに直交する形で分散が最大となるものが選択される。これにより、データの重要な情報を保持しつつ次元を減少させることができ、現象を直感的に理解することの手助けとなる。ここでは、図や応用事例によって学びながら、主成分分析の概要を理解する。
|
② 主成分分析を用いるとどのようなことが可能になるのだろう。ここでは、具体的な研究課題と分析結果を示すことで、主成分分析によって課題を解決した事例を見ながら、主成分分析の有用性について知り、環境分野における応用可能性について考える。主成分分析は、高次元データの「次元削減」、ノイズの除去、変数間の関係性の理解、データの可視化などにおいて有用である。次元削減とは、データセットの特徴を保持しながら、そのデータの次元数(つまり、変数や特徴の数)を減らすことである。次元削減は、データの視覚化、ストレージの削減、計算効率の向上、モデルの過学習を防ぐために役立つ。例えば、多数の変数を持つデータセットから重要な情報を抽出し、それを少数の主成分として表現することで、データの本質的な構造を理解しやすくなる。また、主成分はデータの分散を最大限に捉えるため、元のデータセットを効果的に要約することにも活用可能である。これにより、データ解析や予測モデリングにおいて、計算コストの削減に役立ったり、現象の解釈しやすさを高めたりする。
|
③ 実際に主成分分析を使うにはどのようなステップを踏めばよいのだろう。ここでは、R言語を使って分析を実行しながら、そのプロセスを理解する。最初に、教員が主成分分析に必要な一連のコードを配布する。学生は、教員より配られたコードを自身のPC端末で実行することにより、結果および図を得る。次に、教員が、結果と出力された図の意味を解説する。続いて、教員が、用いたコード内の関数の意味、関数に入力される引数を一行一行解説し、コード記述における注意点も説明する。このプロセスを通じ、学生は、主成分分析を実装する体験を得て、結果を解釈する能力を身に着ける。
|
④ 主成分分析を行ううえでどのような点に注意を払う必要があるのだろう。ここでは、主成分分析の実装にあたって抑えておくべき以下の事項について、事例を交えながら学習する。まず、主成分分析は元のデータが線形関係にあることを前提とするため、非線形構造を持つデータへの適用は適切ではない場合がある。また、データのスケーリングによって結果が大きく変わるため、変数のスケールの検討が必要である。さらに、主成分分析はデータの分散に注目するため、分散が大きな変数に影響されやすく、外れ値にも敏感である。ここでは、提供された実例を通じて、これらの注意点の意味について理解し、正確な分析を行うための知識を身に着ける。また、主成分分析では結果の解釈が重要となり、解釈には背景知識やそれに基づく判断を要する。ここでは、主成分の数の選び方(例:累積寄与率を用いる方法)や、主成分の解釈に関する考え方を提供する。
|
|
キーワード
|
① 主成分分析 ② 統合化 ③ 主成分軸 ④ 直交 ⑤ 次元削減
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。さらに、授業で使ったコード編集するなどして(コードで遊び)、実装に慣れることができれば望ましい。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
7
|
主成分分析2_理論
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第7回の講義では、第6回で学習した「主成分分析」がどのようにして発展してきたのかを知る。そして、主成分分析の機構や理論の概略を学び、どのような仕組みで主成分分析が可能となっているかを理解する。さらに、主成分分析の限界を克服可能な分析手法として、カーネルPCAや、非線形データのための次元削減手法にも触れる。
|
【コマ主題細目①~③】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 主成分分析の歴史 ② 主成分分析の理論 ③ その他の次元削減手法
|
|
細目レベル
|
① 前回(第6回)において学習した主成分分析は、どのような経緯で生まれた分析手法だろう。ここでは、主成分分析が用いられるようになった経緯について学習する。分析は、1901年にカール・ピアソンによって初めて提案された。彼は、データの分散を最大にする直線を見つける方法としてこの手法を導入した。そして、主成分分析の考え方は、統計学において、多次元データセットの変動を要約し、データの構造を単純化する方法として発展してきた。その後、ハロルド・ホテリングが1933年にデータの共分散行列を使用して主成分を導出する方法を提案し、主成分分析の数学的基礎をさらに発展させた。そして、コンピュータが登場・普及し、その技術が進歩すると、大量のデータを迅速に処理できるようになり、主成分分析は、さまざまな分野でのデータ分析に不可欠なツールとしてより広範に応用されるようになった。ビッグデータの時代である今日、主成分分析は、高次元データの可視化や解釈において重要な役割を果たし、データサイエンス、機械学習、統計学の基本的な手法の一つに位置づけられている。また、主成分分析はさまざまな科学的、工学的、商業的な問題解決に利用され、データ駆動型の意思決定に貢献している。
|
② 前回(第6回)経験したように、R言語等を用いれば主成分分析は比較的容易に実装できる。しかし、その背景にはどのような仕組みが存在するのだろうか。主成分分析の仕組みを知るには、線形代数と統計学の理論を含む理論を学ぶ必要がある。ここでは、それらの概略を理解することを目指す。主成分分析では、データセットを表す行列に対し、共分散行列または相関行列を計算し、その固有値問題を解くことで主成分を求める。「共分散」は、2つの変数間の関連度を示し、「共分散行列」は、データセット内の全ての変数間の共分散をまとめた対称行列であり、各要素は対応する変数ペア間の共分散を表す。「固有値問題」とは、共分散行列 Cと非ゼロベクトル vに対して Cv=λv という方程式を解くことである。ここでの λ は「固有値」、v は「固有ベクトル」である。「固有値」は、その固有ベクトルの方向におけるデータの分散を表し、「固有ベクトル」は、データを射影する新しい軸(主成分)の方向を示す。「固有値」は各主成分の分散を示し、対応する「固有ベクトル」がその方向を示す。データはこれらの固有ベクトル(主成分軸)に「射影」され、新しい座標系(主成分座標系)で表される。この変換により、元の高次元データセットは、分散が最大の方向に沿ってより少ない次元で表現される。「主成分」は、データセットの分散を最大化する方向であり、これは共分散行列の固有ベクトルによって定義され、それぞれの固有値はその成分の分散を示す。第一主成分は最も大きな固有値に対応する固有ベクトルの方向であり、データの分散を最も多く説明し、次の主成分は、最初の成分に直交し、残りの分散を最大化する方向を示す。最初の数個の主成分はデータの分散の大部分を占め、重要な情報を含む。
|
③ 主成分分析の限界として、元のデータが線形関係にあることを前提とするため、非線形構造を持つデータへの適用に向かないという点が挙げられる。ここでは、このような主成分分析の限界と、それらを克服することができる最近のデータサイエンス手法について知る。カーネルPCAを用いれば、非線形マッピングを使用してデータを高次元空間に射影し、その上で標準的な主成分分析を適用し、非線形構造を捉えることが可能となる。また、厳密には主成分分析とは言えないものの、非線形データの次元削減手法として、t-SNE(t-Distributed Stochastic Neighbor Embedding)や自己符号化器(Autoencoders)等の手法も存在する。t-SNEは、高次元データの非線形な構造を2次元または3次元空間で可視化するために用いられ、実用面で有用である。また、自己符号化器は、ニューラルネットワークを利用してデータを圧縮し、その後再構築することで非線形次元削減を行うため、データの非線形特性を捉える能力が高い。
|
|
キーワード
|
① 共分散 ② 固有値 ③ 固有ベクトル ④ 主成分軸 ⑤ 射影
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
8
|
因子分析1_実践
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第8回の講義では、今後2回(第8回・第9回)にわたり学習する「因子分析」の全体像を知り、因子分析とは何か、因子分析を用いることで何ができるのかを理解する。そして、実際に、R言語を使って、因子分析を実装する体験を得ることで、実践的に、分析結果を解釈する能力を身に着ける。また、分析や結果の解釈にあたっての注意点についても学ぶ。
|
【コマ主題細目①~④】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 因子分析とは ② 因子分析にできること ③ 因子分析の実装(R言語) ④ 因子分析を行う上での注意点
|
|
細目レベル
|
① 因子分析とはなんだろう。ここでは、因子分析を用いる目的や、因子分析という手法の概略について学習する。因子分析は、多変量統計手法の一つであり、主に観測された変数の背後にある潜在的な構造を明らかにするために、データセット内の変数間の共通性を抽出し、多数の変数間の関係性をより少数の因子で表現する手法である。因子分析を行うことで、データの次元が削減され、データが持つ構造の解釈が容易になる。因子分析の適用においては、探索的因子分析(EFA)と確認的因子分析(CFA)の二つのアプローチが存在する。EFAでは因子の数や構造を事前に仮定せず、データから因子を探る。一方、CFAは理論や仮説に基づき、特定の因子構造をデータに適用し検証する。
|
② 因子分析を用いるとどのようなことが可能になるのだろう。ここでは、さまざまな因子分析の活用事例を見ながら、因子分析の有用性について知り、環境分野における応用可能性について考える。因子分析によって、複数の観測変数から共通の潜在因子を抽出することができる。これにより、データの構造を理解しやすくなり、変数間の相関関係を単純化して解釈することが可能となる。因子分析は、市場調査や社会科学、生物統計学など幅広い分野で、多変量データの背後にある因子を特定したり、データの次元削減やパターンを認識したりすることに用いられている。例えば、心理学では性格や知能のような抽象的な概念を測定するために使用される。
|
③ 実際に因子分析を使うには、どのようなステップを踏めばよいのだろう。ここでは、R言語を使って分析を実行しながら、そのプロセスを理解する。具体的なプロセスは、1)データの準備と因子数の決定、2)因子分析の実行、3)共通性の確認、4)因子間相関の確認と回転法の選択、5)因子構造の理解と解釈、である。Rを使うことで比較的容易に実行できることが理解できる。最初に、教員より配られたコードを自身のPC端末で実行することにより、結果および図を得る。次に、教員が、1)~5)のプロセスと対応させながら、出力された結果と図の意味、提供したコードの関数の意味、関数に入力される引数について解説する。なお、探索的因子分析では、最初から因子数が決まっているわけではない。そこで、一連の因子分析の実装を体験した後に、改めて7種類の因子数の決定方法について学習する。最後に、出力される因子負荷量、因子スコア、モデル適合度などの統計的指標の意味について改めて整理する。学生は、因子分析を実装する体験を得ると同時に、結果を解釈する能力を身に着けることができる。
|
④ 因子分析を行ううえでどのような点に注意を払う必要があるのだろう。ここでは、因子分析の実装にあたって抑えておくべき以下の事項について、事例を交えながら学習する。因子分析では、適切な変数の選択と前処理が重要となる。変数間の相関が低い場合、有効な因子を抽出できない可能性がある。また、因子分析の精度には、サンプルサイズが大きく影響するため、十分なサンプル数が必要となる。さらに、出力された因子の解釈は主観的な側面が強いため、解釈において客観性を保つために必要な姿勢や、恣意的な判断を避けるための工夫について議論する。
|
|
キーワード
|
① 因子分析 ② 共通性 ③ 潜在因子 ④ 探索的因子分析(EFA) ⑤ 確認的因子分析(CFA)
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。さらに、授業で使ったコード編集するなどして(コードで遊び)、実装に慣れることができれば望ましい。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
9
|
因子分析2_理論
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第9回の講義では、第7回で学習した「因子分析」がどのようにして発展してきたのか、その歴史を知る。そして、因子分析の機構や理論の概略を学び、どのような仕組みで因子分析が可能となっているかを学習する。さらに、因子分析の理論を理解するうえで重要となる共通性の推定方法や因子軸の回転についても触れる。最後に、混同しやすい主成分分析と因子分析の違いを確認する。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 因子分析の歴史 ② 因子分析の理論 ③ 共通性の推定方法 ④ 因子軸の回転法 ⑤ 因子分析と主成分分析の違い
|
|
細目レベル
|
① 前回(第8回)において学習した因子分析は、どのような経緯で生まれた分析手法だろう。ここでは、因子分析が用いられるようになった経緯について学習する。因子分析は、20世紀初頭に心理学者チャールズ・スピアマンによって導入された。スピアマンは知能の測定を試み、複数の知能テスト間の共通因子を探索するためにこの方法を開発した。以降、因子分析は心理学をはじめとする多くの分野で用いられるようになり、データの潜在的な構造を解明する重要なツールとして発展してきており、その理論的基盤と方法論は、時代と共に進化し続けている。
|
② 現在、R言語等によって、因子分析を比較的容易に実装できるようになった。その背景にはどのような考え方や数学的理論が存在するのだろう。ここでは、因子分析の理論について学習する。因子分析の理論は、観測された変数がいくつかの潜在的な因子によって説明されるという考えに基づいている。これらの潜在因子は、観測変数間の相関を生み出す共通の原因と見なされる。理論的には、各観測変数は一つ以上の共通因子と個別因子(特殊因子や誤差項)の線形結合で表されるとされ、共通因子は変数間の共通の変動を捉え、個別因子はそれぞれの変数に固有の変動や測定誤差を表す。因子分析では、このような構造を明らかにし、データ内の潜在的なパターンを理解する。
|
③ 因子分析を行ううえでは、「共通性(communality)の推定」について理解しておく必要がある。共通性は、各変数が因子分析モデルによってどの程度説明されるかを示すものである。共通性は、分析の信頼性や因子の解釈に直接影響するため、適切な共通性を推定することが重要となる。共通性は、ある変数の総分散のうち、共通因子によって説明される割合であり、1に近いほどその変数が共通因子により良く説明されることを意味する。ここでは、さまざまな共通性の推定方法を紹介する。具体的には、1)主成分解、2)相関係数の最大値を用いる方法、3)重相関経緯数の平方を求める方法、4)主軸因子法、5)重みづけのない最小二乗法、6)一般化された最小二乗法、7)minimum residual法、8)最尤法、9)イメージ法、10)カノニカル(正準)因子分析法、11)アルファ法、がある。現在は、7)minimum residual法、8)最尤法が主流となっている。実際に因子分析を行う場合は、推定法による結果の違いを理解しておくことが重要であり、結果を提供する際には、共通性の推定方法を明記する必要がある。
|
④ 因子分析を実行した後には、それを解釈する必要がある。抽出された因子の解釈を容易にするために因子軸の回転を行う。ここでは、因子軸を回転するとはどのようなことか、その意味と方法を学習する。回転の方法には、主に直交回転と斜交回転の二つの方法がある。直交回転では、因子間の相関をゼロと仮定し、因子負荷量の分散を最大化して、よりシンプルな構造を目指す。これに対し、斜交回転では、因子間の相関を許容し、より現実に即した因子構造を得ることができる。このような回転を行った後の因子負荷量は、各変数がどの因子にどの程度関連しているかを示し、因子の解釈をしやすくする。ここでは、直交回転と斜交回転について解説した後、バリマックス回転(直交)、クォーティマックス回転(直交)、直接オブリミン回転(斜交)、プロマックス回転(斜交)、ジオミン回転(貯穀・斜交)、ジンプリマックス回転(斜交)、独立クラスター回転(斜交)など多様な回転法について簡単に紹介する。
|
⑤ 第8回・第9回で学習してきた因子分析と、第6回・第7回で学習した主成分分析は、共に多変量データの次元削減手法であるため一見似ており、混同しやすい。ここでは、その目的と方法の違いについて改めて整理する。主成分分析はデータの分散を最大化する成分を抽出することを目的とするが、因子分析は観測変数間の共通の変動を捉え、潜在的な因子を特定することを目的とする。主成分分析ではデータの構造を単純化するのに対し、因子分析ではデータの背後にある潜在的な意味や構造を明らかにすることに重点が置かれる。
|
|
キーワード
|
① 共通性推定 ② 因子軸 ③ 直交回転 ④ 斜交回転 ⑤ 因子負荷量
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
10
|
回帰分析1_概要
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第10回の講義では、今後、5回(第10回~第14回)にわたり学習する「回帰分析」の全体像を理解する。まず、回帰分析の概略を知る。そして回帰分析で用いられる変数について学習したうえで、回帰分析におけるモデル構築の概念を理解する。そして、事例に基づいて、回帰分析を用いるとどのようなことが可能になるのかを学習した後、回帰分析がどのような経緯で発展してきたのか、その歴史を学ぶ。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 回帰分析とは ② 回帰分析の変数(目的変数と説明変数) ③ 回帰モデルの構築とは ④ 回帰分析にできること ⑤ 回帰分析の歴史
|
|
細目レベル
|
① 回帰分析とはなんだろう。回帰分析は、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する統計的手法である。(ここでは、機械学習の回帰タスクも回帰分析の一群として扱うこととする。)回帰分析は、事象に関する理解を深めることや事象を予測することを目的として用いられる。回帰分析の結果は、目的変数が、他の一つまたは複数の説明変数からどの程度影響を受けるかを定量的に示し、それにより、別の説明変数の値を与えたときの目的変数を予測することが可能となる。その回帰分析の結果から因果関係(原因と結果の関係)を完全に明らかにすることはできないが、回帰分析の結果を根拠として因果関係を解釈することが可能となる。基本的な回帰分析には、単回帰分析(simple regression analysis)と重回帰分析(multiple regression analysis)がある。単回帰分析(第11回で詳細を学習)では一つの原因を仮定して、一対一の関係を捉えるのに対して、重回帰分析(第12回で詳細を学習)ではより多くの原因を仮定して、一対多の関係性を理解する。また、近年では、コンピュータ技術の進歩により、より複雑な事象を対象として高精度な結果を出力する回帰モデルも数多く提案されている。機械学習アルゴリズムを用いた回帰分析は「回帰タスク」とも呼ばれる。ここでは、回帰分析を用いる目的や、回帰分析という手法の概略について学習する。
|
② 回帰分析では、実際に観察または測定されたデータセット(dataset)を用いて「回帰モデル」(Regression Model)を構築する。データセットを構成する変数(variable)は、説明変数と目的変数とに分けられる。説明変数は、他の変数に影響を与える側の変数である。説明変数には、「原因」であることが仮定されており、実験や分析において操作や変更を受ける変数である。分析者は説明変数を意図的に変化させ、その変化が目的変数にどのような効果をもたらすかを観察する。目的変数は、説明変数の変化によってその値が変わる変数である。目的変数には「結果」や「効果」であることが仮定されている。分析者は目的変数を通じて、説明変数の変化がどのような結果をもたらすかを把握する。例えば、分析者が植物の成長に最も効果的な肥料の量を調べたいとき、原因だと仮定される肥料の量が説明変数となり、結果だと仮定される植物の成長率が目的変数となる。このように、説明変数と目的変数の関係性を理解することで、想定される因果関係を解釈することができる。目的変数と説明変数は、用いられる分野や文脈により、異なる多くの異なる名前や組合せを持つ。例えば、説明変数 (explanatory variable) と 被説明変数 (explained variable)、独立変数 (independent variable) と従属変数 (dependent variable)、予測変数 (predictor variable) と 応答変数 (response variable)、原因変数 (factor/causal variable) と 効果変数 (effect variable)、刺激変数 (stimulus variable) と反応変数 (reaction variable)、入力変数 (input variable) と 出力変数 (output variable)等が挙げられる。本科目では、説明変数(explanatory variable)と目的変数(target variable)の組合せを用いる。
|
③ 回帰モデルを設計、評価、改善するにあたり理解しておくべき基本的な概念について学習する。まず、回帰モデルを構築することは、実際に観測または測定されたデータセットを用いて、モデルを「訓練」(training)することを意味する。「モデルを訓練する」とは、特定のデータセットを使用して、モデル(ここでは、データからパターンを学習するための学習器、アルゴリズムのこと)が、データのパターンを学習し、データの構造や関係性を理解するということであり、関係性を表すモデルの「パラメータ」(parameter)は訓練により特定される。訓練(モデル構築)に用いられるデータを「訓練データ」(training data)、「学習データ」(learning data)などと呼ぶ。訓練に使っていないデータには、「検証データ」 (validation data)と「テストデータ」 (test data)があり、どちらもモデルの評価に用いられるが、検証データはモデルを開発する段階でモデルの改善と選択のために用いられるが、テストデータは独立したデータに対するモデルの一般化能力の評価のために使われるという違いがある。
|
④ 回帰分析を用いると、どのようなことが可能になるのだろう。ここでは、さまざまな回帰分析の活用事例を見ながら、回帰分析の有用性について知り、環境分野における応用可能性について考える。回帰分析の結果は、特定の変数が他の変数にどのように関連しているかといった関連の強さや方向性の把握、さまざまな条件下における目的変数の予測、変数間の因果関係の根拠などに役立てることができ、ビジネス、経済学、医学など幅広い分野で利用される。環境分野においても、環境汚染と健康との関係、CO2排出量と気温上昇の関係、環境施策とその効果との関係、人間活動と水質や大気質との関係など、さまざまな目的に用いられる。しかし、特に観察研究における回帰分析では、未知の交絡因子が存在することが多く(第2回細目③を参照)、回帰分析単独では、因果関係を解釈することが困難となる。
|
⑤ 今日広く用いられる回帰分析は、誰がどのようにして築き上げたのだろう。ここでは、回帰分析の起源と発展について学習する。今日の回帰分析は、多くの人々の気づきや研究によって築き上げられてきた。19世紀、回帰分析の概念は、フランシス・ゴルトンによって初めて導入された。ゴルトンは生物学的な特徴がどう遺伝するのかに関心があり、親と子の身長を分析した。彼は「回帰」(regression)という用語を使い、子の身長が世代を通じて平均に「回帰」するという傾向を示した。これが回帰分析の名前の由来である。その後、カール・ピアソンが、ゴルトンの研究を受け継ぎ、回帰分析と相関の理論を発展させた。ピアソンは、変数間の線形関係を記述するための手法として、回帰直線の概念を導入した。さらに20世紀初頭になると、ロナルド・フィッシャーが、分散分析(ANOVA)や最尤推定法という方法を導入し、これらは回帰分析の理解と応用可能性をさらに広げた。そして、20世紀後半から現在にかけて、コンピュータ技術が進歩すると、複雑な計算が可能となり、機械学習アルゴリズムなど、より高度な回帰分析手法が広く提供されるようになった。このような新しい回帰分析手法の活用により、社会・環境課題における複雑な現象の解明、環境影響の評価や予測、環境問題への新たな対策の発見、などが実現することが期待されている。
|
|
キーワード
|
① 回帰分析 ② 目的変数 ③ 説明変数 ④ 回帰タスク ⑤ 訓練
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
11
|
回帰分析2_単回帰分析
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第11回の講義では、回帰分析の中でも最も基本的な「単回帰分析」を学習する。単回帰分析は、一つの説明変数と一つの目的変数の間の直線的な関係をモデル化する回帰分析手法である。ここでは、単回帰分析の概要と有用性を把握したうえで、実際に、R言語を使って単回帰分析を実装することで、分析の方法、結果の読み取り方や解釈の仕方を学習する。そして、単回帰分析の数学的な理論についても学び、単回帰分析の限界や適用にあたっての注意点も理解する。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 単回帰分析とは ② 単回帰分析にできること ③ 単回帰分析の実装(R言語) ④ 単回帰分析の理論 ⑤ 単回帰分析を行ううえでの注意点
|
|
細目レベル
|
① 単回帰分析(simple regression analysis)とはなんだろう。回帰分析の中でも単回帰分析は、最も基本的な分析手法といえる。単回帰分析は、一つの説明変数と一つの目的変数の間の直線的な関係をモデル化する分析手法であり、一つの説明変数の変化が目的変数にどのように影響を与えるかを解釈したり、目的変数を予測することを目的として用いられる。直線的な関係とは、「ある説明変数の値が増加または減少すると、目的変数の値も一定の割合で増加または減少する」という関係のことである。ここでの割合は、直線の傾きに相当する。直線的な関係の考え方は、環境統計解析学基礎で学習した「相関関係」と似ているが、相関関係は、二つの変数間の関連の強さと方向を示すのに対し、直線的な関係のモデル化においては、その関係を具体的な直線の形で表現しようとする。相関が高い場合でも、その関係が完全に直線的であるとは限らない。
|
② 回帰分析の中でも単回帰分析は、特にどのような分析に用いられるのだろうか。ここでは、さまざまな単回帰分析の活用事例を見ながら、単回帰分析を用いることの利点とその限界について学習する。細目①で学んだように、単回帰分析は、一つの説明変数に基づいて一つの目的変数の値を予測する最もシンプルな回帰分析である。単回帰分析は、二つの変数間の直線的な関係を理解するのに有効な分析であり、これを用いることで、一つの要因が結果にどの程度の影響を与えるかを知り、その関係の強さを数値で示すことができる。例えば、気温という一つの説明変数と、アイスクリームの売り上げという一つの目的変数との関係を知ることなどに用いることができる。しかし、アイスクリームの売り上げには、その日の天気など、気温以外の要因も影響してるかもしれない。単回帰分析のモデルに十分な精度や妥当性がない場合には、重回帰分析など、より複雑なモデルの構築を検討する必要がある。
|
③ 実際に単回帰分析を使うにはどのようなステップを踏めばよいのだろう。単回帰分析は、R言語を用いることで比較的容易に実装できる。ここでは、R言語を使って、実際に単回帰分析を実行しながら、どのように単回帰分析を進めるのかを理解する。具体的なプロセスは、1)データの準備と目的の設定、2)単回帰分析の実行、3)出力結果の読み取り、4)得られた結果の解釈、5)得られた単回帰モデルによる予測、である。最初に、教員が単回帰分析の実行に必要な一連のコードを配布する。学生は、教員より配られたコードを自身のPC端末で実行することにより、結果および図を得る。次に、教員が、1)~5)のプロセスと対応させながら、出力された結果と図の意味、提供したコードの関数の意味、関数に入力される引数について解説する。学生は、単回帰分析の実行プロセスを理解すると同時に、実践的に単回帰分析の基礎を理解する。
|
④ 細目③で体験したように、R言語等を用いれば単回帰分析を容易に実装することができる。しかし、その背景にはどのような理論が存在するのだろうか。単回帰分析を行うことは、説明変数xと目的変数yの間に線形関係があると仮定し、その関係を最もよく表す直線を見つけだすことである。この直線は、y=β_0+β_1 x+ϵ という形で表される。β_0は「切片」と呼ばれ、説明変数が0のときの目的変数の予測値であり、回帰直線がy軸と交わる点の値を示す。β_1は「傾き」と呼ばれ、xの変化に対するyの変化の割合を示す。ϵは、モデルが捉えることができないデータのランダムな変動や、測定誤差、モデルの不完全さなどによって生じる誤差であり、モデルが予測する値と実際の観測値との差である。最も基本的な単回帰分析では、最小二乗法を用いて、観測データに最もフィットする β_0とβ_1の値を推定する。最小二乗は、全ての観測点と推定された回帰直線との距離(誤差)の二乗和を最小化するような回帰直性を求める方法である。ここでは、図を多用し、最も基本的な最小二乗法による回帰分析の概念を理解する。
|
⑤ 回帰分析を行ううえでどのような点に注意を払う必要があるのだろう。ここでは、回帰分析の実装にあたって抑えておくべき以下の点について、事例を交えながら学習する。最小二乗法による単回帰分析の適用にあたり知っておくべき注意点がいくつか存在する。ここではそのうち主要なものについて解説する。「外れ値の影響」データに他の観測値から大きく離れた観測値(外れ値)が含まれている場合、単回帰分析の結果は外れ値から大きな影響を受ける。そのため、事前に記述統計量の確認やデータの可視化を行い、分析に影響しそうな外れ値がないかどうか確認をすることは重要である。このことはデータの特性を理解するうえでも有効である。「線形性の仮定」単回帰分析では線形性が仮定されていることを認識し、データの可視化や相関分析を通じ、説明変数と目的変数間の線形関係を事前に確認するべきである。「誤差の独立性」単回帰分析では誤差項が「独立」であることが仮定されている。「独立」とは二つ以上の事象や変数間に相互に影響を及ぼさない関係があるということである。例えば、時間系列データなどではこの仮定が成立しないことが多い。ここでは、統計学における「独立」の意味を理解し、残差プロットなどを用いて、誤差の独立性を確認するための方法を知る。
|
|
キーワード
|
① 単回帰分析 ② 最小二乗法 ③ 回帰係数 ④ 切片 ⑤ 誤差
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。さらに、授業で使ったコード編集するなどして(コードで遊び)、実装に慣れることができれば望ましい。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
12
|
回帰分析3_重回帰分析
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第12回の講義では、単回帰分析を拡張した分析手法である「重回帰分析」を学ぶ。重回帰分析では、二つ以上の説明変数を考慮し、原因となる変数を複数仮定することで、それらが同時に影響した際に目的変数がどう変化するかをモデル化する。ここでは、重回帰分析の概要と有用性を把握したうえで、実際に、R言語を使って、重回帰分析を実装することで、分析の方法、結果の読み取り方、解釈の仕方を学習する。そして、重回帰分析の理論についても学び、重回帰分析特有のバイアスなど、分析にあたっての注意点を学習する。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 重回帰分析とは ② 重回帰分析にできること ③ 重回帰分析の実装(R言語) ④ 重回帰分析の理論 ⑤ 重回帰分析を行ううえでの注意点
|
|
細目レベル
|
① 重回帰分析(multiple regression analysis)とは何だろう。重回帰分析は、単回帰分析を拡張した分析手法である。単回帰分析では一つの説明変数を考慮したのに対して、重回帰分析では二つ以上の説明変数を考慮する。つまり、原因となる変数を複数仮定し、それらが同時に影響した際に、目的変数がどう変化するかをモデル化する。これにより、1)個々の説明変数の影響を制御しつつ、目的変数に対するそれぞれの説明変数の貢献度を示すことや、2)複数の因子が絡み合っている現象など、より複雑な事象の予測値を示すことができる。これにより、単回帰分析では難しかった複雑な現象やプロセスの理解や将来予測などが可能となり、幅広い問題に対してより適切な解釈を提供することが可能となる。しかし、重回帰分析では、単回帰分析では考える必要のなかった新たなバイアス(多重共線性の影響など)に注意を払う必要もある(細目⑤で詳細を学習)。
|
② 回帰分析の中でも重回帰分析は、特にどのような分析に用いられるのだろうか。ここでは、さまざまな重回帰分析の活用事例を見ながら、重回帰分析を用いることの利点とその限界について学習する。上述の通り、重回帰分析では、1)個々の説明変数の影響を制御したうえで、目的変数に対する説明変数の貢献度を理解し、2)より複雑な事象の予測を行うことできる。そのため、重回帰分析は、ビジネス、経済学、医学、社会科学、工学など幅広い分野で応用されており、社会環境課題の解明や解決策の検討においても幅広く適用可能な手法である。例えば、家の価格には、家の大きさ、築年数、立地などの複数の要因が同時に影響していることが想定される。重回帰分析を使うことで、このような複数の要因と家の価格との関係をモデル化することができ、各要因の影響の程度を解釈したり、各要因を変更したときの家の価格を予測したりすることが可能となる。しかし、重回帰分析にも限界はある。例えば、広い家ほど価格が高くなるが、広すぎる家の価格はかえって低くなる傾向がある地域における分析では、重回帰分析によって家の広さと家の価格との関係を正確に推定することができない。そのため、今日までには、重回帰分析の他にも様々な回帰分析の方法が提案されている(第13回で学習)。
|
③ 重回帰分析の実装は、単回帰分析の実装方法と大きく異ならず、R言語等を使うことで比較的容易に実装できる。ここでは、R言語を使って、実際に重回帰分析を実行しながら、どのように重回帰分析を進めるのかを理解する。具体的なプロセスは、1)データの準備と目的の設定、2)重回帰分析の実行、3)出力結果の読み取り、4)得られた結果の解釈、5)得られた重回帰モデルによる予測、である。最初に、教員が重回帰分析の実行に必要な一連のコードを配布する。学生は、教員より配られたコードを自身のPC端末で実行することにより、結果および図を得る。次に、教員が、1)~5)のプロセスと対応させながら、出力された結果と図の意味、提供したコードの関数の意味、関数に入力される引数について解説する。学生は、重回帰分析の実行プロセスを理解すると同時に、重回帰分析を自分自身で実行する体験を得ることで分析への自信をつける。
|
④ 細目③で体験したように、R言語等を用いれば重回帰分析も、単回帰分析と同様に、容易に実装することができる。しかし、その背景にはどのような理論が存在するのだろうか。重回帰分析は、単回帰分析を拡張した形で、二つ以上の説明変数 x_1,x_2,…,x_n と一つの目的変数yの間に線形関係があると仮定し、その関係を最もよく表す平面(または超平面)を見つけ出す分析手法である。この関係は、y=β_0+β_1 x_1+β_2 x_2+⋯+β_n x_n+ϵという形で表される。ここで、β_0は切片であり、すべての説明変数が0のときの目的変数の予測値を示し、回帰平面がy軸と交わる点の値を示す。各β_i (i=1,2,…,n)は、対応する説明変数x_iの係数であり、その説明変数の一単位の変化が目的変数yの変化に与える影響の大きさ(傾き)を示す。ϵは誤差項である。ここでは、最も基本的な最小二乗法による重回帰分析の仕組みについて、数式とプロットを多用することで視覚的に、を理解する。
|
⑤ 重回帰分析の実行にあたっては、単回帰分析における注意点に加え、新たに注意すべき点も多い。ここでは、重回帰分析の適用にあたり知っておくべき主要な注意点を解説する。「外れ値の影響」「線形性の仮定」「誤差の独立性」は単回帰分析の場合と同様に重要な注意点である。散布図や残差プロットを使用してデータや仮定の妥当性を十分に確認することが重要である。重回帰分析で複数の説明変数を用いることにより生じる注意点として、多重共線性(Multicollinearity)、誤差の等分散性/誤差の均一性(Homoscedasticity)、モデルの過剰適合(Overfitting)がある。説明変数間に強い相関が存在すると「多重共線性」の問題が生じる。これにより、個々の変数の効果を正確に推定することが困難となり、モデルの係数の解釈が不安定になり得る。一般にこの問題の診断にはVIF(Variance Inflation Factor)が用いられる。重回帰分析では、誤差の分散がすべての説明変数のレベルで一定である「誤差の等分散性」(Homoscedasticity)も求められる。誤差の分散が不均一(異質性)である場合、推定値の効率性や標準誤差に影響を及ぼす可能性がある。また、多数の説明変数をモデルに含めると、訓練データに対して非常に良いフィット(あてはまり)を得られるが、新しいデータに対する予測性能が低下する可能性がある。このように、モデルが訓練データに過剰にフィットすることは「過剰適合」と呼ばれ、テストデータを用いた評価等により、過剰適合したモデルとならないよう注意をする必要がある。ここでは、以上のような問題とその対処法に関する解説を行う。
|
|
キーワード
|
① 重回帰分析 ② 過剰適合 ③ 多重共線性 ④ VIF ⑤ 誤差の等分散性
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。さらに、授業で使ったコード編集するなどして(コードで遊び)、実装に慣れることができれば望ましい。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
13
|
回帰分析4_さまざまな回帰モデル
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第13回の講義では、第10回から第12回で学習した回帰分析の限界を知り、それらの限界を克服できるさまざまな回帰モデルを紹介する。最初に、各回帰モデルの特徴や位置づけを俯瞰的に理解する。次に、多重共線性、過剰適合、変数選択等の課題を克服可能な各種「拡張線形モデル」について学ぶ。さらに、線形モデルや拡張線形モデルでは捉えきれない柔軟性や非線形関係を捉えることのできる「非線形回帰モデル」についても学習する。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① さまざまな回帰分析手法 ② 拡張線形モデルにできること ③ さまざまな拡張線形モデル ④ 非線形回帰モデルにできること ⑤ さまざまな非線形回帰モデル
|
|
細目レベル
|
① これまで学習してきたように、目的変数と一つまたは複数の説明変数との関係をモデル化する回帰分析は、さまざまな分野で応用される有用なアプローチである。そのため、単回帰分析(第11回で学習)や重回帰分析(第12回で学習)以外にも、回帰を行うための多様なモデルやアルゴリズムが開発されている。回帰モデルは大きく、線形回帰モデルと非線形回帰モデルに分けることができ、線形関係が仮定できる場合には線形モデルが、データが非線形のパターンを示す場合には非線形モデルや、より複雑なモデルが使われる。例えば、複雑なモデルによる「過剰適合」(第14回の細目②で学習)を避けるための正則化やアンサンブル学習、データの構造をより良く捉えるニューラルネットワークなどモデルの特性や種類も様々である。分析の目的を達成するためには、扱うデータの性質や特定の問題の要件に応じて、適切な回帰手法を選択することが重要である。ここでは、目的に適した回帰分析手法を選択するために、さまざまな回帰分析手法の位置づけを俯瞰的に理解する。
|
② 線形回帰モデルの主要な手法は、これまでに学習した単回帰分析と重回帰分析だが、これらの手法には、多重共線性、過剰適合、変数選択等における課題があった。これら従来の回帰分析がもつ課題に対処するために、リッジ回帰 (Ridge Regression)、ラッソ回帰 (Lasso Regression)、弾性ネット回帰 (Elastic Net Regression)、一般化線形モデル(Generalized Linear Models, GLMs)など、さまざまな「拡張線形モデル」が開発されている。ここでは、実際のデータとそれらの拡張線形モデルを使って、課題を解決する事例を示し、単回分析や重回帰分析の限界、並びに、拡張線形モデルの特徴や有用性を理解する。
|
③ 細目②では拡張モデルの特徴や有用性を理解した。ここでは、さまざまな拡張線形モデルの機構の概略を学習する。具体的には、代表的な拡張線形回帰モデルには、係数の大きさにペナルティを課す(L2正則化)ことで過剰適合を防ぐリッジ回帰 (Ridge Regression)、係数を完全にゼロにすること(L1正則化)ことで、変数選択の効果をもつラッソ回帰 (Lasso Regression)、リッジ回帰とラッソ回帰の特徴を組み合わせたモデルで、L1とL2の両方の正則化を適用する弾性ネット回帰 (Elastic Net Regression)、更に、目的変数が正規分布に従わない場合のモデル化や、線形予測子と目的変数の非線形関係のモデル化において有用な一般化線形モデル(Generalized Linear Models, GLMs)など、各モデルがどのように回帰タスクを解くのかに関しての概略を理解する。
|
④ 現実世界の多くの現象は非線形である。非線形回帰モデルは、線形モデルや拡張線形モデルでは捉えきれない柔軟性や非線形関係を捉え、データの複雑な関係性やパターンをモデリングすることができる強力なツールである。非線形回帰モデルを用いることで、正確な予測やデータ分析が可能となるだけでなく、データの隠れたパターンの発見も可能となる。非線形回帰モデルとしては、多項式回帰 (Polynomial Regression)、回帰木 (Decision Tree Regression)、ランダムフォレスト回帰 (Random Forest Regression)、ブースティング回帰 (Gradient Boosting Regression)等の機械学習、更には、ベイジアン回帰モデルや、多層パーセプトロン回帰 (MLP Regression)などニューラルネットワークに基づく回帰などがある。ここでは、線形モデルや拡張線形モデルによる分析結果と、機械学習を中心とする非線形回帰モデルによる分析結果を比較することで、非線形回帰モデルの特徴や有用性を理解する。
|
⑤ 細目④では非線形回帰モデルの特徴や有用性を理解した。ここでは、さまざまな非線形回帰モデルの機構の概略を学習する。具体的には、説明変数の高次項を導入して非線形関係をモデル化する「多項式回帰」、データの分割を繰り返して決定木を構築する「回帰木」、複数の回帰木を組み合わせて予測を行うことで過剰適合を防ぐ「ランダムフォレスト回帰」、複数の弱学習器(通常は回帰木)を順次改善していく「勾配ブースティング回帰」などの機械学習アルゴリズム、更には、リッジ回帰をベイジアンの枠組みで解釈し、係数の事前分布を考慮する「ベイジアンリッジ回帰」などのベイジアン回帰モデル、基本的なニューラルネットワークであり隠れ層を持つことで非線形関係を捉える「多層パーセプトロン回帰」などのニューラルネットワークに基づく回帰など、各モデルがどのように回帰分析結果を得る(回帰タスクを解く)のかに関しての概略を理解する。
|
|
キーワード
|
① 非線形回帰モデル ② 拡張線形回帰モデル ③ 多項式回帰 ④ 一般化線形モデル ⑤ 回帰木
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
14
|
回帰分析5_回帰モデルの評価
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第14回の講義では、第10回から第13回までで学習してきた回帰モデルの評価手法を学ぶ。最初に、回帰モデルを評価するうえで重要となる4つの観点を理解する。次に、特に複雑な回帰モデルで問題となる、「過剰適合」について学び、その対処法として「交差検証」の考え方を理解する。そして、様々な交差検証を可能にする「リサンプリング手法」についても学ぶ。さらに、モデルを客観的に評価するのに不可欠なさまざまな「モデル評価指標」とその特徴を学習する。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 回帰モデル評価の観点 ② 過剰適合 ③ 交差検証 ④ さまざまなリサンプリング手法 ⑤ モデル評価指標
|
|
細目レベル
|
① できあがった回帰モデルが良いモデルかどうかについては、どのように判断したらよいだろうか。ここでは、モデルを評価する際に必要な4つの観点:1) 予測性能 (predictive performance)、2)解釈性 (interpretability)、3) あてはまり(goodness of fit)、4) 汎化性 (generalizability)、について学習する。1) 予測性能は、モデルがどれだけ正確に未知のデータを予測できるかという観点である。予測性能が高いモデルとは、実際のデータと予測値との誤差が小さいモデルである。単回帰モデルや重回帰モデル等のシンプルな線形回帰モデルは、その構造上、解釈性が高いとされる。2)解釈性は、構築したモデルによって示される結果がどれだけ理解しやすく現象を説明しやすいものであるかという観点である。高い解釈性を持つモデルは、変数の影響力や現象が内包するメカニズムを良く表現し、意思決定プロセスにおいて有用な洞察を提供できる。3) あてはまりは、モデルが訓練データ(モデル構築に用いたデータ)にどれだけうまく適合しているかという観点である。あてはまりを評価する指標には、決定係数(R²)や調整済み決定係数(Adjusted R²)などがある。あてはまりが高いモデルは、訓練データの変動をよく捉えているが、過剰適合(細目②で詳細を学習)のリスクがある。4) 汎化性は、モデルが未知のデータに対してどれだけ良く適合するかという観点である。汎化性の高いモデルは、訓練データだけでなく、モデル構築に用いていないデータテストデータ(テストデータや別のデータ)に対しても良い予測性能を示す。汎化性を高めるためには、リサンプリング(細目④で詳細を学習)による交差検証(細目③で詳細を学習)等を通じ、適切なモデル複雑度を選択する必要がある。これらの観点は相互に関連しており、例えば、あてはまりを追求しすぎると汎化性が低下する可能性があり、非常に複雑なモデルは高い予測性能を示すが、解釈性が低下する可能性がある。実際の分析では、これらの観点をバランス良く考慮し、目的に適したモデルを選択する必要がある。
|
② 回帰モデルを構築する際に、注意すべきこととして過剰適合(overfitting)の問題がある。これは、細目①で学習したモデル評価の4つ観点のうち、あてはまりが非常によく汎化性が低い状態のことである。過剰適合は、構築したモデルが訓練データに含まれるランダムノイズ(random Noise)や捉えたい事象を代表していないパターンまで学習してしまうことで生じる。過剰適合したモデルは、訓練データに対しては非常に高い予測精度を示すのに、訓練に使っていないデータに対しては予測精度が低い。そのため、異なる地域、時間帯、別のグループ等で得た説明変数をそのモデルに適用しても目的変数を正確に予測することができない。なお、ランダムノイズとは、測定誤差、データ収集時の不確実性、モデルで説明できないデータの自然なばらつきなど、さまざまな原因から生じる予測不可能で無作為な変動や誤差のことである。使用する説明変数が多すぎるなどモデルが複雑すぎる場合や、訓練データが少なすぎる場合、データ自体にノイズが多い場合などに、過剰適合は生じやすいので、過剰適合を防ぐためには、不要な説明変数を削除する、訓練データを増やす、明らかなノイズを事前に除外するなどの対応が有効である。この他、過剰適合を抑えるための技術(ラッソ回帰、リッジ回帰など)を用いる場合もある。
|
③ 過剰適合(細目②で学習)を予防するためのモデル性能評価技術として交差検証(Cross-Validation)がある。交差検証では、モデルが未知のデータに対してどのように機能するか、つまりモデルの汎化性を確認する。交差検証の基本的なプロセスとしては、まず、利用可能なデータセットを「訓練データ」と「テストデータ」に分割する。この分割を複数回行う。交差検証のためのデータ分割においては、できるだけ元のデータセットの分布や特性を反映したサブセットを、もとのデータセットから繰り返しサンプリング(抽出)する必要がある。このようなサンプリングは「リサンプリング」と呼ばれ、多くの方法が提案されている(詳細は細目④で学習)。交差検証では、訓練に用いたデータ以外のデータでテストするため、過剰適合を避け、より一般化された性能評価(ロバストな性能評価)が可能となる。
|
④ リサンプリング手法は、細目③で学習した交差検証のようなモデルの性能評価だけでなく、統計的推測、データの特性の理解など、様々な目的で用いられる。解析の目的、データセットのサイズ、計算リソースなどを考慮して、適切なリサンプリング手法を選択することは重要である。ここでは、主要なリサンプリング手法とその特徴について学習する。最も一般的な方法の一つが「K-分割交差検証」である。K-分割交差検証では、データセットをK個の同等のサイズの部分集合に分割し、分割された各部分集合のうちK-1個は訓練データとして使用し、残りの一つをテストデータとして使用する。このプロセスを順番にK回繰り返し、各部分集合がテストデータとして1回ずつ使われるようにする。この評価から得られるK個の性能指標(例えば、二乗平均平方根誤差(RMSE)など)の平均値を取り、モデルの性能の推定値として使用する。。K-分割交差検証には、データセット全体を効率的に使用し、モデルの一般化能力を公平に評価できるという利点があるが、大規模なデータセットでは計算コストが高くなる可能性がある。 K-分割交差検証を応用した方法に「リーブ・ワン・アウト交差検証」(Leave-One-Out Cross-Validation, LOOCV)がある。この方法は、 Kをデータセットのサンプル数と同じ数とする。つまり、1つのサンプルだけをテストデータとし、残りを訓練データとして使用することを、全サンプルに対して繰り返す。この方法は、データの使用効率が最も高く、小規模なデータセットでのバリアンスの低減に有効だが、サンプル数が多い場合に計算コストが非常に高くなる。また、「繰り返しK-分割交差検証」(Repeated K-Fold Cross-Validation) K-分割交差検証の応用である。この方法は、K-分割交差検証を複数回繰り返し実行し、異なるランダムな分割で毎回モデルを評価する。これにより、モデル評価のバリアンスを更に低減することができ、一回のK-分割交差検証よりもロバストなモデル評価が可能となる。しかし、計算コストは増加する。また、「ブートストラップ 」(Bootstrap)も有名なリサンプリング手法である。この方法では、元のデータセットから、重複を許して、ランダムにサンプルを繰り返し、複数の「ブートストラップサンプル」を得る。そして、得られたサンプルでモデル構築を繰り返し、そのパラメータや予測値の分布を推定する。この方法は、 小規模なデータセットや元のデータセットの分布が不明な場合でも、統計量の信頼区間やバリアンスを推定できるが、データセットそのものに偏りがある場合、その偏りを反映したサンプルを生成してしまう可能性がある。
|
⑤ 細目①で学習した回帰モデル評価の4つの観点のうち、1) 予測性能 (predictive performance)、3) あてはまり(goodness of fit)、4) 汎化性 (generalizability)、を評価する際には、モデルの予測が実際の値にどれだけ近いかを測る「評価指標」を用いて定量的な評価を行う。ここでは、主要な評価指標を学習する。予測性能を評価する主な指標には、平均絶対誤差(MAE)、平均二乗誤差(MSE)、二乗平均平方根誤差(RMSE)などがある。平均絶対誤差 (Mean Absolute Error, MAE)は、予測値と実際の値の絶対値の差の平均であり、予測誤差の大きさを直感的に理解しやすい指標だと言える。平均二乗誤差 (Mean Squared Error, MSE)は、予測値と実際の値の差の二乗の平均であるMSEは、。誤差の大きさが強調される指標であり、大きな誤差を重く捉えるため、外れ値の影響を受けやすい。二乗平均平方根誤差 (Root Mean Squared Error, RMSE)は、MSEの平方根を取った指標である。単位が実際の目的変数と同じとなるため、解釈しやすいという特徴をもつ。決定係数 (R², R-squared)は、データのどれだけがモデルによって説明できているかを示す指標で、0から1の範囲の値をとる。この値が1に近いほど、モデルはデータの大部分を説明している、つまり「説明力が高い」ということを示す。しかし、複雑なモデルほど過大評価される傾向がある。 調整済み決定係数 (Adjusted R-squared)は、予測変数の数で示されるモデルの複雑さを考慮した決定係数の修正版であり、変数が追加されると、調整済み決定係数の値は減少するため、無関係な変数がなく、適切な複雑さのモデルを構築するための良い目安となる指標である。様々な回帰モデルを研究や仕事に役立てるには、これらの評価指標の値から構築したモデルの性能を適切に評価し、回帰モデルの性能を総合的に評価する力が必要である。
|
|
キーワード
|
① 予測性能 ② 汎化性 ③ 過剰適合 ④ 交差検証 ⑤ リサンプリング手法
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|
|
15
|
判別分析(科目全体の振り返りも行う)
|
科目の中での位置付け
|
本科目では、「多変量解析」について学ぶ。多変量解析は、統計学の一分野であり、データセット内の複数の変数間で同時に生じる相関関係を分析することで、因果関係の解釈や予測に役立てる解析手法の総称である。第1回では、多変量解析のことはじめとして、多変量解析の意味やデータサイエンス全体における多変量解析の位置づけを学ぶ。そして、多変量解析の材料となる「データ」や「変数」の意味や分類、「確率分布」の考え方、「標準化」の考え方、についても学習する。第2回では、「実験研究」と「観察研究」の違いについて学んだうえで、(実験研究ができない)複雑な社会・環境課題を対象とした観察研究における因果関係の解釈に、多変量解析がどのように貢献するかについて議論する。第3回から第15回では具体的な手法を学習する。まず、第3回から第5回では、要素を”似たもの同士”にまとめる「クラスター分析」を学習する。第6回・第7回では、複数の特徴をより少ない特徴に総合化する「主成分分析」について学ぶ。第8回・第9回では、特徴の共通の部分を抽出する「因子分析」を学習する。そして、第10回から第14回までの5回にわたって、多変量解析の中でも特に応用範囲が広い「回帰分析」について学習する。回帰分析は、因果関係の解釈や予測を行うために、変数間の関係性を調べ、特定の変数が他の変数によって説明される程度をモデル化する手法である。第15回では、回帰分析の考え方を基礎として、訓練データに基づき要素群の境界線を明らかにする「判別分析」を学習する。 第15回の講義では、「判別分析」を学習する。判別分析は回帰分析と似ているが、回帰分析が因果関係の解釈や値の予測を目的としているのに対し、判別分析は、各要素がどのカテゴリに属するかを予測するために、要素群の境界線を明らかにすることを目的とする。最初に判別分析の概要と有用性を把握したうえで、実際に、R言語を使って、判別分析を実装することで、分析の方法、結果の読み取り方、解釈の仕方、予測の方法等を学習する。そして、「線形判別分析」、「サポートベクターマシーン」(SVM)を例として、判別分析の機構や理論を学び、分析における注意点も理解する。
|
【コマ主題細目①~⑤】 コマ用オリジナル配布資料
|
|
コマ主題細目
|
① 判別分析とは ② 判別分析の実装(R言語) ③ 判別分析の機構と理論 ④ 判別分析を行ううえでの注意点 ⑤ 「環境統計解析学応用」まとめ
|
|
細目レベル
|
① 判別分析(Discriminant Analysis)とはなんだろう。判別分析は、観測されたデータセットの特徴に基づいて、そのデータが属するカテゴリやグループを予測する方法である。回帰分析では、連続値を目的変数としてその値を予測するのに対して、判別分析では、カテゴリカル(質的変数)な変数を目的変数として、要素がどのカテゴリに属するかを予測する。最も基本的な判別分析は、線形判別分析(LDA: Linear Discriminant Analysis)だが、機械学習の「分類タスク」も判別分析だと言え、第13回細目④で学習した決定木、ランダムフォレスト、勾配ブ―スティングなどの回帰タスクを解くためアルゴリズムは、分類タスクも解くことができる。判別分析は、 迷惑メールかどうかの判断、顧客の購買行動の予測、疾病の診断など、様々な分野で活用されている他、多次元データ(多くの変数)をより扱いやすい低次元の特徴空間に変換し(少ない変数にまとめて)、データを分かりやすく可視化したり、その後の分析をしやすくするためにも用いられる。ここでは、判別分析とはどのようなものか、その概要を理解するとともに、実際の活用事例をみながら判別分析の概要を学習する。
|
② 実際に判別分析を使うにはどのようなステップを踏めばよいのだろう。判別分析の実装方法は、回帰分析の実装方法と大きく異ならず、R言語を用いることで比較的容易に実装できる。ここでは、R言語を使って、実際に判別分析を実行しながら、どのように判別分析を進めるのかを理解する。具体的なプロセスは、1)データの準備と目的の設定、2)判別分析の実行、3)出力結果の読み取り、4)得られた結果の解釈、5)得られたモデルによる予測と可視化、である。最初に、教員が判別分析の実行に必要な一連のコードを配布する。学生は、教員より配られたコードを自身のPC端末で実行することにより、結果および図を得る。次に、教員が、1)~5)のプロセスと対応させながら、出力された結果と図の意味、提供したコードの関数の意味、関数に入力される引数について解説する。学生は、判別分析の実行プロセスを理解すると同時に、実践的に判別分析の基礎を理解する。
|
③ 判別分析はどのような仕組みで可能になるのだろう。ここでは、最初に、最も基本的な判別分析である線形判別分析(LDA: Linear Discriminant Analysis)を例に、判別分析の機構を学ぶ。LDAは、データを異なるカテゴリが明確に区分されるように新しい「視点」に再配置していく。この視点は、グループ間の違いと、グループ内の類似性を強めるように選ばれる。その結果、新しいデータポイントを正確に分類するのに役立つ明瞭な基準(閾)が提供される。次に、より柔軟な判別を可能にするサポートベクターマシーン(SVM:Support Vector Machine)の機構について学習する。LDAでは直線による分離が行われていたが、実際のデータセットは、直線で分けることができない複雑な構造を持っていたり、多くの特徴(変数)を使わなければ分けることができないような複雑な構造を持っていることも多い。SVMは、カーネルトリックという方法により、非線形な分類を可能にし、過剰適合を防ぐ仕組みも備えている。こういった、判別分析の仕組みは、言葉や数式では理解しにくいため、授業では、図を多く用いて、視覚的に判別分析の仕組みを理解する。
|
④ 判別分析を行う際には、注意すべき点がある。線形判別分析(LDA)は、各説明変数が正規分布していることや、各説明変数が等しい分散を持つこと(等分散性)などの前提条件が仮定されている。こういった全前提条件が満たされていない場合、分析結果の信頼性が低下する可能性がある。そのため、前提条件を確認し、条件が満たされていない場合には、別の判別分析手法を検討する必要がある。また、変数と変数が似ていて変数が表す情報が重なっている場合にも誤分類が生じやすく、サンプルサイズが小さい場合には、重回帰分析と同様に過学習のリスクが高まる。このような問題を回避するために、判別分析においても、モデル性能を丁寧に評価することが重要となる。第14回で学習したリサンプリング手法を使った交差検証は回帰分析だけでなく判別分析にも応用することができる。ここでは、判別分析を行う上で特に注意すべき点とその対応について学習する。
|
⑤ 本コマは、「環境統計解析学応用」の最後の回にあたる。最後に、「環境統計解析学応用」で学んだ内容の復習を兼ねて、本科目で学習したそれぞれの多変量解析手法の用途や目的をマッピングする。また、本科目で学習しなかった多変量解析手法についても簡単に紹介する。そして、今後の卒業研究や実務を想定し、どのような社会・環境課題に対して、どの多変量解析手法が有効そうかについて議論する。
|
|
キーワード
|
① 判別分析 ② 線形判別分析 ③ 分類タスク ④ サポートベクターマシーン(SVM) ⑤ カーネルトリック
|
|
コマの展開方法
|
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
|
|
小テスト
|
「小テスト」については、毎回の授業時間内に、LMS上において当該コマの小テスト(難易度表示付き)を実施します。
|
|
復習・予習課題
|
【復習】 授業中に配布したコマ用オリジナル資料(講義スライド)と、授業の後半で配布した復習プリント、授業の最後に実施した小テストの内容を読み返し、理解できなかった内容について教科書や参考資料などにより復習しておく。さらに、授業で使ったコード編集するなどして(コードで遊び)、実装に慣れることができれば望ましい。 【予習】 該当するコマシラバスのコマ主題細目の細目レベルの内容と、参考文献の範囲を確認し、事前に目を通しておく。分析手法の名前やキーワードをインターネットで検索し、学習内容に関する情報を事前に収集できればなおよい。
|