区分
(環)環境データサイエンス科目 環境データサイエンス共通科目 (生)環境データサイエンス科目
ディプロマ・ポリシーとの関係
専門性
理解力
実践力
カリキュラム・ポリシーとの関係
専門知識
教養知識
思考力
実行力
カリキュラム全体の中でのこの科目の位置づけ
多様化する環境問題や地域社会の諸問題に関心を持ち、環境・情報・社会に関連する幅広い基礎知識と専門的な理解を深めると共に、学際的な柔軟性を有し、実践的な能力を有する。グローバルな視野と研究調査力を持ち、昨今の情報社会に貢献できる力を有する。企業・地域社会などのあらゆるコミュニティに寄与する組織的な活動能力を有する。
科目の目的
デジタル化とセンシング技術の進展により、行政・企業活動・研究・日常生活のあらゆる場面でデータが継続的に生成・蓄積され、データに基づく意思決定や課題解決の重要性が高まっており、「データサイエンス」という言葉が広く用いられるようになった。しかし、統計・機械学習・AI・プログラミング・データベース・センシングとの混同や誤解も多く、データに関する権利・倫理・プライバシー・ライセンスといった新たな課題も顕在化している。データサイエンスは特定の技術そのものではなく、対象領域の知識(ドメイン知識)と結び付けて初めて力を発揮する学際的な枠組みである。すなわち、「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連のプロセスを通じて知見や価値を生み出す営みである。本科目では、データサイエンスの定義、重要性、課題、分析手法、評価方法、結果の解釈・限界などについて学習することにより、データサイエンスの概念を明確にし、適切にデータを活用するための判断力を身につけることを目的とする。これにより、卒業研究や就職・進学後においても、説明可能で再現性のあるデータ活用を実践できる人材となるための素養を涵養する。
到達目標
本科目は、岡崎キャンパス全学部・学科を対象としたデータサイエンスの導入教育であり、データサイエンスは今後分野を問わず必要となる素養である。到達目標は以下の2点とする。
1)「問いの設定」から「データの収集・整理・分析・評価・解釈」に至る、データサイエンスの基本プロセスを自分の言葉で説明できる。
2)統計・数学の基礎を踏まえ、分析結果の妥当性・限界や倫理・プライバシー等の留意点を意識しながら、自身の専門分野または関心テーマへの応用の見通しを持てる。
科目の概要
デジタル化とセンシング技術の進展により、多様な領域でデータに基づく意思決定が求められている一方、データサイエンスは統計・機械学習・AI・プログラミング等と混同されやすい。また、社会実装の進展に伴い、データの権利・倫理・プライバシー・ライセンスへの配慮など、適切なデータ利用と説明責任を伴う判断が求められている。本授業では、データサイエンスの関連領域との違いを踏まえた概念整理を行い、「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という枠組みとしてデータサイエンスの意味を明確化する。あわせて、社会実装に不可欠なデータ利用上の論点(権利・倫理・プライバシー・ライセンス)を扱い、適切なデータ利用の前提を共有する。さらに、モデリング、教師なし/教師あり学習、生成AI、テキスト・画像、地理空間、時系列などのトピックを事例とともに学習し、終盤では受講者の関心事項を題材に分析設計を整理する。これにより、説明可能性と再現性に配慮したデータ活用を実践するための基礎力を養う。なお、授業は講義を中心に、講義内デモンストレーションや投票・クイズ、ケース検討を組み合わせて進める。
科目のキーワード
➀データサイエンス(Data Science)/②ドメイン知識(Domain Knowledge)/③観察データ(Observational Data)/④モデル(Model)/⑤汎化(Generalization)/⑥過学習(Overfitting)/⑦教師あり学習(Supervised Learning)/⑧教師なし学習(Unsupervised Learning)/⑨評価指標(Evaluation Metrics)/⑩データ倫理(Data Ethics)
授業の展開方法
本科目では、全15回の授業をDIKWピラミッド(Data–Information–Knowledge–Wisdom)に沿って構成する。DIKWピラミッドとは、データが文脈化されて情報となり、情報が統合・解釈されて知識となり、さらに、目的や規範、長期的視点を含む価値判断へと昇華されることで知恵に至るとする枠組みである(Ackoff, 1989 ほか)。データサイエンスにおける「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」の実践は、このDIKWピラミッドを登る行為と捉えることができる。
「導入」(第1~3回)では、まずDIKWピラミッドを通じてデータサイエンスの全体像(到達点と各段階の役割)を共有し、データサイエンスが現代社会で期待される理由と、それと同時に生じる権利・倫理・プライバシー・ライセンス等の課題を扱う。あわせて、第3回では、ランダム化比較試験(RCT)が困難な状況で観察データに基づいて判断せざるを得ない現実を取り上げ、因果・解釈・バイアスといった論点から、観察研究の難しさと必要性を理解することで、以後の手法学習の前提となる問題意識を形成する。
「STEP1:事象をデータに」(第4~5回)では、世の中の事象をどのようにデータ化するか(センシング、調査、観測設計、非構造化データの特徴化)を扱う。さらに既存データの取得と活用として、オープンデータを含むデータ収集の考え方、探索的な把握(探索的可視化を含む)を通じて、必要なデータを準備する力を醸成する。
「STEP2:データを情報に」(第6~10回)では、数値や文字列の集合に過ぎないデータを、意味づけされた情報へ変換するための分析手法を学ぶ。第6回では、多変量解析と機械学習を「目的・評価・運用」という観点から整理し、学習・汎化・過学習といった基礎概念を共有する。続く第7~9回では、教師なし学習(クラスタリング、次元削減)と教師あり学習(回帰・分類)を中心に機械学習アルゴリズムの概要を学ぶ。そして、第10回では時空間情報を導入したときに生じる留意点(依存性、スケール、自己相関、外挿の危険など)を扱う。
「STEP3:情報を知識に」(第11~13回)では、得られた分析結果を意味のある説明へ統合し、再現可能な知見として提示するための要点を扱う。第11回では、近年急速に発展している生成AI(大規模言語モデル等)の最新動向を共有し、データサイエンスの中での位置づけと活用上の留意点を整理する。第12回では、情報を解釈可能にするために不可欠なデータビジュアライゼーションを学び、可視化の方法が理解に与える影響を知る。第13回では、結果の解釈における注意点、分析の限界(仮定・不確実性・外的妥当性等)を認識し、明示すること、結果を次の問い・次の分析へ接続して分析の循環を生み出すことの重要性を理解する。
「STEP4:知識を知恵に」(第14~15回)では、社会実装と意思決定を扱う。データやモデルの出力だけでは決められない価値判断、主観、利害調整、不確実性を含む状況を前提に、運用・更新・監視(ドリフト、性能劣化、ガバナンス、説明責任等)を通じて意思決定へ接続する実践的観点を学ぶ。最終回では、DIKWピラミッドの枠組みに立ち返り、データサイエンスの役割を総括する。
なお、授業は講義を中心としつつ、事例紹介、デモンストレーション、投票・クイズ等を組み合わせて理解を促進する。各回の冒頭では前回内容を簡潔に振り返り、各回の最後に小テストを行うことで理解度の確認と知識の定着を目指す。
全15回の内容は以下のとおりである。
[導入]
1 イントロダクション(データサイエンスの位置づけ)
2 現代社会とデータサイエンス
3 科学的方法とデータサイエンス
[STEP1:事象をデータに]
4データを生み出す(センシング、調査、非構造化データの特徴化)
5データを集める(オープンデータの活用、探索的可視化)
[STEP2:データを情報に]
6 多変量解析と機械学習
7 機械学習(1):教師なし(クラスタリング)
8 機械学習(2):教師なし(主成分分析、因子分析)
9 機械学習(3):教師あり(回帰・分類)
10 時空間データ分析
[STEP3:情報を知識に]
11 生成AIの今
12 データビジュアライゼーション
13 結果解釈と限界の明示
[STEP4:知識を知恵に]
14 社会実装と意思決定
15 総括:全体統合と復習
オフィス・アワー
【火曜日】4時限目(前期のみ)・5時限目、【木曜日】4・5時限目、【金曜日】4・5時限目
科目コード
ENS405
学年・期
2年・前期
科目名
データサイエンス概論
単位数
2
授業形態
講義
必修・選択
必修(環境データサイエンス学科)・選択(その他の学科)
学習時間
【授業】90分×15 【予習】90分以上×15 【復習】90分以上×15
前提とする科目
環境情報リテラシー
展開科目
環境データ循環学
関連資格
なし
担当教員名
蛭田有希
回
主題
コマシラバス項目
内容
教材・教具
1
イントロダクション:データサイエンスの位置づけ
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
初回にあたる第1回では、ガイダンスとして科目の目的・到達目標・授業の進め方を確認したうえで、受講開始時点で受講者が「データサイエンス」という言葉に対して抱いているイメージを把握し、共有する。続いて、データと情報の違いといった基本事項を手がかりにDIKWピラミッドの概念を理解し、DIKWピラミッドを登るプロセスに例えながら、データサイエンスの全体像(問いの設定から意思決定まで)を概観する。さらに、以後の授業で取り上げるドメインや事例の参考にするため、受講者自身の関心に基づく「問い」を授業内で収集する。第2回では現代社会におけるデータサイエンスへの注目と新たな課題を、第3回では観察研究におけるデータサイエンスの役割を扱う。そして、第4回以降で、データ生成、モデリング、評価、解釈、社会実装へとDIKWピラミッドを段階的に登っていく。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① ガイダンス ② データサイエンスに抱くイメージ ③ DIKWピラミッド ④ データサイエンスとは ⑤ 【講義内演習】問いの収集
細目レベル
①
ガイダンス
本細目では、初回ガイダンスとして、科目の目的・到達目標・授業の構成・評価方法等を確認する。本科目の目的は、「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の枠組みとしてデータサイエンスの意味を理解し、適切に活用するための基礎的な知識や考え方を身につけることである。到達目標として、データサイエンスの定義と関連領域との違い、代表的な分析手法の位置づけと限界、さらにデータ利用に伴う権利・倫理・プライバシー・ライセンス上の留意点について、自分の言葉で説明できることを目指す。授業は、導入段階で位置づけと社会的論点を整理したうえで、モデリングや教師なし/教師あり学習、生成AI、テキスト・画像分析、地理空間分析、時系列分析といった主要トピックを扱い、終盤では受講者の関心事項を題材に分析設計をまとめる構成とする。毎回の授業は講義を中心としつつ、事例紹介、分析のデモンストレーション、授業テーマに関する投票やクイズを取り入れる。また、毎回、前回の復習と当該回の小テストを行い、知識の定着と理解度の自己点検を行う。なお、評価は期末試験によって行う。
②
データサイエンスに抱くイメージ(現時点)
データサイエンスとは何だろう。本細目では、受講開始時点における「データサイエンス像」を可視化し、授業全体を通じて誤解がどのように修正されていくかを確認するための基準点とする。具体的には、Webフォームを用いて、「データサイエンス=統計」「データサイエンス=AI」「データサイエンス=プログラミング」「データサイエンス=センシング」「データサイエンス=数学」「データサイエンス=機械学習」「データサイエンス=ビッグデータ」「データサイエンス=可視化」「データサイエンス=理系」「データサイエンス=万能」といった設問に対し、4段階(そう思う/少しそう思う/あまりそう思わない/そう思わない)で回答する。結果はその場で集計し、可視化して共有する。これにより、以降の授業を進める中で、現時点でデータサイエンスに対して抱いているイメージがどのように変化していくかを自己観察できるようにする。また、最終回に同じ設問に再び回答して理解の変化を点検することで、本科目で扱った内容が自分のデータサイエンス理解にどのように反映されたかを確認する。
③
DIKWピラミッド
データと情報の違いは何だろうか。本細目では、データ(Data)・情報(Information)・知識(Knowledge)・知恵(Wisdom)を階層として捉えるDIKWピラミッドを紹介し、データ活用の出発点となる概念整理を行う。データは観測や記録として得られた事実の断片であり、それ自体では意味づけが十分でない場合が多い。これに対し、情報はデータを整理・文脈化して「何が起きているか」を説明できる状態、知識は複数の情報を関連づけて「なぜそうなるか」「どのような規則性があるか」を説明できる状態、知恵は得られた知識を踏まえて「何をすべきか」を判断し、行動や方針に結び付けられる状態と整理できる。例えば、あるアーティストを推す気持ちを考えてみる。「好きだ」「応援したい」という感情は確かに存在するが、まだデータではない。しかし、その気持ちが再生回数や登録者数といった測定可能な指標に翻訳されたとき、それはデータとなる。これらを整理し、増減傾向やランキングとして示せばそれは活用可能な情報となる。さらに、どのような投稿やファンの行動が拡散やコミュニティの活性化につながるのかを説明できればそれは知識である。そして、その知識を踏まえて、集合的な行動をどのように設計すれば健全なコミュニティ形成や持続的な活動につながるのかなどの判断ができるようになれば、それは知恵である。データサイエンスは「DIKWピラミッドを登ること」そのものであり、以降の授業で扱うデータサイエンスのさまざまな手法群は、ピラミッドを登るための道具に例えることができる。
④
データサイエンスとは
データサイエンスは新しく学際的な学問領域であるため、伝統的に確立した単一の定義が広く合意されているわけではない。例えば、Donoho(2017)はデータサイエンスを “the science of learning from data”(データから学ぶことの科学)と端的に表現している。また、Cleveland(2001)は統計学の技術領域を拡張する枠組みとしてデータサイエンスを論じている。日本語圏の定義例として、竹村ほか(2024)は、データサイエンスを「あらゆる種類のデータを処理・分析して、そこから有用な情報(価値)を引き出すための学問分野」と述べている。これらの定義から、データサイエンスは特定の技術領域そのものを指すのではないことが理解できる。統計(Statistics)は不確実性の扱いと推論の枠組みを提供し、機械学習(Machine Learning)は予測・分類・構造把握等を行う方法群を提供する。AI(Artificial Intelligence)は機械学習を含む広い概念であり、意思決定支援や自動化の技術的手段を含む。プログラミングや情報技術はデータの取得・保存・処理・運用を支える実行基盤であり、センシングはデータを生み出す技術である。これらはいずれもデータサイエンスに不可欠な要素でありながら、目的(何を判断したいか)や評価(どの基準で良いとするか)を含めて分析を設計し、結果を解釈して意思決定に接続し、限界まで含めて説明する営みそのものを置き換えるものではない。つまりデータサイエンスとは、「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の枠組み(意思決定のための科学的手続き)である。
⑤
【講義内演習】問いの収集
細目④では、「データサイエンス」という言葉の意味を大まかに理解した。本細目では、ここまでに学んだデータサイエンスの意味を踏まえ、受講者の関心領域に基づいて「分析してみたい問い」を考える。問いとは、「何が分からなくて、何を明らかにしたいか/何を判断したいか」である。収集した問いの中からいくつかを事例として選定し、授業内の事例提示やケース検討で参照するほか、第14回において、(1)問いの再定義、(2)データ選択と前処理の最小要件(倫理・ライセンスの再確認を含む)、(3)手法選択(教師あり/教師なし/地理空間/時系列等)、(4)評価と限界の整理、(5)説明の構成、という形で分析設計に落とし込む。これによって、「データサイエンス」を自分の関心領域でも活用できる身近なものとして捉える。ここでは、受講者の人数(100~200人程度)分だけある「問い」をLLMを使って整理し、共有・確認する。
キーワード
① データサイエンス(Data Science) ② データ(Data) ③ 情報(Information) ④ DIKWピラミッド(DIKW Pyramid) ⑤ 意思決定(Decision Making)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
2
現代社会とデータサイエンス
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第2回では、導入部の一環として、データサイエンスがなぜ現代社会において強く注目されているのか、その社会的背景と制度的文脈を扱う。具体的には、大規模データの生成と活用が進展する中で、行政や企業、教育、医療など多様な領域においてデータに基づく意思決定が重視されている現状を把握する。また、政府のデジタル戦略や関連法制度の整備状況を概観し、データ活用が国家レベルの政策課題に位置づけられていることを理解する。さらに、データ駆動型社会において生じる権利・倫理・プライバシー・ライセンスの問題や、説明責任と社会的信頼の重要性にも触れ、データサイエンスが技術的能力だけでなく社会的責任を伴う営みであることを認識する。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① データサイエンスが注目される背景 ② データ駆動型社会の構造 ③ データサイエンスへの期待と戦略 ④ 権利・倫理・プライバシー・ライセンス ⑤ 説明責任と社会的信頼
細目レベル
①
データサイエンスが注目される背景
なぜ今、データサイエンスがこれほどまでに注目されているのだろうか。本細目では、その技術的・社会的背景を具体的な数字とともに確認する。世界で生成されるデータ量は年々指数関数的に増加しており、IDCの推計では2025年には175ゼタバイトに達するとされる。また、スマートフォンの普及率は日本で約9割に達し、個人の行動履歴、位置情報、購買履歴などが常時記録される環境が整っている。一方で、GPUの計算性能はこの十数年で飛躍的に向上し、クラウド環境の整備によって高性能計算資源へのアクセスも容易になった。さらに、機械学習ライブラリや可視化ツールの発展により、高度な分析や見やすいグラフ作成が専門家でなくても実行可能になっている。現在、データサイエンスが注目される背景には、「データの爆発的増加」「計算能力の向上」「手法の高度化」「実装の容易化」という条件が重なり、データサイエンスの社会実装を進めるための準備が整ったという現状がある。
②
データ駆動型社会とは
本細目では、データが単なる記録ではなく、意思決定やサービス設計の前提として機能する「データ駆動型社会」の姿を整理する。都市では、人流・交通量・気象・インフラ稼働といったデータがリアルタイムに収集・分析され、信号制御の最適化や渋滞緩和、災害時の避難誘導などに反映される。医療では診療データや検査結果、さらにはゲノム情報等の統合により、個人の状態に合わせた治療(個別化医療)や早期検知が進む。教育でも学習ログの分析から、つまずきの早期発見や個別最適化された学習支援が可能になる。産業では需要予測・在庫管理・設備保全が高度化し、エネルギーや物流の無駄を減らす意思決定が実装されつつある。日常生活のレベルでも、推薦や広告配信、信用評価など、私たちの選択に影響する仕組みがデータに基づいて動いている。ここで重要なのは、データが社会を「記述する」だけでなく、制度や市場、行動のあり方を「形成する」側に回りつつある点である。データサイエンスは一部の専門家の技能にとどまらず、利便性とリスクを見極め、説明や合意の前提を理解するための市民的素養になりつつある。本細目では、スマートシティ、医療・教育データ活用、産業DXといった具体例を手がかりに、なぜ「データを活かせる人材」が求められるのか、そして本科目で学ぶ内容が社会の要請とどのように接続しているのかを考える。
③
データサイエンスへの期待と戦略
本細目では、政府や国際社会がデータサイエンスをどのように位置づけているかについて学習する。日本では、「デジタル社会形成基本法」や「デジタル田園都市国家構想」、AI戦略、Society 5.0といった政策において、データの活用が、経済成長や行政効率化の基盤に位置づけられている。また、個人情報保護法の改正やオープンデータ推進政策の整備により、データの流通と保護の両立が模索されている。海外に目を向ければ、EUのGDPRやAI Act(AI規制法案)など、データとAIの利用を巡る制度整備が進んでいる。これらは、データサイエンスが単なる技術的流行ではなく、国家戦略レベルの課題として扱われていることを示している。本細目では、こうした政策や法制度を概観し、データサイエンスが社会から強く期待されている理由を理解する。
④
権利・倫理・プライバシー・ライセンス
細目①~③では、データサイエンスの発展の背景と現状を理解した。しかし、データサイエンス活用によるデータ駆動型社会の実現は良いことばかりをもたらすのだろうか。本細目では、データ活用の拡大に伴って生じる法的・倫理的論点を具体例とともに学ぶ。個人情報の大量収集や位置情報の追跡、顔認識技術の活用などは、防犯や利便性向上に寄与する一方で、監視社会化やプライバシー侵害への懸念を高めている。また、アルゴリズムによる採用選考や与信判断において、学習データに含まれる偏りが差別を再生産した事例も報告されている。さらに、SNSデータの無断利用や研究データの再識別問題など、データの二次利用に関する問題も生じている。これに対しては、日本の個人情報保護法やEUのGDPRなど、データ保護に関する法整備が進んでいる。また、オープンデータの利用にあたっては、クリエイティブ・コモンズ(CC BY、CC BY-SA、CC BY-NCなど)のライセンス条件を理解することの重要性も増している。CCライセンスは「出典表示」「改変の可否」「営利利用の可否」などを定めており、これを誤解すると法的トラブルにつながりかねない。加えて、政府統計の利用条件やデータ提供機関ごとの利用規約の違いにも触れる。利便性と権利保護の両立をどのように図るかが、データサイエンスにおける重要な判断課題である。ここでは、データサイエンスは「使ってよいデータを正しく扱う」という責任を伴う営みであることを理解する。
⑤
説明責任と社会的信頼
高度な分析手法や可視化ツールの普及により、専門的な知識がなくても見栄えの良いグラフや分析結果を提示できる時代になった。しかし、その前提条件や限界を十分に理解しないまま発信された結果は、誤解や社会的混乱を引き起こす可能性がある。統計の誤用や恣意的なグラフ設計が政策判断を誤らせた事例、アルゴリズムによる不透明な評価が社会的反発を招いた事例などを取り上げ、なぜ説明可能性が重要なのかを検討する。本細目では、モデルの仮定や不確実性を明示し、判断の根拠を説明できることが社会的信頼の前提条件であることを、事例を交えて理解する。データサイエンスは正確さだけでなく、説明と合意のプロセスを通じて初めて社会に受け入れられることを確認する。
キーワード
① データ駆動型社会(Data-driven Society) ② デジタル戦略 ③ 個人情報保護 ④ 著作権(Copyright) ⑤ 説明可能性(Explainability)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
3
科学的方法とデータサイエンス
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第3回では、導入の最終段階として、データサイエンスにおける「サイエンス」の意味を改めて問い直す。科学的方法とは何か、因果関係をどのように確かめるのかを整理し、実験研究と観察研究の違いを理解する。そのうえで、ランダム化比較試験(RCT)が因果推論の基準とされる理由を学ぶと同時に、現実の社会課題の多くが実験による検証を行えないという制約を確認する。さらに、観察研究が不可欠となる背景と、その可能性および限界を検討し、相関と因果の区別やバイアスへの注意といった視点を身につける。この回を通じて、データサイエンスが科学的方法の枠組みの中でどのような役割を果たしているのかを理解し、第6回以降で扱う分析手法の前提となる思考態度を整える。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 科学の方法(実験研究と観察研究) ② 実験研究_ランダム化比較試験(RCT) ③ 観察研究_RCTの限界と観察研究の重要性 ④ 観察研究の注意点(相関・因果・バイアス) ⑤ データサイエンスの貢献と可能性
細目レベル
①
科学の方法(実験研究と観察研究)
データサイエンスには「サイエンス」という言葉が含まれている。では、科学とは何だろうか。何をもって「分かった」と言えるのだろうか。本細目では、科学的知識がどのように構築されるのか、その基本構造を確認する。科学は、観察や測定にもとづいて問いを立て、仮説やモデルをつくり、データで検証し、うまく説明できない点を更新しながら知見を積み上げる営みである。ここで重要なのは、主張が「どのデータで確かめられ、どの条件では崩れるのか」を明確にできること、そして結果の不確実性や限界を含めて説明できることである。本授業では、実験研究と観察研究という二つの方法に注目する。実験研究では研究者が条件を統制し、変数を操作することで因果関係を検証する。一方、観察研究では、既に存在する社会現象や記録データをもとに関係性を分析する。例えば、都市の犯罪率の変化や教育政策の効果、景気と失業率の関係などは、実験的に操作することが難しい。データサイエンスは、こうした現実のデータを扱い、問いを言葉にし、データで確かめ、説明と意思決定につなげるための道具として、現代の科学的方法を支える重要な手法となっている。
②
実験研究_ランダム化比較試験(RCT)
多様な社会課題、環境課題に向き合うとき、私たちが本当に知りたいのは「何をすれば結果が変わるのか」である。原因(介入)と結果の関係を因果関係と呼ぶ。ランダム化比較試験(Randomized Controlled Trial)は、因果推論を示すための代表的な「黄金基準(gold standard)」として広く用いられている。RCTでは、無作為に対象を割り付け、介入群と対照群を比較することで、交絡要因の影響を最小化する。ランダム化の強みは、研究者が気づいていない要因も含めて、平均的には両群を同じ条件に近づけられる点にある。医薬品開発を例にすると、薬の効果があるかどうかを「投与したから良くなった」と言いたいだけでは不十分で、自然回復や重症度の違い、医療アクセスの差など、別の説明をできる限り排除する必要がある。RCTはそのための強力な方法であり、ワクチンや治療薬の有効性・安全性の評価で中核を担ってきた。本細目では、RCTがなぜ強い結論に近づけるのかを理解すると同時に、RCTで分かること(平均的な効果)と、RCTだけでは分かりにくいこと(現実への一般化、長期影響、実装上の制約)も区別して捉える。
③
観察研究_RCTの限界と観察研究の重要性
細目②では、因果関係を知るうえでRCTが強力な設計であることを学んだ。しかし、すべての問いにRCTを適用することはできるだろうか。例えば、教育制度改革を「学生をランダムに割り付けて」試すことは現実的だろうか。妊婦への投薬の有効性を確かめることはできるだろうか。税制変更を一部の国民にだけランダムに適用することは許されるだろうか。ここには、倫理・制度・合意形成の壁があり、実験研究ができない問いが数多く存在する。さらに、実験には高額な費用と長い時間がかかり、条件の統制が難しい領域もある。そのため現実の社会では、観察研究も重要な役割を担っている。つまり、普通に存在する事象や普通に生活している人々から得られたデータを手がかりに、何が起きているのか、何が起きうるのかを明らかにするのである。例えば、喫煙と肺がんの関係は無作為実験で確かめられたわけではないが、長期的な追跡、複数集団での再現、量と反応の関係、医学的機序の理解など、さまざまな証拠の積み上げによって強い因果的関連が支持されてきた。近年は自然実験、差の差分析、回帰不連続デザイン、傾向スコアなど、観察データから介入効果に迫るための設計や手法も発展している。本細目では、観察研究が不可欠である理由について理解する。
④
観察研究の注意点(相関・因果・バイアス)
細目➀では実験研究と観察研究の違いを、細目②ではRCTが因果推論で強力な設計であることを、細目③では現実にはRCTができない問いが多く観察研究が不可欠であることを学んだ。しかし、観察研究には落とし穴もある。もっとも典型的なのが、相関関係と因果関係の混同である。観察データで見つかる「一緒に動く」は、原因と結果を意味しない。背後に第三の要因(交絡)があることも、結果が原因を変えてしまう(逆因果)こともある。さらに、そもそもデータに「載っている人・載っていない人」が偏っている(選択バイアス)可能性も高い。例えば、SNSの利用時間と幸福度の関係を考えると、利用時間が幸福度を下げるのか、幸福度が低いから利用時間が増えるのか、あるいは生活環境や人間関係といった別の要因が両方に影響しているのかは、データの取り方と設計次第で結論が変わる。人事採用のように社会的影響が大きい領域では、過去の判断がデータとして蓄積され、その偏りがモデルに学習されることで不公平が再生産されることもある。本細目では、どこまでが「言える範囲」なのかを常に意識し、仮定・不確実性・限界を含めて結論を述べることの重要性を学ぶ。あわせて、問いの立て方(何の効果を知りたいのか、何を予測したいのか)と評価指標の選び方が、結論の意味を決めてしまうことも確認する。
⑤
データサイエンスの貢献と可能性
細目④では、観察研究における落とし穴と慎重さを学習した。それでは、限界があるにもかかわらず、なぜデータサイエンスがこれほどまでに注目されるのだろうか。理由の一つは、現実の観察データが大規模で複雑になり、従来の単純な仮定だけでは捉えにくい構造が増えたことにある。変数が非常に多い高次元データ、非線形な関係、相互作用が複雑に絡む状況では、古典的なモデルだけでは表現が難しかったり、推定が不安定になったりする。ここで、正則化やアンサンブル、表現学習などの機械学習アルゴリズムは、予測やパターン抽出、異質な集団の把握、異常の検知といった面で強力な道具になる。もちろん、アルゴリズムが因果を自動的に保証するわけではない。むしろ高い予測精度があっても、因果の解釈とは別問題である。それでも、観察データから見えにくかった構造を可視化し、仮説を生み、次の調査や実験の設計につなげ、意思決定の材料を整えるという点で、データサイエンスは観察研究の可能性を大きく拡張している。本細目では、科学の枠組みの中でデータサイエンスが果たす役割を整理し、「できること」と「できないこと」を同時に理解する。
キーワード
① 実験研究(Experimental Study) ② 観察研究(Observational Study) ③ ランダム化比較試験(Randomized Controlled Trial, RCT) ④ 相関関係(Correlation) ⑤ 因果関係(Causation)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
4
データを生み出す(センシング、調査、非構造化データの特徴化)
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第4回では、「STEP1:事象をデータに」の出発点として、そもそもデータはどのように生み出されるのかを扱う。センシング技術や調査の方法を通じて、世の中の事象がどのように数値やテキストとして記録されるのかを確認し、調査設計やサンプリングの違いがデータの性質を大きく左右することを理解する。また、テキストや画像、音声などの非構造データがどのように分析可能な形式へ変換されるのかを概観し、データは最初から整った形で存在するのではなく、設計と前処理の結果として成立するものであることを確認する。さらに、測定誤差や欠測、代表性の偏り、代替指標の問題など、データ生成段階に内在する限界にも目を向け、後続の分析や解釈の前提となるデータの特質を意識する。
【コマ主題細目①~④】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① センシング:測ってデータを生む ② 調査:調べてデータを生む ③ 非構造化データの特徴化 ④ データ生成の限界と代替指標
細目レベル
①
センシング:測ってデータを生む
私たちが日々目にするデータは、どのようにしてつくられるのだろうか。気温、湿度など日々刻々と変化する気象、土地利用など空から捉える事象、私たちの行動や動き、私たちの表情など、世の中にある様々な事象の殆どは、最初から数値やテキストのデータになっているわけではない。本細目では、データ生成の出発点としてのセンシングを考える。衛星からの画像、スマートフォンの位置情報、ウェアラブル端末の心拍データ、店舗の購買履歴、交通量センサーのカウントなど、現代社会は常時センシングの網の中にある。しかし、何を測るか、どの単位で測るか、どの頻度で記録するかによって、同じ現象でもまったく異なるデータが生まれる。ここでは、「事象」を「データ」に変換するための様々なセンシング技術を知り、センシングは世界をそのまま写し取るのではなく、測定誤差や欠測、代理指標の選択を伴いながら世界をある形式に切り取る行為であることを理解する。
②
調査:調べてデータを生む
細目①では、センシングによってデータを生み出す方法を学習した。しかし、例えば、価値観や満足度、動機、不安といった「人の内側」にある事象などは、センサーだけでは直接測りにくい。本細目では、アンケート調査やインタビュー、フィールド観察などの方法を通じて、「事象」から「データ」を生み出す方法について学習する。どのような問いを立てるかによって、集めるべきデータは変わる。例えば、「満足度」を尋ねる質問一つでも、「とても満足〜まったく不満」の5段階尺度にするのか、0〜10点で評価させるのか、あるいは「どの点が満足/不満だったか」と自由記述で尋ねるのかによって、得られる情報の粒度も解釈も変わる。さらに、質問文の表現(肯定/否定)、選択肢の並び、前後に置く質問の内容によって回答が揺れることもある(順序効果や文脈効果)。つまり、調査データは「聞けば自然に出てくる事実」ではなく、問いの立て方と設計によって形づくられる。また、サンプルの抽出方法を誤れば、特定の集団に偏ったデータになる。例えば、SNS上のアンケートは回答者が若年層や特定の関心層に偏りやすく、街頭調査は時間帯や場所によって母集団が変わる。回答しない人(非回答)や途中離脱が系統的に起きると、結果はさらに偏る。ビッグデータが収集可能な時代にあっても、「誰から、どの条件で、どのように集めたデータか」という調査設計の不備は分析結果に大きく影響する。ここでは、データは客観的な事実の集合ではなく、問いと設計の産物であることを確認する。
③
非構造化データの特徴化
細目①ではセンシング、細目②では人が行う調査について学習した。ここで得られたデータは、テキスト、画像、音声、動画など様々な形で取得されたものであり、そのままでは「表形式」となっていないことが多い。データサイエンスの手法を適用するためには、多くの場合、表形式に整ったデータが求められる。このように、あらかじめ定義されたデータモデルや固定的なスキーマ(列・型・関係性など)に従って整理されていないデータは「非構造化データ」と呼ばれる。本細目では、非構造化データをどのように分析可能な形に変換するのかを整理する。例えば、SNS投稿を単語頻度や埋め込み表現に変換する方法、画像を特徴量ベクトルに変換する方法などがある。近年の大規模言語モデルや画像認識技術は、こうした変換を自動化し、高度化している。しかし、どの特徴量を抽出するかという選択は分析者の判断に依存する。非構造化データは豊富な情報を含む一方で、解釈の幅も大きい。変換の過程で何が失われ、何が強調されるのかを理解する必要がある。
④
データ生成の限界と代替指標
最後に、データ生成の段階で生じる限界と、その扱い方を考える。データは社会の一部を切り取った結果であり、「測れていないもの」が最初から混ざっている。例えば、スマートフォンの位置情報データは、高齢者や子ども、端末を持たない人々の行動を十分に代表しているだろうか。オンライン購買履歴は、現金取引や家族による代理購入まで含められているだろうか。さらには、センサーの誤差やログの欠損、アプリやプラットフォームごとの記録仕様の違い(取得頻度、測位精度、保存期間など)も、分析結果に直接影響する。近年はプライバシー保護の観点から、位置情報の精度制限や追跡防止の仕組みが強化され、過去と同じ粒度でデータを集められない場面も増えている。このように、データを生み出す行為は「世界をそのまま写す」ことではなく、制約や価値判断のもとで観測可能な部分を記録する営みだと理解する必要がある。そのうえで、得られたデータが本来見たい事象のどの側面を反映した“代替指標(プロキシ)”なのかを点検し、必要に応じて別の指標や補助データを組み合わせて限界を補うことが重要である。
キーワード
① センシング(Sensing) ② 調査設計(Research Design) ③ 非構造化データ(Unstructured Data) ④ サンプリング(Sampling) ⑤ 代替指標(Proxy Variable)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
5
データを集める(オープンデータの活用と探索的可視化)
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第5回では、「STEP1:事象をデータに」の後半として、既に生成されたデータをどのように取得し、点検し、管理するかを扱う。第4回で学んだように、データは設計の産物であるが、本回ではさらに、社会に公開されているオープンデータの意義と制度的背景を理解し、実際にデータを「探し、取得し、扱う」実務的視点を身につける。あわせて、APIによる取得の仕組み、探索的可視化による初期点検、再現性を支えるデータ管理の基本を学び、分析に入る前段階の重要性を確認する。本回は、第6回以降の分析手法に欠かせないデータについての理解を深める回である。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① オープンデータとは ② オープンデータ活用の注意点 ③ APIによるデータ取得 ④ 探索的可視化:まず眺めてみる ⑤ 再現性を支えるデータ管理
細目レベル
①
オープンデータとは
政府統計ポータル(e-Stat)で公開されている人口・経済統計、気象庁の観測データ、自治体の防災情報、国土交通省が整備するPLATEAUの3D都市モデルなど、様々なデータがオープンデータとして公開されている。オープンデータとは、誰もがアクセスでき、機械的に扱える形式で提供され、二次利用の条件(ライセンス)が明示されたデータを指す。まさに皆に対して開かれたデータである。日本では「デジタル社会形成基本法」や「官民データ活用推進基本法」などに基づき、行政データの利活用が国家戦略に位置づけられ積極的にオープンデータの提供が進められている。では、なぜ国はわざわざ自ら収集したデータを公開するのだろうか。その目的は、行政の透明性向上、説明責任の確保、民間によるサービス開発やイノベーション促進である。実際に、公開された交通データを活用した経路検索アプリ、災害ハザードマップの可視化サービス、統計データを用いた地域分析など、行政が単独では生み出しにくい価値が民間や市民の手で生み出されている。逆に言えば、これまで行政データは非公開であったり、公開されていてもPDF等の形式で機械的に扱いにくかったり、利用条件が不明確で二次利用しにくかったりして、検証や再利用が進みにくい状況があった。その結果、同じ整理作業が繰り返されたり、地域課題の把握や政策の検証に時間がかかったりするなど、社会全体としての損失が生じていた。こうした状況を改善するため、各府省庁や自治体ではデータ公開の担当が置かれ、共通フォーマットの整備やAPIによる提供も進められている。データのオープン化は、特定の目的に閉じた施策ではなく、多様な主体がさまざまな発想で利活用できるようにするための基盤構築でもある。国に限らず、組織やコミュニティが効果的に機能し、創造性を維持するには、共有可能なデータと再利用可能な形式を整えるという“オープンデータの発想”が欠かせない。
②
オープンデータ活用の注意点(メタデータ、出典)
一方で、「公開されている」という事実だけで、すぐに分析可能とは限らない。データの更新頻度、定義の違い、粒度の不一致、収集方法の差、欠測の扱いなど、利用者側が確認すべき点は多い。本細目では、実際にいくつかの公開サイトを閲覧しながら、「どのようなデータが社会に開かれているのか」「それはどのような問いに使えそうか」「どのような制約があるのか」を具体的に検討する。まず確認すべきはメタデータである。誰が、いつ、どのような方法で収集したのか、更新頻度はどの程度か、定義は何かといった情報を確認せずに分析を始めることは危険である。また、出典の明記やライセンス条件の確認も不可欠である。例えば、データセットごとに出典表示が求められる場合があり、条件を誤解すると、研究倫理や法的問題につながりかねない。オープンデータは単なる無料の資料ではなく、社会全体で価値を創出するための基盤であるからこそ、「見つける」だけでなく「責任をもって使う」ための基本姿勢を身につけることが大切である。
③
APIによるデータ取得
オープンデータは多様な効用を生み出すが、必要なデータを人手で探し、ダウンロードし、更新のたびに差し替える作業には労力がかかる。近年では、データはファイルとして受け取るだけでなく、プログラムを通じて取得することが一般的になってきている。本細目では、API(Application Programming Interface)を用いたデータ取得の考え方を紹介する。APIを使えば、最新データを自動的に取得し続けることも可能になり、データ収集が「一度きりの作業」から「継続的な更新」へと変わる。一方で、取得制限(レートリミット)や利用規約、取得範囲の制約、形式の違い、取得時点の記録(いつのデータか)など、注意すべき点も多い。ここでは具体例を示しながら、「データを集める」という行為が技術的選択と制度的制約の両方に依存していることを理解する。
④
探索的可視化:まず眺めてみる
データを手に入れたら、すぐに高度なモデルを適用すべきだろうか。多くの場合、数値や文字列の羅列を眺めるだけでは、分布の偏り、欠測、外れ値、入力ミスといった性質を直感的に把握しにくい。本細目では、分析の前段階で行う「探索的可視化」の重要性を理解する。可視化というと、論文や報告書で成果を示すための図を思い浮かべがちだが、データの品質確認と仮説生成のためには分析の前に行う可視化が重要である。データは数字やテキストの羅列でありそれを眺めていてもその品質や傾向を知ることはできない。ヒストグラムや散布図、時系列プロットなどを用いることで、データの分布、欠測、外れ値の存在などを視覚的に把握することができる。例えば、人口データの年齢分布を描いてみると、集計単位や定義の違いによって想定外の偏りが見つかるかもしれない。散布図からは、単純な直線関係ではなく、非線形な関係や複数のまとまり(クラスタ構造)が見えてくることもある。探索的可視化は単なる準備作業ではなく、問いの再定義や仮説の発見につながる重要な工程である。
⑤
再現性を支えるデータ管理
データを分析する際には、同じ分析をもう一度実行したいことや、条件を少しだけ変えて再実行したい場面が多い。そのため、あとから同じ結果を再現できるように、データの管理方法を工夫することが重要である。本細目では、再現性(Reproducibility)を支えるデータ管理の基本を扱う。ファイル名の付け方、フォルダ構造、バージョン管理、処理手順の記録など、一見地味な作業が科学的信頼性を支えている。さらに、個人情報を含むデータでは、保管方法やアクセス権限の管理も不可欠となる。データは分析が終わったら不要になるのではなく、検証や再利用のために適切に保存されるべきものである。本細目では、データサイエンスが「分析の技術」だけでなく、「記録と管理の責任」を含む営みであることを理解する。
キーワード
① オープンデータ(Open Data) ② メタデータ(Metadata) ③ API(Application Programming Interface) ④ 探索的データ解析(Exploratory Data Analysis, EDA) ⑤ 再現性(Reproducibility)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
6
多変量解析と機械学習
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第6回では、「STEP2:データを情報に」の初回として、多変量解析と機械学習を体系的に整理する。第4回・第5回で扱ったデータ生成と取得を前提に、本回では複数の変数を同時に扱う必要性を確認し、変数の種類や表現方法を整理する。そのうえで、多変量解析と機械学習アルゴリズムの関係を「タスク」という観点から再構成し、私たちが分析で何をしたいのかを明確にする。最後に、教師あり学習と教師なし学習という基本的な分類を導入し、第7回以降で扱う具体的手法(クラスタリング、次元削減、回帰、分類)の位置づけを示す。本回は、個別アルゴリズムの前に全体の見取り図を描く回として位置づけられる。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 多変量を同時に扱う必要性 ② 変数(特徴量)の種類と表現 ③ 多変量解析と機械学習アルゴリズムの関係 ④ タスク:私たちが分析でやりたいこと ⑤ 教師あり学習と教師なし学習
細目レベル
①
多変量を同時に扱う必要性
ある都市の犯罪発生率が上がる要因を考えてみよう。例えば、人口密度、失業率、年齢構成、照明環境、警察配置、季節などが挙げられ、これらの要因が複雑に絡み合って犯罪率が決まると考えられる。同様に、商品の売上高も、価格、広告、競合状況、在庫、天候、景気指数など複数の要因が同時に影響しうる。データ分析では、こうした事象や要因を表す量・属性を変数(Variable)と呼ぶ。関心のある変数(y)を一つ定め、その値に関係しうる要因を想像してみると、説明に必要な変数は通常一つでは足りず、複数の変数を同時に扱う必要があることが分かる。さらに、要因どうしの関係や組合せ(交互作用)によって、同じ要因でも効果の現れ方が変わる場合がある。多変量解析(multivariate analysis)とは、このように複数の変数を同時に扱い、それらの相互関係や構造を分析する統計手法の総称である。本細目では、実際の事例やデータを見ながら、なぜ複数の変数を同時に扱う必要があるのかを理解する。あわせて、変数の数を次元(dimension)として捉える考え方にも触れる。
②
変数(特徴量)の種類と表現
変数の呼び名は多数あり、機械学習では、データを構成する変数は特徴量(feature)と呼ばれることが多い。また、変数にはいくつかの種類があり、その種類によって分析上の取り扱いが異なる。本細目では、変数を定量変数(連続変数・離散変数)と定性変数(名義変数・順序変数)に分類し、それぞれの性質と統計的な扱い方を学ぶ。あわせて、名義変数の特殊な形としての二値変数についても学び、二値変数にすることで扱いが単純になる一方で情報を落とす場合があることも確認する。さらに、スケーリング(標準化)、エンコーディング(ワンホット、ダミー)、対数変換などの変数変換にも触れる。どの変数を選択するか、またどのように表現するかはモデルの性能を大きく左右する。例えば、テキストデータでは出現回数(Bag-of-Words)を使うか、単語頻度(TF-IDF)を使うか、埋め込み表現によって数値化するかで、モデルの挙動は大きく変わる。医療データでも、連続的な検査値を二値化して扱うか、連続値のまま扱うかによって、解釈性と予測精度のトレードオフが生じる。本細目では、「データは与えられるものではなく、設計されるもの」という第4回の視点を踏まえ、特徴量設計が多変量解析の要であることをおさえる。
③
タスク:私たちが分析でやりたいこと
本細目では、その分析で「何をしたいのか」を示すタスク(task)という概念を理解する。私たちは最終的に知恵(意思決定)を得たいが、そのためにはまず、意思決定に資する知識の拠り所となる情報を得る必要がある。では、その情報を得るにはデータを使ってどのような“しごと”を行えばよいのだろうか。この「データから情報を引き出すための具体的な作業単位」が、データサイエンスにおけるタスクである。代表的なタスクには、回帰(連続値の予測)、分類(カテゴリの予測)、クラスタリング(グループ化・構造把握)、次元削減(重要な要因の理解・可視化)、異常検知(通常と異なる振る舞いの検出)などがある。例えば、店舗の売上を価格・広告・天候などから予測するのは回帰であり、メールが「スパムか否か」を判定するのは分類である。購買履歴から似た嗜好の顧客群を見つけるのはクラスタリングであり、多数のアンケート項目を少数の潜在的な軸に要約して理解するのは次元削減の典型例である。課題をタスクに言い換えると、「何を入力(特徴量)として、何を出力(目的変数)として、どの評価で良し悪しを判断するか」が明確になり、分析設計が具体化する。タスクを実行するためのアルゴリズムは多数存在するが、先にタスクを定めておけば、複数の候補を比較し、データや目的に適した方法を選択できる。本細目では、問いをタスクに置き換え、タスクに必要なデータが揃ってはじめて分析が出発することを理解する。
④
多変量解析と機械学習アルゴリズムの関係
多変量解析と機械学習は別物なのだろうか。本細目では、この二つを対立概念としてではなく、「多変量の関係を扱うための方法群」として整理する。伝統的には、回帰分析・主成分分析・判別分析などを多変量解析、決定木・サポートベクターマシン・ニューラルネットワークなどを機械学習と呼ぶことが多い。しかし、細目④で扱う「タスク」の考え方を用いれば、私たちがやりたいこと(予測する、分類する、構造を見つける、要約する等)が先にあり、その実現手段として古典的手法から新しいアルゴリズムまで多様な選択肢が存在すると捉えられる。例えば、回帰というタスクに対しては、線形回帰から正則化回帰、決定木、勾配ブースティング、ニューラルネットワークまで、目的やデータに応じて使い分けが可能である。一般に、多変量解析は「どのような仮定の下で、どの程度確からしい結論が言えるか」という推論や解釈に重きを置く傾向がある。一方で機械学習は、「未知データに対してどれだけ当たるか」という予測性能や計算上の実装可能性を重視する傾向がある。しかし、この違いは絶対的な境界ではなく、重心の置き方の違いに近い。実際、最小二乗法による線形回帰は、多変量解析の基本手法であると同時に、機械学習では最も基本的な教師あり学習アルゴリズムでもある。逆に、近年の機械学習でも、モデルの解釈性や不確実性、因果的な読み取りを重視する研究が進んでいる。本細目では、多変量解析と機械学習を「どちらが優れているか」で分けるのではなく、一体的に理解する。
⑤
教師なし学習と教師あり学習
細目④で学習したタスクは、教師あり学習(supervised learning)と教師なし学習(unsupervised learning)の大きく二つの枠組みで整理できる。教師あり学習は、入力データ(特徴量)と正解ラベル(目的変数)の組を用いてモデルを学習し、未知データに対する予測や分類を行う方法である。学習の段階で「正解」が与えられているため、予測の当たり外れ(誤差)を指標として性能を評価しやすい。例えば、顧客属性や購買履歴から「離脱する/しない」を予測する、過去の取引情報から「不正取引かどうか」を判定するなどは教師あり学習である。一方、教師なし学習は、正解ラベルを持たないデータから、データの構造やまとまり、潜在的な軸を見いだす方法である。例えば、顧客の購買パターンから自然なグループ(セグメント)を発見する、アンケート項目の背後にある共通因子を抽出する、多数の変数を少数の要約指標に圧縮して可視化する、といった場面で用いられる。教師なし学習では「正解」がないため、結果の評価は一意に決まりにくく、目的(理解したいのか、圧縮したいのか、異常を見つけたいのか)に応じた評価方法が必要となる。第7回では教師なし学習であるクラスタリング(グループ化)を、第8回では同じく教師なし学習として次元削減を扱い、主成分分析と因子分析を取り上げる。第9回では教師あり学習として回帰と分類を学ぶ。本細目ではその前提として、教師あり/教師なしの違いを「ラベルの有無」だけでなく、「目的(予測か理解か)」「評価のしやすさ」「結果の解釈の仕方」という観点から整理・理解する。
キーワード
① 多変量解析(Multivariate Analysis) ② 特徴量(Feature)/変数(Variable) ③ タスク(Task) ④ 教師あり学習(Supervised Learning) ⑤ 教師なし学習(Unsupervised Learning)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
7
機械学習(1):教師なし(クラスタリング)
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第7回では、STEP2「データを情報に」の中でも、正解ラベルのないデータから内部構造を見つける教師なし学習のひとつであるクラスタリングを扱う。クラスタリングは、予測よりも先に「データの中にどのような集まりや違いがあるのか」を把握するための方法であり、顧客や地域、行動パターンなどを類型化する場面などで状況理解に役立つ。あわせて、距離・次元・前処理の選択が結果を大きく左右すること、得られたクラスタが「真の分類」ではなく分析者の設計に依存することを確認し、次回以降の次元削減(第8回)や教師あり学習(第9回)に進むための基礎を固める。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① クラスタリングとは ② 似ている・似ていないとは何か(距離と次元) ③ 非階層的クラスタリング ④ 階層的クラスタリング ⑤ クラスタリングの活用事例
細目レベル
①
クラスタリングとは
クラスタリング(clustering)とは、データの中から「似ているもの同士のまとまり(クラスタ)」を見つけ、グループ化する方法である。ぶどうの房が、近いもの同士自然に集まり、いくつかの集まりをつくるのをイメージすると分かりやすい。データサイエンスでは、特徴量値を手がかりに、各サンプル(観測)同士の似ている度合いを測り、似た者同士を同じグループにまとめる。例えば、購買履歴から顧客をタイプ別に分ける、統計指標から都市を特徴別に分類する、学習ログから学習傾向の近い学生をグループ化する、といった例が挙げられる。本細目では、クラスタリングが「正解ラベルのないデータから、内部構造(自然なまとまり)を探索する」教師なし学習の代表的手法の一つであることを理解する。
②
似ている・似ていないとは何か:距離と次元
細目①では、クラスタリングは「似た者同士をまとめる」方法だと学習した。では、その「似ている」とは何を意味するのだろうか。人間は顔つきや雰囲気、振る舞いなどから直感的に似ている・似ていないを判断できるが、アルゴリズムは直感をもたない。代わりに、データとして与えられた特徴量にもとづいて「どれくらい近いか」を計算し、その近さを似ている度合いとして扱う。ここで重要なのが、距離(distance)と次元(dimension)である。アルゴリズムは、各サンプルを「特徴量の値の組」として空間上の点に対応させ、点どうしの距離を計算する。特徴量が1つなら数直線上の距離、2つなら平面上の距離、3つなら3次元空間上の距離として理解できる。さらに特徴量が4つ、5つと増えれば、私たち人間にはイメージしにくいが、アルゴリズムは同じ考え方のまま高次元空間で距離を計算できる。例えば、国語・数学・理科・社会・英語の5科目得点で生徒をグループ化する場合、アルゴリズムは5次元空間における点同士の「近さ」を手がかりにグループを見つける。距離は、直線距離(ユークリッド距離)だけでなく、差の総和で測るマンハッタン距離、角度の近さで測るコサイン類似度など、目的やデータの性質に応じて使い分けられる。また、クラスタとクラスタの距離(結合方法)の測り方にも種類があり、その選択によって得られるクラスタが変わり得る。本細目では、クラスタリングの背後にある「似ている・似ていない」を、距離と次元という観点から直感的に把握し、具体的なクラスタリング手法(k-meansや階層的クラスタリング)を理解するための準備を整える。
③
非階層的クラスタリング
非階層的クラスタリング(non-hierarchical clustering)とは、(多くの場合)あらかじめ指定したクラスタ数にもとづき、データを直接いくつかのクラスタに分割する手法群のことで、階層構造(ツリー構造)を作らないクラスタリングである。本細目では、デモを示しながら、代表的な非階層的クラスタリング手法であり多様な分野で応用されているk-meansの仕組みを理解する。k-meansとは、データをあらかじめ指定した k 個のクラスタに分割し、各クラスタ内の分散(重心からの二乗距離の総和)が最小になるように反復的に最適化する非階層的クラスタリング手法である。ここでは、k-meansの初期値依存性、クラスタ数の選択(エルボー法など)の考え方にも少し触れる。また、密度に基づくクラスタリング(DBSCANなど)では、形状に制約のないクラスタが検出できることも紹介する。クラスタリングのどの手法も万能ではなく、データの性質に応じて適切な方法を選ぶ必要があることを理解する。
④
階層的クラスタリング
階層的クラスタリング(Hierarchical Clustering)とは、データ間の距離にもとづいてクラスタを段階的に統合または分割し、データの階層構造を表現するクラスタリング手法である。階層的クラスタリングでは階層構造をツリー状のデンドログラムとして可視化でき、デンドログラムのどの高さでツリーを切るかによってクラスタ数を決定できる。階層的クラスタリングには、大きく分けて凝集型(agglomerative)と分割型(divisive)の2つのアプローチがある。凝集型は最も一般的な方法で、はじめに各データ点をそれぞれ1つのクラスタとみなし、最も近いクラスタ同士を順に統合していく操作を繰り返し、最終的に全体が1つのクラスタになるまで続ける。一方、分割型はこれとは逆に、全データを含む1つの大きなクラスタから出発し、段階的にクラスタを分割していく。階層的クラスタリングの長所は、クラスタ数を事前に指定せずに分析できること、階層構造を可視化できること、小規模データに適していることである。一方で、計算量が比較的大きいこと、一度統合したクラスタを途中で元に戻せないこと、大規模データには不向きであることが短所として挙げられる。ここでは、階層的クラスタリングの長所や短所を理解し、活用方法をイメージできるようにする。
⑤
クラスタリングの活用事例
本細目では、クラスタリングがどのように活用されているかの具体例を紹介する。マーケティングにおける顧客セグメンテーション、医療データにおける疾患パターンの発見、都市データの類型化、SNS投稿のトピック分類など、多様な応用があるが、本科目の初回で収集した受講者の「関心のある問い」に近いトピックをできるだけ紹介する。本細目でも、クラスタは「自然に存在する真の分類」ではなく、分析者の選択(距離・変数・前処理)に依存することを再確認する。活用事例を通して、クラスタリングが構造発見の強力な道具である一方で、解釈には慎重さが必要であることを理解する。
キーワード
① 距離(Distance) ② 次元(Dimension) ③ 非階層的クラスタリング(Non-Hierarchical Clustering) ④ 階層的クラスタリング(Hierarchical Clustering) ⑤ k-means法(k-means Clustering)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
8
機械学習(2):教師なし(主成分分析、因子分析)
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第8回では、第7回のクラスタリングに続き、教師なし学習のもう一つの代表的手法である次元削減を扱う。第7回が「サンプル(観測)のまとまり」を明らかにする方法であったのに対し、本回は「変数(特徴量)のまとまり」や「背後にある構造」に焦点を当てる点に特徴がある。多変量データは変数が増えるほど複雑になり、そのままでは理解や可視化が困難になる。本回では、主成分分析と因子分析を通して、多数の変数を少数の軸に整理する方法と、その際に生じる情報損失や解釈上の注意点を学ぶ。これにより「データを情報に変換する」力を一段と深化させる。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 次元削減とは ② 成分分析(PCA)とは ③ 主成分分析(PCA)の実践 ④ 因子分析とは ⑤ 因子分析の実践
細目レベル
①
次元削減とは
多変量解析では、変数(特徴量)の数が多いほど事象を詳しく説明できる一方で、人が一度に理解できる項目数には限りがある。例えばアンケートが30項目あるとき、どの項目が似た意味を持ち、どこが本質的な違いなのかを、表を眺めるだけで把握できるだろうか。本細目では次元削減(dimensionality reduction)の概要を学習する。次元削減とは、多くの変数を少数の「軸」に要約し、可視化や理解を可能にする考え方である。ここで重要なのは、変数を減らすほど物事は理解しやすくなるが、その代償として切り捨てられる情報(情報損失)が生じる点である。端的には2次元に落とせば散布図として「見える」ようになるが、見えなくなることも必ず生じる。次元削減は主に2つに分けられる。1つは、元の変数の分散(ばらつき)をできるだけ保ったまま新しい軸を作る主成分分析(PCA: Principal Component Analysis)である。もう1つは、複数の観測変数の背後にある少数の共通の要因(因子)を仮定し、その因子で観測変数を説明しようとする因子分析(Factor Analysis)である。目的が、可視化なのか、ノイズ低減なのか、変数の整理なのか、あるいは背後にある「真の要因」を特定したいのかによって、選ぶべき手法や活用方法は異なり、問いに応じた使い方が求められる。細目②からは、この2つの手法がどのようなものかを学習する。
②
主成分分析(PCA)とは
主成分分析(Principal Component Analysis: PCA)とは、複数の変数の線形結合によって新しい少数の変数(主成分)に変換し、データの分散をできるだけ保ちながら次元を削減する手法である。例えば、縦軸に苦味、横軸に酸味をとって各種のコーヒーの味をプロットした図を見たことはないだろうか。これは人間が経験的に「コーヒーの味の違いを特徴づける軸」を選んで味の特徴を分かりやすく表現している例である。しかし、もし経験知がなければ、甘味・塩味・酸味・苦味・うま味など複数の味覚を表す指標を測定し、その中から「違いを最もよく表す方向」を見つけなければならない。主成分分析はまさにその作業を数学的に行う方法であり、データのばらつきが最大となる方向(分散が最大)を第1主成分として定め、次にそれと直交しつつ次に分散が大きい方向を第2主成分として求める。本細目では、二次元や三次元の散布図を用いながら、元の軸を回転させることで「決め手となる軸」が決まる主成分分析の機構を直感的に理解する。
③
主成分分析(PCA)の実践
本細目では、実際のサンプルデータを用いて主成分分析を実践する。例として、シリンダー数、排気量、馬力、車重、燃費など車種の特徴を表すデータ(mtcars)を用い、複数の指標を2つの軸に要約することで、利用者が自分のニーズに合った車を選びやすい図を作成する。多数の数値を並べるだけでは車種の比較は難しいが、2軸に落とすことで、「パワー重視型」「燃費重視型」といった傾向が視覚的に把握できるかもしれない。主成分分析では、その実施過程で確認すべき指標がある。寄与率と累積寄与率は、各主成分が全体の分散をどれだけ説明しているか(情報の保持率)を表す指標であり、何次元まで残すかを考える材料となる。これを判断する際には、固有値の落ち方を可視化するスクリープロット(Scree plot)も用いるが、「累積寄与率が何%以上なら正解」といった絶対基準はない。負荷量(loading)は、各主成分がどの変数の組合せで構成されているか(変数と主成分の関係)を表す指標であり、軸の意味づけの根拠となる。主成分得点(score)は、各サンプル(ここでは各車種)を主成分空間に写した座標であり、得点の散布図からクラスタ構造や外れ値を確認できる。さらに、得点(サンプル)と負荷量(変数)を同一平面上に重ねて解釈するバイプロット(biplot)を用いれば、「どの車がどの変数の影響を強く受けてその位置にあるのか」を直感的に読み取れる。重要なのは、軸の命名や「おすすめ」の提示は分析者の解釈を含むという点である。負荷量の裏付けを確認し、別の読み方がないかを検討する姿勢が不可欠である。
④
因子分析とは
因子分析(Factor Analysis)とは、複数の観測変数の背後に少数の共通因子(潜在変数)が存在すると仮定し、変数間の相関構造を説明する手法である。主成分分析が「データをうまく要約する軸」を探すのに対し、因子分析は「この項目たちが一緒に高く(低く)なりやすいのはなぜか」を考える方法だと言える。例えば能力検査で、語彙・読解・文章完成などが同時に高い人が多いとき、その背後に「言語能力」のような共通する力があると考えると筋が通る。因子分析では、各項目の点数は「共通因子の影響で動く部分」と「その項目に固有の要因(独自因子)や測定誤差」の足し合わせとして表される。本細目では、主成分分析との違いを踏まえつつ、相関のまとまりがどのように少数の因子で説明され、因子が何を意味しうるのかを、図を用いながら直感的に理解する。
⑤
因子分析の実践
本細目では、実際のサンプルデータを用いて因子分析を実践する。用いるのは知能テストのデータである。このデータは複数の知能・能力テスト項目から構成され、項目間の相関構造から潜在因子を推定する教材として広く用いられている。まず相関行列を確認し、どの項目群がまとまりやすいかを観察する。次に固有値とスクリープロット(scree plot)を用いて因子数の候補を検討するが、「固有値が1以上」といった経験則は目安にすぎず、解釈可能性と目的に照らして判断する。因子負荷量は各項目がどの因子とどの程度関連しているかを示し、因子に「言語」「空間」などの意味を与える根拠となる。さらにバリマックス回転などの回転を施すことで、負荷量が整理され解釈しやすくなる一方、回転の選択が読み方を左右する点も確認する。最後に因子得点を用いて、一人ひとりが因子(例えば「言語能力」や「空間能力」など)の上でどのあたりに位置しているのかを図で示し、その違いを見比べながら、どのようなタイプに分けられそうか、どの点が似ていてどの点が異なるのかを考える。
キーワード
① 次元削減(Dimensionality Reduction) ② 主成分分析(Principal Component Analysis, PCA) ③ 因子分析(Factor Analysis) ④ 寄与率(Explained Variance Ratio) ⑤ バイプロット(Biplot)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
9
機械学習(3):教師あり(回帰・分類)
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第9回では、第6回で整理した「タスク」と「評価」の枠組みに基づき、教師あり学習の中心である回帰と分類を扱う。第7回・第8回の教師なし学習が「構造の把握」や「変数の整理」を通じてデータ理解を深める方法だったのに対し、本回は「正解(目的変数)がある状況で、未知データに対する予測を行う」ことに焦点を当てる。あわせて、予測精度だけでなく、評価指標の選び方や汎化と過学習の考え方を通じて、モデルの数字をどう読むべきかを学ぶ。ここで身につける「評価の設計」と「当てすぎの危険を点検する視点」は、第10回の時空間データのように依存性が入りやすい状況や、第14回の社会実装・運用で性能劣化を監視する局面にもつながる基礎となる。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 教師あり学習とは(正解から学ぶ) ② 回帰:連続値を予測する ③ 分類:カテゴリを予測する ④ 汎化と過学習
細目レベル
①
教師あり学習とは(正解から学ぶ)
教師あり学習(Supervised Learning)とは、入力(特徴量)と正解ラベル(目的変数)の組を用いてモデルを学習し、未知データに対する予測や分類を行う方法である。かみ砕いて説明すると、「このようなデータの組み合わせがきたら、答えはこうです」というパターンを大量に学び、新しいデータが与えられたときに「おそらく答えはこうです」と言えるようにすることである。「学ぶ」とは何を意味するのだろうか。モデルは過去のデータに含まれる関係性を数式や構造として表現し、それを新しいデータに適用するのである。教師あり学習は、過去の住宅価格データから価格を予測する、メール文面からスパムか否かを判定する、といった場面で用いられる。本細目では、教師あり学習を「正解を手がかりに関係性を推定する作業」と捉え、回帰と分類という2つの代表的タスクの全体像を整理する。また、モデルとは何か、評価を行うとはどういうことかについても学習する。
②
回帰:連続値を予測する
教師あり学習の中でも回帰(Regression)は、連続的な数値を予測するタスクである。例えば、広告費や立地条件から売上高を予測する、築年数や広さから住宅価格を推定する、といった場面で用いられる。予測される変数は目的変数(target variable)と呼ばれ、予測のために用いる情報としての変数は説明変数(explanatory variable)と呼ばれる。なお、目的変数と説明変数の呼び方には分野によって様々なものがある。一つの目的変数と一つまたは複数の説明変数からなるデータセットがあれば、基本的に回帰タスクを行うことができるが、その方法(アルゴリズム)には様々なものがある。最も基本的な手法は線形回帰であり、説明変数と目的変数の間に直線的な関係を仮定する。しかし、現実の関係は必ずしも直線とは限らない。例えば、売上と広告費の関係が一定の範囲で頭打ちになる場合や、価格と需要の関係が非線形になる場合もある。そのような場合には、サポートベクター回帰(SVR)や決定木回帰、ランダムフォレスト、勾配ブースティング(XGBoost等)など、多様な機械学習アルゴリズムを活用できる。本細目では、データの特性を踏まえつつ、予測精度と解釈のしやすさのトレードオフを考えながら回帰モデルを構築する考え方を整理する。また、平均二乗誤差(MSE)などの評価指標にも触れ、回帰モデルにおける評価のポイントとその重要性について学習する。
③
分類:カテゴリを予測する
教師あり学習の中でも分類(Classification)は、観測をあらかじめ定められたカテゴリに割り当てるタスクである。例えば、メールがスパムか否かを判定する、顧客が離脱するかどうかを予測する、画像に写っている物体が何であるかを識別する、といった場面で用いられる。予測される変数は目的変数(target variable)と呼ばれるが、分類では通常、離散的なラベル(class label)をとる。予測のために用いる変数は回帰と同様に説明変数(explanatory variable)と呼ばれる。回帰同様、一つの目的変数と一つまたは複数の説明変数からなるデータセットがあれば分類タスクを行うことができるが、その方法(アルゴリズム)には様々なものがある。代表的な手法としては、ロジスティック回帰、k近傍法、決定木、ランダムフォレスト、サポートベクターマシン(SVM)などが挙げられる。分類では、特徴量空間の中でクラスを分ける境界(決定境界)をどのように引くかが本質的な問題となる。本細目では、正解率(accuracy)だけでなく、適合率(precision)、再現率(recall)、F値などの評価指標にも触れ、目的に応じて何を重視すべきかが異なることを理解する。また、誤分類が応用場面で影響をもたらすのかを考え、分類モデルの設計と評価の重要性を整理する。
④
汎化と過学習
ここでは、教師あり学習を行う上で知っておくべき汎化(generalization)と過学習(overfitting)について押さえておく。モデルは訓練データに対してよく当たるほど良いのだろうか。実は、当てすぎることは危険である。過学習とは、訓練データに含まれる偶然のゆらぎやノイズ、たまたまの偏りまで拾ってしまい、訓練データでは高得点でも、新しいデータでは当たらなくなる状態を指す。典型例として、サンプル数が少ないのに説明変数だけ多い場合や、複雑なモデルを十分な根拠なく使った場合に起こりやすい。これに対して汎化とは、訓練データで学んだ関係性が未知データにも通用し、安定した性能を示す性質である。データサイエンスにおいて重要なのは「過去を説明できること」ではなく、「これから来るデータでも機能すること」であり、評価は汎化性能を測るために設計されなければならない。本細目では、汎化と過学習の意味を理解し、過学習への対応方法として学習データ(train)とテストデータ(test)を分ける理由を確認する。テストデータは「本番の試験問題」として最後に一度だけ評価に用いるものである。あわせて、分割の仕方で評価が変わり得ることに触れ、交差検証(cross-validation)によって性能をより安定的に見積もる考え方を学ぶ。最後に、モデルが複雑になるほど訓練誤差は下がりやすい一方、汎化性能は必ずしも良くならないことを確認し、精度の数字を鵜呑みにせず過学習のリスクを点検する姿勢の重要性を学ぶ。
キーワード
① 教師あり学習(Supervised Learning) ② 回帰(Regression) ③ 分類(Classification) ④ 評価指標(Evaluation Metrics) ⑤ 過学習(Overfitting)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
10
時空間データの分析
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第10回では、「STEP2:データを情報に」の最終段階として、時間や空間の情報を含む時空間データの分析を扱う。第6回から第9回までは、多変量解析や教師あり学習を通じて、主として独立同分布(i.i.d.:independent and identically distributed)を前提とした分析の枠組みを確認してきた。しかし現実のデータには、「近いものほど似る」という依存構造が存在することが多い。時間の順序や地理的な位置関係を無視すると、見かけの相関を学習してしまったり、過大な評価を行ってしまう危険がある。本回では、時系列データと空間データそれぞれの特徴を整理し、依存性が分析の前提をどのように変えるのかを理解する。同時に、依存構造を適切に扱うことで予測精度や意思決定の質を高められる可能性についても学ぶ。これにより、第11回以降で扱う解釈・社会実装の議論へと接続する基礎を固める。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 時空間データの紹介 ② 時空間データの特性 ③ 時間データの分析 ④ 空間データの分析 ⑤ 時空間データと意思決定
細目レベル
①
時空間データの紹介:どんなデータがあるのか
近年、GPSなどのセンシング技術の発達により、以前より容易に時空間データを取得できるようになった。時空間データとは、測定値に「いつ」「どこで/どこに」という位置情報や時間情報が加わったデータである。例えば、国土交通省は、属性情報をともなう建物形状や都市空間をPLATEAUの3D都市モデルとして提供しており、都市の可視化やシミュレーションの基盤などとして活用が進んでいる。また、気象庁は、地点ごとの気象観測値を時系列として過去の気象データを蓄積・提供しており、災害や環境問題などの分析に活用されている。さらに、スマートフォン、交通IC、基地局統計などから推定される人流データは、「人の移動」を時空間上で扱える形に変換し、観光、交通、感染症対策などで注目されている。データが時空間的に可視化されることで、その分布の偏りや変化を直感的に把握しやすくなる。本細目では、地図、ヒートマップ、コロプレスマップ、コレログラム、時系列プロットなどを用いた可視化を通じて、時空間データの姿を概観する。
②
時空間データの特性:他のデータと何が異なるのか
多くのデータ分析はデータが互いに独立で同じ分布に従う(i.i.d.:independent and identically distributed)という前提に依存しているが、時空間データでは、その前提が崩れやすい。例えば、気温、地価、感染症の発生件数、売上高などは、近い場所や近い時点どうしで似た値をとりやすい。この「近いものほど似やすい」という性質は、空間依存(空間的自己相関)および時間依存(時間的自己相関)と呼ばれる。依存性があると、単純な回帰や検定の前提(誤差の独立性)が満たされず、関係が強く見えたり、偶然を規則性と誤認する危険がある。このような依存性には、バイアスをもたらす“厄介者“という側面がある。しかし、同時に依存性は、“手がかり”として活用できる情報でもある。近傍の値や直前の値を特徴量として組み込んだモデルを用いることで、ばらつきの中の規則性をよりうまく捉え、予測精度を改善することもできる。本細目では、依存性が「何を難しくし、何に使えるのか」を具体例に基づき理解する。
③
時間データ(時系列データ)の分析
本細目では時系列データの特徴と分析手法について学習する。時系列データ(時間データ)の特徴は、「順序が意味を持つ」という点にある。売上、株価、気温、アクセス数などは、昨日と今日が入れ替わっても同じとは言えない。また、分析では、長期的な増減傾向(トレンド)、周期的な変動(季節性)、直前の値が次の値に影響する自己相関といった性質に配慮する必要がある。時系列分析では、これらを「トレンド」「周期性(季節性)」「ノイズ(不規則変動)」の成分に分ける分解(decomposition)を行うことが有効である。例えば、売上データは、長期的な成長傾向に毎年同じ時期に増減する季節要因が加わり、さらに偶発的なゆらぎが加わったものと捉えられる。このように構造を分けて考えることで、何が規則的で、何が偶然かを整理しやすくなる。これを無視して通常の回帰分析を行うと、見かけの相関を学習してしまう可能性がある。また、過去に観測した範囲の外へ予測を広げる外挿には注意が必要である。例えば、パンデミックのように社会条件が変わると、過去の関係(モデル)がそのまま通用しないことがある。加えて、日次・週次・月次など時間の粒度を変えると見える構造が変わり得る。本細目では、時系列プロットや移動平均などの基本的な可視化を通して、時間依存の構造を理解し、予測に活かすための考え方を学習する。
④
空間データ(地理空間情報)の分析
本細目では位置(座標)や領域(行政区画など)を扱う空間データの特徴と分析手法について学習する。空間データは可視化することで強力な情報伝達が可能になる。地価、犯罪率、災害発生地点、店舗売上、感染症の発生分布などは、地理的に近い地点同士で似た値を示すことが多く、この性質は空間依存(空間自己相関)と呼ばれる。空間自己相関がある場合、通常の回帰モデルでの前提(誤差の独立性)が崩れやすく、推定や検定が歪む可能性がある。しかし、実は「近さ」は強い手がかりにもなる。例えば、周辺地域の平均値や、主要駅・海岸線・幹線道路からの距離といった空間的特徴量を加えることで、予測や解釈が改善することがある。その反面、地図の塗り分け方や分類方法によって印象が変わりやすい。さらに、どの単位で集計するか(町丁目・市区町村・都道府県など)によって結果が変わるスケール依存性にも注意が必要である。また、ある地域で得た関係を別の地域へそのまま当てはめる外挿には注意が必要である。人口構成や土地利用、制度、移動手段が異なれば、同じ説明変数でも意味が変わり得るからだ。本細目では、地図(ヒートマップ等)による探索を手がかりに、空間依存が「何を難しくし、何に使えるのか」、そしてスケールや外挿の落とし穴について整理する。
⑤
時空間データと意思決定
時空間データ分析の価値は、「どこで何が起き、いつ変化したのか」を捉え、判断に必要な状況認識を具体化できる点にある。例えば、豪雨時に浸水リスクが高まる地域を地形・降雨・土地利用から推定し、避難所の開設や警戒情報の発令を支援することができる。また、人流データと店舗売上を組み合わせれば、イベントや交通規制が地域経済に与える影響を把握し、警備配置や運営計画の改善につなげることもできる。感染症のように拡大が時空間的に伝播する現象では、発生の偏りや波の立ち上がりを早期に検知し、医療資源配分や注意喚起の優先順位づけに役立つ。つまり、時空間分析は「平均の議論」だけでは見落とされがちな局所的な偏りや変化点を可視化し、限られた資源をどこに投入すべきかという意思決定を具体化する道具となる。一方で、注意点もある。第一に、地図上の“ホットスポット”は因果を意味しない。データの集計単位や欠測、観測条件の違いが見かけの偏りを生むことがある。第二に、外挿には慎重でなければならない。ある地域・ある期間で成り立った関係が、別の地域や将来にも通用するとは限らない。第三に、人流や位置情報を扱う場合は、プライバシー保護と再識別リスクへの配慮が不可欠である。本細目では、意思決定に時空間データを活用することの有効性と注意点を理解する。
キーワード
① 時空間データ(Spatio-temporal Data) ② 空間的自己相関(Spatial Autocorrelation) ③ 時間的自己相関(Temporal Autocorrelation) ④ 外挿(Extrapolation) ⑤ スケール依存性(Scale Dependence)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
11
生成AIの今
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第11回は、STEP3「情報を知識に」における生成AIの活用を扱う。第10回まででは、回帰・分類・時空間分析などを通じて、データから「情報」を抽出する方法を学んできた。しかし、分析結果をそのまま提示するだけでは意思決定には不十分であり、「なぜそう言えるのか」「どこまで一般化できるのか」「次に何を検証すべきか」といった解釈の整理が不可欠である。ここでは、生成AIを要約、論点整理、仮説生成、説明文の構築などを補助する道具として、「知識化」の工程に活用する方法を学ぶ。同時に、ハルシネーションや根拠不明の断定といった限界を理解し、検証可能性と説明責任を前提にした活用方法を整理する。生成AIを「怖いから使わない」のではなく、「限界を理解したうえで使いこなす」姿勢の大切さを理解する。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 生成AIとは何か ② 大規模言語モデル(LLM)とは ③ 最新の実務的トレンド ④ 情報を知識にするための生成AIの活用 ⑤ 生成AI活用における注意点と姿勢
細目レベル
①
生成AIとは
ChatGPTやClaude、Gemini、Midjourney、Stable Diffusionなどの生成AIが急速に普及し、生成対象も文章・画像・音声・動画・コードへと広がりを見せている。このようなAIは一般に生成AI(Generative Artificial Intelligence)と呼ばれ、従来のAIが主に予測や分類を得意としていたのに対し、入力に応じて新しいコンテンツを“それっぽく”作り出せる点に特徴がある。近年は、テキスト・画像・音声などを同一のモデル(あるいは統合された枠組み)で扱うマルチモーダル化が進み、会議の録音から議事録、要点、次のアクションまでをまとめて整理するといった使い方も現実になってきた。さらに、分析で得られた結果を過去の知見と照らし合わせて差分や新規性を言語化する、仮説や追加分析の候補を列挙する、説明文の叩き台を作るなど、生成AIは「情報を知識にする」工程における有力な補助ツールになり得る。その開発状況は日進月歩で、授業実施時点では状況が大きく変わっている可能性もある。本細目では、生成AI周辺の最新動向を概観し、「何ができるのか」、「どのように使われ始めているのか」といった観点で、受講者の情報アップデートを図る。
②
大規模言語モデル(LLM)とは
大規模言語モデル(LLM:Large Language Model)とは、膨大なテキストデータを学習し、文脈に応じた自然言語の生成や解析を行う、生成モデルの一種である。LLMは、文脈から次に来る語を予測する学習を積み重ねることで、要約・翻訳・分類・推論・コード生成などを幅広くこなすため、業務や学習の現場でも利用が広がっている。一方で、LLMの出力は「正しさの保証」ではなく「生成結果」であり、根拠のない断定(ハルシネーション)が起こり得る。現時点では特に、数値・固有名詞・引用・因果関係の断定は誤りが混ざりやすいことに注意が必要である。LLMの開発状況も日進月歩で、授業実施時点では状況が大きく変わっている可能性がある。本細目では、生成AIの中でもLLMに焦点を当てて最新動向を概観し、受講者の情報アップデートを図る。
③
最新の実務的トレンド:RAG・エージェント・マルチモーダル
生成AIの活用は、アイデア出しや要約などの「雑談的」な使い方から、手順・入力・出力が決まった「業務の型(ワークフロー)」へ移りつつある。その中核となるのがRAG(外部文書検索+生成)である。RAGは、社内規程・マニュアル・議事録・契約書・論文などの根拠資料を先に検索し、その内容に基づいて回答や文書案を生成するため、推測で埋める場面(ハルシネーション)を減らしやすい。加えて、参照箇所を明示できるので、監査対応や説明責任(なぜその結論か)にもつなげやすい。さらに近年は、単発のQ&Aにとどまらず、複数工程を自動でつなぐ「エージェント型」の使い方が広がっている。例えば、検索(社内ナレッジ・Web)→抽出(必要項目の抜き出し)→集計(表や数値の整理)→比較(規程差分、競合・見積の比較)→文章化(稟議、報告書、メール)を、ツール連携で順に実行する。これにより、担当者は定型作業を圧縮しつつ、「何を判断するか」「最終成果物の品質確認」に集中できる。また、マルチモーダル化により、生成AIの入口と出口も拡張している。入口では図表・帳票・スクリーンショットの理解、現場写真からの点検支援、ホワイトボード撮影の構造化などが可能になる。出口では会議音声からの要点抽出、論点整理、アクションアイテム化、図解案の生成など、コミュニケーション成果物まで踏み込める。つまり、テキスト中心の知識化が、視覚・聴覚を含む実務データへ広がっている。本細目では、(1) 根拠の付け方(参照の明示、版管理、根拠と推論の分離)、(2) 人とAIの作業分担(定型は自動化し、判断は人が担う)、(3) 再現性の担保(プロンプト・データ・手順・ログの標準化)について検討する。これにより、生成AIを単なる便利ツールではなく、品質・責任・運用を前提にした「業務システムの一部」として活用する考え方を身につける。
④
情報を知識にするための生成AIの活用
データ分析でまず得られるのは、相関・傾向・差・予測精度といった「情報」である。しかし意思決定に必要な知識は、「なぜそう見えるのか」「どこまで言えるのか」「次に何を確かめるべきか」という“解釈の筋道”を伴う。生成AIはこの筋道づくりを支援できる。具体的には、(1)結果の要約(何が起きたか)、(2)説明の候補出し(なぜ起きたかの仮説)、(3)検証計画の提案(次に何を見ればよいか)、(4)関係者向け翻訳(専門外にも伝わる表現)、(5)再現可能な記録(分析メモやレポートの構造化)に役立てられる。例えば「売上が伸びた」という情報を「どのセグメントで、どの施策が、どの程度寄与しそうか」という知識へ発展させるには、問いの分解、反例の洗い出し、前提条件の明示が欠かせない。本細目では、生成AIを「結論製造機」ではなく「解釈と検証の補助輪」として位置づけ、実際にどのように活用できるかを議論する。
⑤
生成AI活用における注意点と姿勢:十分に注意しつつ、積極的に使う
生成AIの果たす役割が大きくなる中、さまざまなリスクも指摘されている。例えば、誤情報、バイアスの再生産、著作権・引用、個人情報漏えい、プロンプト注入などが挙げられる。こういったリスクを回避するため、生成AIの使用は控えるべきなのだろうか?必要なのは「恐れて使わない姿勢」ではなく「よく知り柔軟に対応する姿勢」である。データサイエンティストの責務は、道具を盲信することでも拒絶することでもなく、限界を理解して検証可能な形で使い、説明責任を果たすことにある。具体的には、①出力を結論にしない(一次情報・数値・コードは検証する)、②根拠を添える(参照資料・前提・条件を明示する)、③入力管理(機密・個人情報を入れない)、④評価設計(何をもって“良い出力”かを定義する)、⑤人が最終責任を負う、ということである。本細目では、新しくて分からないから避けるという態度がどのような帰結を招くのかについて議論する。そして、十分な注意を払ったうえで積極的に活用する姿勢の重要性を理解する。
キーワード
① 生成AI(Generative AI) ② 大規模言語モデル(LLM) ③ ハルシネーション ④ RAG(Retrieval-Augmented Generation) ⑤ エージェント(Agentic Workflow)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
12
データビジュアライゼーション
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第12回は、「情報」を「知識」に育てる過程における可視化の方法と重要性を理解する。第10回までに回帰・分類・時空間分析などを通じて、データから相関・差・傾向といった「情報」を取り出す方法を学んだ。しかし、情報は提示しただけでは意思決定に結びつきにくい。どの比較が妥当か、どの条件で成り立つか、例外はどこかを読み手と共有し、検証可能な形で説明することで初めて「知識」になる。ここでは、探索段階、説明的可視化を区別し、目的に応じた図の選び方と作り方を理解する。併せて、軸・スケール・色・注釈・不確実性の扱いといった設計原則を確認し、可視化がもたらす誤解を減らす工夫を身につける。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① なぜ可視化が必要か ② 探索的可視化と説明的可視化の違い ③ 主な可視化の方法 ④ 良い可視化とは
細目レベル
①
なぜ可視化が必要か
「情報」を「知識」に育てる過程では、可視化を用いることが有効である。データ分析で得られるのは、係数や平均値、相関、精度といった「結果」だが、それらを並べただけでは「結局、何が起きていて、なぜそう言えるのか」がつかみにくい。知識とは、数字の集合ではなく、「どの要素が関係しているか」「影響はどちら向きか」「どんな条件で成り立つか」「例外はどこにあるか」といった関係の形が見えている状態である。つまり、結果を説明に変えるには、複数の情報を比較したり、全体を俯瞰したり、矛盾や別解釈の可能性なども考えながら、検証できる仮説として整理する作業が欠かせない。可視化はこの作業を助ける。散布図は関係の強さやばらつき、非線形性を一目で示し、分布図は傾向や外れ値を区別しやすくする。時系列図は変化の流れや転換点、先に動く要因の手がかりを教えてくれる。層別した比較図は「条件が違うと結論が変わる」ことを示し、ネットワーク図はつながりの構造や中心となる要素を捉えやすくしてくれる。図は、表や文章だと順番に追うしかない情報を同時に見せ、私たちの見落としを減らし、他者への情報共有や説明もしやすくしてくれる。つまり、可視化は、情報を検証可能な「知識」に変えるための実践的な方法である。本細目では、データサイエンスにおける可視化の重要性を学ぶ。
②
探索的可視化と説明的可視化の違い
可視化は「図を作ること」ではなく、目的に応じて役割が変わる。大きく分けると、分析者がデータの特徴を発見するための探索的可視化(EDA)と、結果を他者に伝えるための説明的可視化の二つがある。同じデータでも、問いの段階が違えば「良い図」の条件も変わる。第5回で学習した探索的可視化は、まだ結論が定まっていない状態で「何が起きていそうか」をつかむことを目的とする。分布は偏っていないか、外れ値はあるか、関係は直線的か、層別(地域・年代など)すると傾向は変わるか、といった点検を素早く行う。そのため散布図、ヒストグラム、箱ひげ図、時系列図、相関行列などを多めに試し、軸やスケール、色分けを変えながら仮説の種や落とし穴を拾う。一方、説明的可視化では結論を支える根拠を、読み手に誤解なく届けることを目的とする。探索で作った図をそのまま貼るのではなく、「何を伝えたいか」を先に一文で定め、その一点が最短で伝わる図に絞り込む必要がある。具体的には、比較対象や基準(前年差、平均との差、対照群など)を明示し、凡例・単位・期間・母数を揃え、不要な情報を削って注釈や強調で視線を誘導する。本細目では、探索的可視化と説明的可視化の違いを整理し、その違いを意識しながら、「情報→知識」の工程で可視化により発見と共有の両方を効果的に行うための考え方を身につける。
③
主な可視化の方法
本細目では、データサイエンスで頻繁に用いられる基本的な可視化手法をカタログ的に整理する。まず、単一の変数の分布を把握するためのヒストグラムや箱ひげ図は、中心傾向やばらつき、外れ値の有無を確認するのに有効である。次に、2変数間の関係を見る散布図は、相関の強さや非線形性、クラスタ構造の存在を直感的に示す。時系列データには折れ線グラフが用いられ、変化の傾向や転換点、季節性を把握しやすい。カテゴリ間の比較には棒グラフや積み上げ棒グラフ、構成比の把握には円グラフや帯グラフが使われるが、比較の精度という観点からは棒グラフが推奨されることが多い。さらに、複数変数を同時に俯瞰するためのヒートマップや相関行列、要素間の関係を示すネットワーク図、地理情報を扱う際のコロプレスマップなども重要である。可視化手法の選択は、データの型(連続・離散・カテゴリ)や目的(探索・説明)に依存する。本細目では、それぞれの手法が「何を見るための図なのか」を明確にし、適切な場面で適切な図を選択するための基礎を身につける。
④
良い可視化とは
良い可視化とはどのような可視化だろうか。それは、単に見た目が美しいだけの図ではなく、読み手がデータの意味を正しく理解できる図である。データビジュアライゼーション、特に説明的可視化の基本は、「何を伝えたいのか」を明確にし、その目的に沿って設計することである。まず重要なのは、軸の設定とスケールである。縦軸を途中から切り取ると差が誇張され、対数軸を用いると増減の印象が変わる。次に、比較の基準を揃えることが必要である。期間、単位、母数が異なるデータをそのまま並べると誤解を招く。また、色や形の使い方にも注意が必要である。過度な色使いや3D表現は視覚的には目を引くが、正確な比較を妨げることがある。凡例や注釈、データの出所を明示することも信頼性を支える基本である。さらに、不確実性(誤差範囲や信頼区間)を示さない図は、結果を過度に確定的に見せてしまう。本細目では、軸・スケール・色・比較条件・不確実性の提示といった基本原則を確認し、「伝わる図」と「誤解を生む図」の違いを具体例を通じて理解する。
キーワード
① 探索的可視化(Exploratory Data Analysis, EDA) ② 説明的可視化(Explanatory Visualization) ③ 軸(Axis) ④ スケール(Scale) ⑤ 不確実性(Uncertainty)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
13
結果の解釈と限界の明示
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第13回はSTEP3「情報を知識に」の総仕上げとして、“結果を読める人”から“結論として語れる人”になることを目指す。第10回までで回帰・分類・時空間分析などを通じて情報を抽出し、第11回では生成AIを含む知識化の補助を扱い、第12回では可視化を通じて発見と共有の方法を学んだ。本回ではそれらを束ね、分析結果を前提・不確実性・適用範囲まで含めて説明する際の方法や注意点を確認する。加えて、因果推論の基本的な考え方を導入し、「効いた」と言うために何が足りていて何が足りないのか、どこに仮定が置かれているのかを意識する姿勢を身につける。最後に、結果を次の問いへつなげることで、データサイエンスが一回きりの作業ではなく、改善と検証を重ねる営みであることを確認し、第14–15回の社会実装・意思決定(STEP4)への橋渡しをする。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 分析結果の読み方 ② 仮定と前提の明示 ③ 不確実性と外的妥当性 ④ 因果推論の基礎 ⑤ 分析の循環
細目レベル
①
分析結果の読み方
分析結果が出たとき、私たちは何が分かったと言えるのだろうか。回帰係数が有意だった、分類精度が高かった、主成分が2つで80%を説明した――これらの数値は事実だが、それだけで結論が自動的に決まるわけではない。数値は常に、データの集め方(誰を/何を、いつ、どのように測ったか)、前処理(欠測や外れ値の扱い)、モデルの仮定、評価のしかたの上に成り立っている。本細目では、結果を「数字そのもの」と「前提を含めてどう読むか」に分けて整理する。例えば、有意差があることと実務上のインパクトが大きいことは同じではないし、精度が高いことと正しさも完全には一致しない。本細目では、数字を過不足なく読み、言い過ぎず、適切に解釈するための姿勢やポイントを身につける。
②
仮定と前提の明示
どの分析手法にも仮定がある。線形回帰は線形性や誤差の独立性を前提にし、分類では学習データと本番データの分布が大きく変わらないことを暗に前提としている。時系列モデルは「時間順序」を守ることが前提であり、因子分析は「共通因子が観測変数の相関を生む」という仮定の上に成り立っている。仮定が大きく崩れていると、推定値は不安定になり、本質を捉えていない見かけ上の関係を結果として支持してしまうことがある。しかし、実務において仮定を完全に満たすデータなどほとんどない。重要なのは、(1)どの仮定が効いているか、(2)どこが怪しいか、(3)怪しい場合に結論がどれだけ変わり得るか、を点検して言葉にすることである。本細目では、残差プロットや分布の偏り確認など、基本的な「前提チェック」の考え方を紹介し、「どこまでなら言ってよいか」を判断するポイントを把握する。
③
不確実性と外的妥当性
あるデータで得られた結果は、別の状況でも成り立つだろうか。これが外的妥当性の問題である。例えば、ある地域・ある時期・ある顧客層で得た傾向が、別地域や将来にも当てはまるとは限らない。さらに、推定値や精度には必ずばらつきがあり、サンプルサイズが小さい、欠測が多い、データに偏りがあると、その不確実性はさらに大きくなる。本細目では、信頼区間や誤差範囲が「どれくらいブレる可能性があるか」を表していることを確認し、点推定(1つの値)だけで断定するのは危険であること学ぶ。また、学習・検証の分割や交差検証が「手元のデータ内での再現性」を見る方法である一方、外的妥当性は「データの外へ出たときに崩れないか」という別の問いであることも理解する。強い主張をするほど、適用範囲(誰に、いつまで、どの条件で)をしっかりと明示する責任が生じる。
④
因果推論の基礎
相関があっても、それだけでは「AがBを変えた」という因果関係が示されたわけではない、という点は第3回で扱った。ここでは一歩進めて、因果推論について整理する。因果推論の核心は、「介入しなかった世界」と「介入した世界」を比べるという発想にある。例えば「SNS利用時間が成績に与える影響」を知りたいなら、本当は同じ学生について「SNSを増やした場合」と「増やさない場合」の2つを同時に観測したい。しかし現実には同時に見られない。そこで、できるだけ条件が似た人どうしを比べたり、介入の前後で変化を追ったりして、もう一つの世界をできる範囲で近似するのが因果推論である。このとき重要なのが「何を揃えれば公平な比較になるか」である。交絡(生活習慣や学習時間などSNSにも成績にも効く要因)が残ったままだと、SNSの効果に見えていたものが、実は別要因の影響だったということもある。そこで、(1)層別や回帰で共変量を調整する、(2)傾向スコアで似た人を作って比較する、といった発想が出てくる。ただし、測れていない交絡が残る可能性もあるため、自然実験(制度変更、抽選、閾値ルールなど)を利用して、介入が偶然に近い形で分かれた状況を手がかりにする方法も重要となる。本細目では、平均処置効果(介入の平均的な効き目)に着目すること、主張の条件(どんな仮定の下で、どこまで言えるのか)を明示することの重要性を学ぶ。
⑤
分析の循環
分析は一度で終わる作業ではない。結果を読めば、次の疑問や改善点が必ず出てくる。例えば、予測精度が低いときは「モデルが弱い」の一言で済ませず、特徴量が足りないのか、目的変数の定義が粗いのか、データが混じっていないか(季節・地域・顧客層)、評価の仕方が適切か、そもそも予測可能な構造があるのか、といった点を確認し、原因を特定する必要がある。逆に、精度が高すぎるときは、リーク(本来は使えない情報が特徴量に紛れ込むこと。たとえば未来の情報など)が起きていないかや、過学習も疑い、その理由を理解する姿勢が重要となる。本細目では、結果を「成功/失敗」で終わらせず、「次に何を確かめ、何を変え、どう再検証するか」という改善の筋道としてまとめることの重要性を学び、データサイエンスは、問いを立て、検証し、問いを更新する循環的な営みであることを理解する。
キーワード
① 前提条件と仮定 ② 不確実性(Uncertainty) ③ 外的妥当性(External Validity) ④ 一般化可能性(Generalizability) ⑤ リーケージ(Data Leakage)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
14
社会実装と意思決定
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第14回は、DIKWピラミッドの最終段階にあたるSTEP4「社会実装と意思決定」の導入として位置づく。第10回まででデータを分析して「情報」を取り出し、第11〜13回で結果の読み方や仮定・不確実性・因果推論を踏まえて「知識」として整える方法を学んできた。本回では、その知識を現場の判断へ移す際に避けて通れない論点(モデル出力と意思決定の距離、研究と運用の違い、説明責任とガバナンス、公平性(衡平と平等)、不確実性下の意思決定)をまとめて扱う。ここでは、モデルは結論を自動的に決める装置ではなく、判断材料を整理する道具であり、最終責任は人と組織が担うという原則を理解することが重要となる。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 分析から意思決定へ ② 社会実装とは何か ③ 説明責任とガバナンス ④ 衡平と平等 ⑤ 不確実性と価値判断
細目レベル
①
分析から意思決定へ
ここまでの授業では、データを分析し、情報を抽出し、結果を解釈する方法を学んできた。しかし、モデルの出力はそのまま意思決定になるのだろうか。例えば、アルバイトの応募者データから「採用後に長く続きにくい」と予測された学生を、自動的に不採用にしてよいだろうか。また、推薦システムが「この動画を好む可能性が高い」と示したとき、それを見せ続けることは本当に利用者の利益になるのだろうか。モデルが出すのは、あくまで「確率」や「傾向」であり、判断と直結するものではない。そこには必ず誤差や不確実性が含まれるし、予測が当たるとしても、その判断が公平かどうか、本人に説明できるかどうか、長期的に望ましいかどうかといった別の観点がある。実際の意思決定では、倫理、制度、コスト、本人の事情、将来への影響など、多様な要素を同時に考慮する必要がある。本細目では、モデルは意思決定を直接下す装置ではなく、“材料(データ)を整理する道具”であることを確認する。そして、最終的な判断と責任は人や組織が担うという原則を、具体例を通じて考える。
②
社会実装とは何か
研究では、手元のデータで精度が出れば「うまくいった」と言える。しかし、研究段階で高い精度が出たモデルでも、導入後に想定どおり動かないことは珍しくない。実務では、モデルは現場の業務の中で使われ、使われ続けて初めて本物になる。それは、「現実は動く」からである。データの集め方や項目の定義が変わる(入力フォームの変更、機器更新)、利用者がモデルに合わせて行動を変える(判定回避、運用のクセ)、外部環境が変化する(制度変更、景気、流行、災害)など、学習時と同じ状況は保てないのが常である。こうした変化で入力データの分布がずれることをデータドリフト(data drift)と呼び、予測が外れたり、特定の層だけ誤りが増えたりする原因になる。社会実装とは、モデルを「一度作って終わり」にせず、現場に組み込み、壊れにくく運用することである。具体的には、①誰がどの場面で使うのか(業務フロー)、②入力データを安定して集められるか(データ基盤)、③出力をどう解釈し行動につなげるか(ルールと責任分担)、④性能が落ちたことに気づけるか(監視)、⑤必要なら学び直せるか(更新手順)まで含めて設計する。本細目では、実験環境と運用環境の違いを整理し、モデルを「精度の高い数式」ではなく「動く仕組み」として捉えることの重要性を理解する。
③
説明責任とガバナンス
社会実装においては、モデルの出力が現場の判断や人の扱いに影響する以上、「なぜこの結論になったのか」「誤ったとき誰がどう直すのか」を説明できなければ、利用者や社会の信頼は得られない。ここで重要になるのが説明責任(accountability)とガバナンスである。説明責任とは、結果の根拠を示し、影響を受ける人が納得できる形で説明できることを指す。ガバナンスとは、その説明を“気合い”で行うのではなく、組織として再現可能に担保する仕組みである。例えば、モデルの目的と利用範囲(何に使い、何には使わないか)を決める、データの出所・前処理・学習条件を記録する、評価指標を精度だけでなく誤判定の影響まで含めて設計する、運用中の監視と改善手順を用意する、といった点が含まれる。加えて、ブラックボックス性が高いモデルほど、説明の工夫(重要特徴の提示、代表例の提示、反事実的説明など)や、意思決定の最終責任を人が負う設計が欠かせない。本細目では、アルゴリズムバイアスや説明可能性(Explainable Artificial Intelligence:XAI)の基本的な考え方に触れながら、「モデルを使うこと」がそのまま「責任を引き受けること」でもある点を整理する。
④
衡平と平等
AIやデータ分析の結果を意思決定に使うとき、「公平に扱えているか」という倫理的な問いが必ず出てくる。ここで重要なのが、平等(equality)と衡平(equity)の違いである。平等は全員に同じルールを適用する発想であり、衡平は出発点の違いや不利を踏まえて、結果として不当な不利益が生まれにくいように配慮する発想である。例えば、試験時間を全員同じにするのは平等だが、読み書きに困難がある人に合理的配慮として時間延長を認めるのは衡平に近い。意思決定では、「同じ扱いをすること」が必ずしも「公正な結果」につながらない場合がある。したがって、判断基準を決める際には、誰が利益を得て誰が不利益を被るのか、どの不利益は社会として許容できないのかを明示し、関係者が説明可能な形で議論することが求められる。本細目では、平等と衡平を区別したうえで、公平性の確保には単に同じルールを適用する以上の検討が必要であり、その判断には社会的・倫理的な価値判断が不可欠であることを確認する。
⑤
不確実性と価値判断
どれほど精緻なモデルであっても、不確実性を完全に消すことはできない。最終的な意思決定には、リスク許容度や組織の価値観、社会的合意といった要素が関わる。本細目では、データサイエンスが提供できるのは「最も合理的と思われる選択肢の整理」であって、価値判断そのものではないことを確認する。では、不確実性に対して私たちは何ができるのか。代表的な考え方がシナリオ分析である。将来が一つに定まらない前提に立ち、例えば「需要が伸びる/横ばい/落ち込む」「政策が変わる/変わらない」といった複数の前提を置いて、それぞれで結論がどう変わるかを比較する。あわせて、感度分析(どの前提やパラメータが結論を最も動かすかを点検する)、ストレステスト(不利な条件をあえて置き、破綻しやすい点を見つける)、確率分布にもとづくシミュレーション(例:モンテカルロ法)など、意思決定の頑健性を確かめる方法も紹介する。これらは「当てる」ためというより、「外したときにどれだけ痛いか」「どこまでなら耐えられるか」を見積もるための道具である。ここでは、DIKWピラミッドのデータから知恵へと至る最後の段階には、必ず人間の判断が介在することを再確認する。
キーワード
① 説明責任(Accountability) ② ガバナンス(Governance) ③ 不確実性(Uncertainty) ④ データドリフト(Data Drift) ⑤ 説明可能なAI(Explainable Artificial Intelligence, XAI)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
15
総括:全体の統合と復習
科目の中での位置付け
本科目は、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の手続きとして捉え、全15回の授業をDIKWピラミッド(Data-Information-Knowledge-Wisdom)に沿って構成する。データを文脈化して情報とし、情報を統合・解釈して知識とし、さらに、目的や規範、長期的視点を含む価値判断を行って知恵とする、というステップを軸に進める。導入(1-3回)で全体像と社会的論点、STEP1(4-5回)で事象のデータ化と収集、STEP2(6-10回)で主要分析手法による情報化、STEP3(11-13回)で説明可能な知識化、STEP4(14-15回)で社会実装と意思決定までを扱い、最終回で全体を統合して総括する。
第15回は最終回として、DIKWピラミッドに沿って全体を統合し、自分の言葉でデータサイエンスを説明できることを確認する。STEP1〜STEP4で扱った内容を振り返ったうえで、第1回と同様の「データサイエンス像」を再度可視化し、受講者自身の理解がどう変化したかを捉える機会とする。最後に、関心領域にデータサイエンスを適用するための問いを各自が具体化し、「何をデータ化できるか」「どこまで言えるか」「誰の意思決定にどう役立つか」を考える。これにより、本講義が“知識を受け取るだけ”で終わらず、次の学習・研究・実務へと踏み出すための足場となるよう全体を総括する。
【コマ主題細目①~⑤】
· コマ用オリジナル資料
(必要に応じてプリントを配付する)
コマ主題細目
① 振り返り[STEP1:事象をデータに] ② 振り返り[STEP2:データを情報に] ③ 振り返り[STEP3:情報を知識に] ④ 振り返り[STEP4:知識を知恵に] ⑤ データサイエンスの再定義
細目レベル
①
振り返り[STEP1:事象をデータに]
STEP1では、「そもそもデータはどのように生まれるのか」を扱った。センシングや調査設計を通じて、事象はそのままデータになるのではなく、「何を、どの単位で、どの頻度で測るか」という設計の結果として記録されることを学んだ。ここでは、データは客観的な“事実そのもの”ではなく、世界の一部を切り取った表現であるということの理解が重要だった。サンプリングの偏り、欠測、代理指標(プロキシ)の限界などを考慮しなければ、後続の分析が土台から揺らぐことを理解した。本細目では、「良い分析の前に良いデータ設計がある」という原則を振り返る。
②
振り返り[STEP2:データを情報に]
STEP2では、多変量解析や機械学習を通じて、データを意味のある「情報」へ変換する方法を学んだ。クラスタリングや次元削減は構造を見つけ、回帰や分類は予測や判定を行うことを学んだ。ここでは、「どのタスクを設定するか」「どの評価指標で良しとするか」という設計が高度なアルゴリズムを用いることよりも重要だということを理解した。同じデータでも、目的が違えば使う手法も変わる。さらに、汎化や過学習の概念を通じて、精度の評価に必要な観点を理解した。本細目では、特にアルゴリズム名を覚えることよりも、問いと評価の設計こそが情報化の核心であったことを振り返る。
③
振り返り[STEP3:情報を知識に]
STEP3では、分析結果をどのように解釈し、説明可能な形に統合するかを扱った。可視化を通じて関係を理解し、仮定や不確実性を明示し、因果推論の限界を意識する観点について学習した。そして、単に数字を並べるのではなく、「どこまで言えるのか」を言語化することが「情報」を「知識」にするために重要だということを学習した。また、生成AIの活用も含め、情報を整理し共有する方法も学んだ。本細目では、知識とは単なる結果ではなく、前提と限界を含めた説明であることを振り返る。
④
振り返り[STEP4:知識を知恵に]
STEP4では、分析結果を社会の意思決定へどう活かすかを考えた。モデルは結論を自動的に決める装置ではなく、判断材料を整理する道具である。社会実装では、ドリフトや性能劣化、説明責任、衡平と平等、不確実性への対応など、多様な要素を考慮する必要があった。知恵とは、単に正しそうな選択肢を示すことではなく、リスクと価値判断を含めて責任を持って決めることである。本細目では、データサイエンスが提供できるものと提供できないものを整理し、最終的に人が担う判断の意味を振り返る。
⑤
データサイエンスの再定義
第1回で「データサイエンスとは何か」を考えたとき、どのようなイメージを持っていただろうか。AIや統計、プログラミングといった言葉が浮かんだかもしれない。本講義では、データサイエンスを「問いの設定→データの取得・管理→分析手法の選択→分析の実行と評価→結果の解釈→意思決定」という一連の枠組みとして捉えてきた。その結果、受講者のみなさんのデータサイエンスに対するイメージは変化しただろうか。本細目では、この時点で第1回と同様の「データサイエンス像」のWebフォームを再度実施し、回答結果を可視化することで、イメージがどのように変化したかを把握する。また、変化した理由について議論する。さらに、自身の関心のある分野でデータサイエンスを適用するための問いを考え、応用のイメージを具体化する。
キーワード
① DIKWピラミッド(DIKW Pyramid) ② データ(Data) ③ 情報(Information) ④ 知識(Knowledge) ⑤ 知恵(Wisdom)
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業終了時、ヨリソル上において5問以上の、当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】
当該回のコマシラバスおよび配付資料をあらためて読み直し、講義内容の要点を整理するとともに、小テストの問題を見直して誤答や理解が不十分であった箇所を確認する。分からない箇所はChatGPT、Webサイト、参考図書等を使って調べる。調べても理解できない点があれば、そのままにせず積極的に教員へ質問する。
【予習】
シラバスの各細目レベルの内容を事前に確認し、専門用語や概念のうち理解が難しそうな箇所を把握しておく。関連するキーワードをChatGPT、Webサイト、参考図書等で調べ、基本的な意味を理解したうえで授業に臨むことが望ましい。さらに、自身の関心や身近な話題と照らし合わせて、次に学習する内容がどのような意義をもつのかを考えることにより、明確な目的意識をもって授業に臨むことが期待される。
履修判定指標
履修指標
履修指標の水準
キーワード
配点
関連回
1. データサイエンスの位置づけと基本概念
データ・情報・知識(DIKW)や「問い→データ→分析→解釈→意思決定」の流れを説明できる。統計・機械学習・AI(生成AI含む)の違いと役割分担を整理でき、DSが意思決定に資する理由を具体例で説明できる。
DIKW、分析プロセス、意思決定、統計、機械学習、AI
10
1、2
2. 問いの定式化と評価可能な目標設定
ビジネス/社会課題を「目的」「対象」「観測可能な指標」「成功条件」に分解し、分析課題(分類/回帰/クラスタリング等)へ落とし込める。
問いの定式化、KPI、目的変数、説明変数、分類・回帰・クラスタリング
10
2、3
3. データの種類・生成過程と品質(代表性/偏り/欠測
構造化/非構造化、時系列/空間、観測/実験/調査の違いを説明できる。代表性・サンプリング・バイアス・欠測を理解し、品質上のリスクと対処方針を説明できる。
データ種別、生成過程、代表性、バイアス、欠測、サンプリング
10
3、4、5
4. データ前処理と特徴量の考え方
クリーニング(型・外れ値・重複・欠損処理)と前処理の目的を説明できる。特徴量(尺度、エンコード、正規化、集計、時系列のラグ等)の設計意図とリーケージ回避を説明できる。
前処理、外れ値、重複、正規化、エンコード、特徴量、リーケージ
10
5、6、7
5. 記述統計・可視化と解釈
代表値・ばらつき・相関などの基本統計量を説明でき、目的に応じた可視化(分布/比較/関係/時系列)を選び、読み誤り(相関≠因果、見かけの相関等)を避けた解釈ができる。
記述統計、分布、相関、EDA、可視化、解釈
10
6、7、8
6. モデルの基本(教師あり/なし)と過学習
教師あり/なし学習の違い、代表的手法(線形回帰、ロジスティック回帰、決定木/アンサンブル等)の狙いを概念的に説明できる。過学習と汎化の関係、正則化やモデル選択の考え方を説明できる。
教師あり/なし、回帰、分類、クラスタリング、過学習、汎化、正則化
20
9、10、11
7. 評価設計(データ分割・指標・不確実性)
学習/検証/テスト分割や交差検証の意義を説明できる。分類(Accuracy/Precision/Recall/F1/ROC-AUC等)・回帰(MAE/RMSE等)の指標を用途に応じて選択できる。誤差要因、不確実性、外的妥当性の限界を説明できる。
差検証、混同行列、Precision/Recall、F1、AUC、MAE/RMSE、外的妥当性
20
11、12、13
8. 社会実装と責任(倫理・法務・ガバナンス
解析結果の「前提」「根拠(データ・手順・評価)」「限界(バイアス/適用範囲/不確実性)」「意思決定への使い方」を簡潔に説明できる。プライバシー、同意、ライセンス、説明責任、公平性、生成AI利用時の留意点を踏まえた実務上の注意を述べられる。
説明責任、再現性、プライバシー、同意、ライセンス、公平性、ガバナンス、生成AI
10
3、14、15
評価方法
筆記試験(100%)により評価する。
評価基準
評語
学習目標をほぼ完全に達成している・・・・・・・・・・・・・
S (100~90点)
学習目標を相応に達成している・・・・・・・・・・・・・・・
A (89~80点)
学習目標を相応に達成しているが不十分な点がある・・・・・・
B (79~70点)
学習目標の最低限は満たしている・・・・・・・・・・・・・・
C (69~60点)
学習目標の最低限を満たしていない・・・・・・・・・・・・・
D (60点未満)
教科書
なし
参考文献
[データサイエンスの全体を見渡すことのできる参考書]
竹村彰通, 姫野哲人, 高田聖治, 和泉志津恵, 市川治, 梅津高朗, 北廣和雄, ほか. 2024. データサイエンス入門. 第3版. 学術図書出版社.
北川源四郎, 竹村彰通, 内田誠一, 川崎能典, 孝忠大輔, 佐久間淳, 椎名洋, ほか. 2024. 教養としてのデータサイエンス = Data science as the liberal arts. 改訂第2版. 講談社.
実験・実習・教材費
適宜資料を配付する