区分 専門教養科目
ディプロマ・ポリシーとの関係

カリキュラム・ポリシーとの関係

カリキュラム全体の中でのこの科目の位置づけ
 フィールド自然学科は、自然と人間が共存できる社会を目指し、科学的知見に基づいた教育と研究をおこなう学科である。陸域・水域・農業の3つの分野について詳しく学ぶとともに、統計データ解析や幅広い教養を育むカリキュラムを編成している。また、柔軟な考え方や実践的な提案力を養うため、学科共通の授業や複数の分野にかかわる授業も設けている。これにより、幅広い視野をもち、さまざまな課題に対応できる人材を育成する。   
 本科目では、1年後期の「環境データの可視化技法」に続く後継科目として、データの可視化の次のステップである統計解析の基礎を修得する。統計的な思考法について幅広く学ぶことにより、統計データ解析におけるモデルの果たす役割を知り、パラメトリック統計学の基本である確率変数と確率分布を理解する。数式はできるかぎり使わないようにしつつ、統計言語R(RコマンダーとRStudio)を用いた演習を毎回の講義に組み込み、実際のデータを用いてRによる統計解析を行う手順と計算結果の解釈について解説する。

科目の目的
本科目は、証拠(データ)と仮説(モデル)とを関連づけて、妥当な結論に到達するまでの探究を重視する。単に統計学に関する知識を記憶するのではなく、ある統計理論が適用できるかどうか、その限界はどこにあるかを批判的に検討する姿勢を育むこと目指している。すなわち、統計解析の手法を表層的に用いるのではなく、その背後にある生物学的背景や理論的基盤を理解し、学生自らの研究課題に対して最適な手法を選び取ることのできる主体的な統計学ユーザーになることは、自然科学に基づいた実践的な問題解決能力および持続可能な社会に貢献する人材の育成にも資する。

到達目標
本科目では、下記の到達目標を立てる:
1.観測されたデータに含まれる「ばらつき」や「変動」を数値化して理解する視点を身につける。
2.統計手法を問題解決のための道具として主体的に選択・活用できる力を養う。
3.パラメトリック統計学の初歩を理解するために、確率変数と確率分布に関して統計言語Rを用いた演習を行う。
4.統計モデルの意味を理解し、データ解析においてモデルが果たす役割を学ぶ。

科目の概要
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。
科目のキーワード
ばらつき(変動、分散、標準偏差)、直感と理論(データ、モデル)、統計学(仮説、検定)、統計ソフトウェア(R、Rコマンダー、RStudio)、統計グラフ(ヒストグラム、散布図など)

授業の展開方法
本科目の授業は「講義」と「演習」から構成される。授業では、オリジナル解説教材(PDF版)を配布し、その内容に沿って授業を進める。テキストは、シラバスの「コマ主題細目」に対応した章立てとなっており、授業の最初の10分間では、当該回で取り扱う内容の全体像を概観し、そのコマで学習すべき重要事項や学習のポイントを明示する。続く60分間では、コマ主題細目に沿って、細目レベルに関する解説をおこない、その内容を踏まえた練習問題を解くことで理解度を確認する。その後、各コマ主題細目に要点を整理してまとめをおこなう。これを授業回ごとに繰り返すことで、知識を段階的に積み重ね、系統的な理解へと導く。授業の終盤10分間には、その回の内容全体を振り返り、学んだことを整理する。最後に小テストを実施し、理解度を客観的に確認したうえで、解答と解説をおこなう。授業終了後には、次回までに復習をおこなうことが求められる。解説教材や練習問題を見直すだけでなく、ChatGPTを活用して、受講生自ら20問程度の練習問題を作成・解答することで理解を深める。さらに、その解答と解説を確認することで、より確実に知識を定着させる。
オフィス・アワー
三中信宏:【前期】
万物は進化する月5限
基礎ゼミナールⅠ月5限
環境データ解析の基礎月5限
【後期】
環境データの可視化技法火曜5限
基礎ゼミナールⅡ月曜5限
基礎ゼミナールⅣ月曜5限
環境研究デザイン論火曜5限
三瓶真:【前期】
地球環境学火曜3・4限
基礎ゼミナールⅠ木曜5限
【後期】
海洋と水産の科学月曜5限
海洋学演習金2限・5限
基礎ゼミナールⅡ火曜4・5限
中島琢自:※指定時間以外に希望する場合、時間を調整するのでメールなどでご連絡ください。
【前期】
環境と微生物
基礎ゼミナールⅠ
微生物利用学
全科目:火曜1限、水曜昼~5限、木曜2限、金曜4限
【後期】
地域産業学
基礎ゼミナールⅡ
基礎微生物学演習
全科目:月曜5限、火曜1限、木曜4・5限、金曜4限

科目コード TB3010
学年・期 2年・前期
科目名 環境データ解析の基礎
単位数 2
授業形態 演習
必修・選択 必修
学習時間
前提とする科目
展開科目
関連資格
担当教員名 三中信宏・三瓶真・中島琢自
主題コマシラバス項目内容教材・教具
1 データ解析の第一歩は計算ではない 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第1回では、統計学の第一歩は単なる計算や数式の理解ではなく、データをどのように読み取り、そこから意味ある推論を行うかという「統計的思考」そのものにあることを示す。とくに、数理統計学だけでなく、図やグラフを用いてデータの特徴を見いだすことの重要性を強調し、統計学を「ものの考え方」として捉える視点を示す。

独自教材
『統計学を拓いた異才たち:経験則から科学へ進展した一世紀』( デイヴィッド・サルツブルグ/著 竹内惠行・熊谷悦生/訳),日本経済新聞出版社,504 pp., 2010
コマ主題細目 ① 統計的思考 ② データ可視化 ③ 数理統計学
細目レベル ① 統計的思考とは、単に平均値や分散を計算する技術ではなく、データを通して現象をどのように理解し、そこからどのような推論を導くかという思考の枠組みである。統計学を学び始める学生は、しばしば計算方法や公式に意識が向きがちである。しかし、統計学の本質は数式そのものではなく、「このデータは何を意味しているのか」「どこに傾向があるのか」「偶然と必然をどう見分けるのか」を考える点にある。たとえば、ある植物の成長データを10個集めたとき、ただ平均値を出して終わるのでは不十分である。平均値の周囲にどの程度ばらつきがあるのか、極端に大きい値や小さい値は存在するのか、その差は測定誤差なのか生物学的意味をもつのかを考えなければならない。ここに統計的思考が働く。また、得られた標本データから母集団全体を推測することも統計的思考の重要な要素である。限られた観測結果から一般的な結論を導くには、常に不確実性が伴う。その不確実性を意識しながら合理的に判断する姿勢こそが統計的思考である。羊土社の連載でも、統計学を「ものの考え方」として捉えることが強調されている。
② データ可視化とは、数値データを図やグラフとして表現し、数値だけでは見えにくい傾向や構造を視覚的に理解する方法である。統計解析の第一歩として非常に重要であり、計算より先に行うべき作業である。たとえば、同じ平均値50をもつ2つのデータ群があっても、一方は値が狭い範囲に集中し、他方は大きく散らばっていることがある。数値だけを見ると違いはわからないが、ヒストグラムや箱ひげ図を描けば、その差は一目で理解できる。また、散布図を用いれば、2つの変数の間に正の相関や負の相関があるか、外れ値が存在するかを直感的に把握できる。データ可視化の意義は、単なる見やすさではない。可視化によって初めて、隠れていたパターン、群分け、外れ値、非線形な関係などが発見される。つまり、図を描くことは結果を飾るためではなく、データそのものに語らせるための方法なのである。
③ 数理統計学とは、確率論と数学的理論に基づいて統計的方法を体系化した学問分野である。平均値、分散、標準偏差、回帰分析、仮説検定などの統計手法は、背後に厳密な数学理論をもっている。その理論的基盤を扱うのが数理統計学である。たとえば、標本平均が母平均の推定量として適切である理由は、期待値や分散の性質、標本分布の理論によって説明される。また、正規分布やt分布を用いた検定も、確率分布の数学的性質に支えられている。したがって、数理統計学は統計手法の「なぜそれでよいのか」を保証する学問である。ただし、統計学が数理統計学だけで完結するわけではない。理論を理解することは重要であるが、それ以上に、現実のデータに向き合い、適切な問いを立て、結果を解釈する力が求められる。数理統計学は統計学の骨格であり、その上に統計的思考や可視化が重なって初めて実践的なデータ解析が成立するのである。
キーワード ① 統計的思考 ② データ可視化 ③ 数理統計学
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、統計学の出発点は計算そのものではなく、データをどのように読み取り、そこから意味ある推論を導くかという「統計的思考」にあるという点である。平均値や分散、検定統計量を機械的に計算することは統計学の一部にすぎず、その前提として「何を知りたいのか」「どのようなデータが得られているのか」を考える姿勢が不可欠である。 とくに重要なのは、数値をそのまま眺めるだけでなく、図やグラフを用いてデータを可視化することである。ヒストグラム、箱ひげ図、散布図などを用いれば、平均値だけでは見えないばらつき、外れ値、分布の偏り、変数間の関係性を直感的に理解できる。統計解析では、計算に入る前にまずデータの全体像を視覚的に把握することが基本となる。また、数理統計学の理論は重要であるが、それだけでは現実のデータ解析は十分ではないことも確認したい。理論は「なぜその方法でよいのか」を支える骨格である一方、実際の研究では、生のデータに向き合い、現象の背景を考えながら解釈する力が求められる。したがって、今回の復習では、統計学を計算技術としてではなく、データに基づいて合理的に考える方法として理解することを意識してほしい。

【予習】次回の学習では、データを「見る」とは具体的に何を意味するのかをさらに掘り下げ、データの位置(真ん中)とばらつき(散らばり)をどのように可視化して読み取るかを学ぶことが中心となる。前回、統計学の第一歩は計算ではなく、まずデータを観察し、その特徴を把握することであると確認した。次回はその考え方をさらに発展させ、データのどこに注目すればよいのかを具体的に理解することが重要である。 とくに予習として意識しておきたいのは、データには必ずばらつきが存在するという点である。同じ条件で観察や実験を行っても、得られる値は完全には一致しない。このばらつきこそが統計学において重要な情報源となる。したがって、単に平均値だけを見るのではなく、データ全体の散らばり方や偏り方を視覚的に把握する姿勢をもつことが必要である。 そのために、平均値・中央値・偏差といった基本概念をあらかじめ確認しておくと理解が深まる。平均値はデータ全体の「位置」を示し、偏差は各データがその中心からどれだけ離れているかを示す。次回は、これらをグラフ上でどのように表現し、そこから何を読み取るのかが重要なテーマとなる。箱ひげ図、散布図、インデックス・プロットなどの基本的なグラフ表現にも目を通しておくとよい。 要するに、次回の予習ポイントは、データの中心とばらつきを視覚的に捉える視点をもつことである。数値をただ並べて眺めるのではなく、「どこが真ん中か」「どの程度散らばっているか」を意識してデータを見る準備をしておいてほしい。

2 データの位置とばらつきを可視化しよう 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第2回では、統計解析において最初に重要なのは複雑な計算ではなく、データの位置(中心)とばらつきを可視化して、その特徴を読み取ることについて説明する。平均値や中央値によってデータの「真ん中」を捉え、グラフを通して散らばり方や偏りを直感的に理解することが、後の統計分析の土台となる。また、データをただ受動的に眺めるのではなく、何に注目して読むかという目的意識をもって観察する姿勢が重要である。

独自教材
『確率の出現』(イアン・ハッキング/著 広田すみれ,森元良太/訳),慶應義塾大学出版会,2013
『客観的知識:進化論的アプローチ』(カール・R・ポパー/著 森博/訳),木鐸社,1974
『歴史・レトリック・立証』(カルロ・ギンズブルグ/著 上村忠男/訳),みすず書房,2001
コマ主題細目 ① データの位置 ② データのばらつき ③ 統計的直感
細目レベル ① データの位置とは、データ全体がどのあたりに集まっているかを示す概念であり、統計解析の最も基本的な視点の一つである。簡単に言えば、「このデータ群の中心はどこか」を考えることである。たとえば、学生10人のテスト得点があるとき、その集団の学力水準を一言で表すには、平均値や中央値といった代表値を用いる。これらはデータの「位置」を表す指標である。平均値は、すべての値を足して個数で割ったものであり、全体の重心に相当する。一方、中央値は小さい順に並べたときの中央の値であり、外れ値の影響を受けにくい。たとえば、9人が50点前後で1人だけ100点であれば、平均値はやや高くなるが、中央値は集団の典型的な位置をよりよく示すことがある。データを読む際にはまず「何を見るか」を意識する必要がある。その第一歩が位置の把握である。データを図示したとき、点群がどこに集中しているか、箱ひげ図の中央値がどこにあるかを見ることによって、データの中心的傾向を直感的に理解できる。
② データ可視化とは、数値データを図やグラフとして表現し、数値だけでは見えにくい傾向や構造を視覚的に理解する方法である。統計解析の第一歩として非常に重要であり、計算より先に行うべき作業である。たとえば、同じ平均値50をもつ2つのデータ群があっても、一方は値が狭い範囲に集中し、他方は大きく散らばっていることがある。数値だけを見ると違いはわからないが、ヒストグラムや箱ひげ図を描けば、その差は一目で理解できる。また、散布図を用いれば、2つの変数の間に正の相関や負の相関があるか、外れ値が存在するかを直感的に把握できる。データ可視化の意義は、単なる見やすさではない。可視化によって初めて、隠れていたパターン、群分け、外れ値、非線形な関係などが発見される。つまり、図を描くことは結果を飾るためではなく、データそのものに語らせるための方法なのである。
③ 統計的直感とは、人間が数式による厳密な計算を行う前に、知覚・注意・記憶・経験にもとづいて、データの傾向や規則性を瞬時に感じ取る認知的能力である。心理学的には、これは認知心理学でいう直感的判断やヒューリスティックの働きと深く関係している。 たとえば、散布図を見た瞬間に「右上がりだから正の相関がありそうだ」と感じることがある。あるいは箱ひげ図を見て「こちらの群のほうが散らばりが大きい」と即座に判断できる。これらは、まず計算してから理解しているのではなく、視覚情報を脳がパターンとしてすばやく処理しているのである。認知心理学では、このような迅速で自動的な判断は、しばしばシステム1的思考と呼ばれる。これは意識的努力をほとんど必要とせず、経験則にもとづいて即時に結論を導く。 さらに心理学では、人間は環境の中にある統計的規則性を無意識に学習する能力をもつと考えられている。たとえば、同じようなパターンを繰り返し見ることで、「この形はまとまりがある」「この点だけ離れている」といった特徴を自然に捉えられるようになる。これは知覚心理学における経験にもとづくパターン認識の働きと理解できる。ただし、直感には長所と限界の両方がある。長所は、複雑なデータでも全体像を素早く把握できる点である。一方で、思い込みや先入観による認知バイアスが入りやすい。たとえば、自分が「相関があるはずだ」と信じていると、実際より強い関係を読み取ってしまうことがある。したがって、統計的直感は、心理学的には優れた初期認知装置であるが、必ず後から理論的検証を必要とする判断過程といえる。統計学では、この直観を出発点にしつつ、平均・分散・相関係数・検定へとつなげていくことが重要である。
キーワード ① データの位置 ② データのばらつき ③ 統計的直感
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、統計解析の出発点は計算ではなく、データを「見る」ことにあるという点である。データは必ず何らかのばらつきを含んでおり、このばらつきは単なる誤差ではなく、現象そのものの特徴を映し出している。したがって、平均値や中央値といった代表値によってデータの「位置(中心)」を捉えるとともに、値がどの程度散らばっているかという「ばらつき」を理解することが、統計学の基礎となる。 とくに、同じ平均値をもつデータ群であっても、ばらつきの大きさが異なれば意味は大きく変わることを確認しておきたい。平均だけでは見えない個体差や変動の幅を把握するために、散布図や箱ひげ図などのグラフを用いて視覚化することが重要である。可視化によって、中心の位置、分布の広がり、偏り、外れ値などを直感的に読み取ることができる。これが後に続く数値的な統計解析の足場となる。 また今回強調されたのは、人間が本来もっている認知能力を統計解析に活用することである。データを見たときに傾向や異常値を素早く感じ取る力、すなわち統計的直感は、統計学の重要な入口である。ただし、直感だけに頼るのではなく、その後に理論的・数値的検証を行う姿勢が必要である。つまり、今回の復習ポイントは、データの中心とばらつきを視覚的に把握し、人間の認知能力を活かして全体像を読むことにある。

【予習】次回の学習では、これまで見てきた「データの位置」や「ばらつき」の観察から一歩進み、データの背後にある規則性をどのようにモデルとして表現するかを学ぶことが中心となる。前回までは、散布図や箱ひげ図などを用いてデータの特徴を視覚的に捉えることに重点を置いてきた。第3回では、その可視化されたデータをもとに、「なぜこのような分布になるのか」「変数どうしにどのような関係があるのか」を説明する枠組みとしてモデルという考え方を導入する。とくに予習として意識しておきたいのは、モデルとは現実そのものではなく、現実を理解しやすくするための単純化された説明図式であるという点である。たとえば、基質量が増えれば生成物量も増えるという散布図を見たとき、私たちは自然に「直線的な関係がありそうだ」と考える。このように、観察データから規則性を見いだし、数式や図として表現するのが統計モデルである。本文では、この考え方を一次関数による線形モデルとして説明している。 また、重要なのは、モデルは「真実そのもの」を言い当てるものではなく、その時点で観察されたデータをもっともよく説明する仮説であるという点である。ここには前回学んだ「アブダクション(最もよい説明への推論)」が深く関わっている。したがって予習としては、「モデルとは何を説明するためのものか」「なぜ現実を単純化する必要があるのか」を考えながら学ぶことによりと理解が深まる。 要するに、次回の予習ポイントは、データの背後にある見えない規則性を、人間が仮説としてモデル化する視点をもつことである。

3 データのふるまいをモデル化する 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第2回では、統計解析においてデータをただ観察するだけでなく、その背後にある規則性や関係性を「モデル」として表現することの重要性を説明する。たとえば、散布図から2変数の間に直線的な関係があると考えたとき、直線を意味する線形モデルで表す。ここで重要なのは、モデルは現実そのものではなく、観察データをもっともよく説明するための仮説であるという点である。観測値は「期待される値」と「誤差」から成り立つと考え、データの背後にある本質的な規則性を推論していくことが統計的モデリングの出発点となる。

独自教材
「過去を復元する:最節約原理,進化論,推論」(エリオット・ソーバー/著 三中信宏/訳),勁草書房,2010
コマ主題細目 ① 統計モデル ② 統計的誤差 ③ アブダクション
細目レベル ① 統計モデルとは、現実に観察されたデータの背後にある規則性や構造を、数式や図式を用いて簡潔に表現したものである。現実世界の現象はきわめて複雑であり、そのままでは理解しにくい。そこで統計学では、重要な特徴だけを抜き出して単純化し、データを説明するための枠組みをつくる。この枠組みが統計モデルである。重要なのは、統計モデルは現実そのものではなく、現実を理解するための近似的な説明図式であるという点である。現象を完全に再現するものではなく、観測データの傾向を最もよく説明する仮説として用いられる。したがって、モデルは「正しいか誤っているか」だけでなく、「どの程度うまく説明できているか」という観点で評価される。統計解析とは、このモデルを立て、それがデータにどれだけ適合するかを検討する作業である。
② 統計的誤差とは、観測されたデータが統計モデルによって予測される値からずれる部分を指す。現実のデータには、測定誤差、個体差、環境変動、偶然要因など、さまざまな不確実性が含まれているため、モデルによる予測値と実測値が完全に一致することはほとんどない。この「ずれ」が統計的誤差である。たとえば、同じ条件で10回実験しても、毎回まったく同じ値にはならない。これは実験が失敗しているのではなく、自然界に本来的に存在する変動を反映している。したがって、誤差は単なる「間違い」ではなく、現象の重要な一部である。統計的誤差を理解することは、データ解析の信頼性を評価するうえで不可欠である。誤差が小さければモデルの説明力は高く、誤差が大きければ別の要因やより適切なモデルを考える必要がある。この意味で、誤差はモデルの良し悪しを判断する重要な指標となる。
③ アブダクションとは、観測された事実を最もよく説明できる仮説を推論する思考方法である。アメリカの哲学者チャールズ・サンダース・パースが提唱した概念であり、日本語では「最良説明への推論」とも呼ばれる。統計学においては、複数のモデル候補の中から、データを最も自然に説明できるモデルを選ぶ際の基本的な考え方となる。たとえば、散布図を見たときに点が右上がりに並んでいれば、「2つの変数には正の線形関係があるのではないか」と考える。このとき、私たちはまだ証明しているわけではなく、観察されたパターンを最もよく説明する仮説を立てている。これがアブダクションである。これは演繹法や帰納法とは異なる。演繹法は一般法則から個別事例を導き、帰納法は複数事例から一般法則を導く。一方アブダクションは、「この事実を説明するにはどの仮説がもっとも妥当か」を考える推論である。統計モデリングでは、まさにこの思考が中心となる。複数のモデルの中から、最も単純で、かつデータをよく説明するものを選ぶ。この際にオッカムの剃刀、すなわち最節約原理も重要となる。統計学は単なる計算ではなく、仮説を立てて検証する思考の学問であることを理解してほしい。
キーワード ① 統計モデル ② 統計的誤差 ③ アブダクション
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、統計解析とは、観察されたデータの背後にある規則性を「モデル」として捉える作業であるという点である。前回までは、データの位置やばらつきを可視化して特徴を読み取ることに重点を置いてきたが、今回はさらに一歩進み、その特徴を説明するための枠組みとして統計モデルの考え方を学んだ。統計モデルとは、現実の複雑な現象を単純化し、数式や図として表現した説明図式であり、現実そのものではなく、それを理解するための仮説である。たとえば、2変数の関係を一次関数で表す線形モデルは、その代表例である。ここで重要なのは、誤差を単なる間違いと捉えないことである。統計的誤差とは、測定誤差や個体差、環境要因などによる自然な変動を含んだものであり、現実のデータには必ず存在する。この誤差を理解することによって、モデルがどの程度現実を説明しているかを評価できる。さらに、複数の仮説の中から最も妥当な説明を選ぶ「アブダクション(最良説明への推論)」も重要な復習ポイントである。散布図やグラフを見て「この関係は直線で説明できそうだ」と考える思考そのものがアブダクションである。統計学は単なる計算技術ではなく、データに対して仮説を立て、それを検証する科学的思考法であることを改めて確認してほしい。

【予習】次回は、第1回から第3回までに学んだ統計学の基本的な考え方を総合的に振り返る回である。したがって予習として最も重要なのは、これまでの各回がどのようにつながっているかを一本の流れとして整理しておくことである。第1回では、統計学の出発点は単なる計算ではなく、データから意味ある推論を導く「統計的思考」にあることを学んだ。平均値や分散の公式を覚える前に、まずデータから何を読み取るべきかを考える姿勢が重要であった。第2回では、その統計的思考を具体化する方法として、データの位置(中心)とばらつきを可視化することを学んだ。平均値・中央値・箱ひげ図・散布図などを通じて、数値だけでは見えない傾向や変動を視覚的に理解する視点を身につけた。ここでは、人間の認知能力を活かした統計的直観も重要なテーマであった。第3回では、可視化されたデータの背後にある規則性を、統計モデルとして表現する考え方を学んだ。現象を単純化したモデルを立て、観測値を「期待値+誤差」として捉えること、さらに複数の仮説の中から最も妥当な説明を選ぶアブダクションの考え方が重要であった。したがって予習としては、①考える(統計的思考)→②見る(可視化)→③説明する(モデル化)という3段階の流れを意識して復習しておくことが重要である。この流れを理解しておくと、次回の総括で統計学の全体像がより明確になるである。

4 統計データ解析の基本[踊り場回] 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第4回は、第1〜3回を振り返る踊り場回である。

独自教材
コマ主題細目 ① 統計的思考 ② データ可視化 ③ 統計モデル
細目レベル ① 統計的思考とは、単に数値を計算する技術ではなく、データを手がかりに現象の背後にある規則性や意味を読み取り、合理的に推論するための考え方である。統計学を学び始めると、多くの学生は平均値、分散、標準偏差、検定などの計算方法に注意を向けがちである。しかし、統計学の本質は公式の暗記ではなく、「このデータは何を示しているのか」「この差は偶然なのか、それとも意味のある違いなのか」を考える姿勢にある。たとえば、植物の成長データを観察したとき、単に平均値を求めるだけでは不十分である。どの程度ばらついているのか、外れ値があるのか、環境条件との関係はどうか、といった問いを立てながらデータを読む必要がある。ここで重要なのは、データをただ受け身で見るのではなく、仮説や問題意識をもって能動的に考えることである。統計的思考は、限られた標本データから母集団全体を推測するという、不確実性を前提とした思考でもある。すべてを完全に知ることはできないからこそ、データに基づいてもっとも妥当な結論を導く。この「不確実な中で合理的に判断する力」こそが統計的思考の核心であり、統計学のすべての土台となる。
② データ可視化とは、数値データを図やグラフとして表現し、数値だけでは把握しにくい傾向や構造を視覚的に理解する方法である。統計解析において、可視化は計算よりも先に行うべき重要な作業である。なぜなら、人間の視覚はパターン認識に非常に優れており、グラフを見ることでデータの特徴を瞬時に把握できるからである。たとえば、同じ平均値をもつ2つのデータ群でも、一方は値が狭い範囲に集中し、他方は広く散らばっていることがある。数値だけではその違いを見落としやすいが、ヒストグラムや箱ひげ図を描けば、その差は一目で理解できる。また、散布図を用いれば、2変数間に正の相関や負の相関があるか、あるいは外れ値が存在するかを視覚的に把握できる。可視化の目的は、見た目を整えることではなく、データそのものに語らせることである。まず図を描き、データの全体像をつかむことが重視される。データ可視化は、統計的直観を働かせ、次にどのような解析を行うべきかを考えるための出発点である。
③ 統計モデルとは、観測されたデータの背後にある規則性や構造を、数式や図式によって表現した現象の説明モデルである。現実世界のデータは複雑であり、そのままでは理解しにくい。そこで、重要な特徴を抽出して単純化し、理解しやすい形に表したものが統計モデルである。たとえば、肥料量 X が増えると植物の成長量 Y が増えると考える場合、その関係を「Y=aX+b」のような一次関数で表すことができる。これは最も基本的な線形モデルであり、データの背後にある規則性を簡潔に示している。重要なのは、統計モデルは現実そのものではなく、現実を理解するための仮説的枠組みであるという点である。観測値は一般に規則的な部分(期待値)と偶然変動(誤差)に分けて理解される。
キーワード ① 統計モデル ② 統計的誤差 ③ アブダクション
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】第1回から第3回までの学習を通じて、統計学の基本的な流れは 「考える → 見る → 説明する」 という三段階で整理できることを確認しておきたい。まず第1回では、統計学とは単なる計算技術ではなく、データから意味ある推論を導くための統計的思考であることを学んだ。平均値や分散の公式を機械的に用いるのではなく、「このデータは何を示しているのか」「どのような問いに答えたいのか」を考える姿勢が出発点である。第2回では、その思考を具体化する方法としてデータ可視化を学んだ。平均値・中央値によってデータの位置(中心)を捉え、ばらつきや外れ値を箱ひげ図や散布図によって視覚的に理解することが重要である。数値だけでは見落としやすい特徴も、図にすることで全体像が直感的に把握できる。ここでは、人間の認知能力を活かした統計的直観も重要な役割を果たす。第3回では、可視化されたデータの背後にある規則性を統計モデルとして表現する考え方を学んだ。ここで重要なのは、モデルは現実そのものではなく、現実を理解するための仮説であるという点である。したがって今回の復習ポイントは、統計学を「計算の学問」ではなく、「データに基づいて考え、観察し、説明する思考の学問」として理解することにある。この全体像を意識して、次回以降の学習につなげてほしい。

【予習】次回の実習では、Windows環境にRStudio をインストールし、基本的な操作を学ぶ。予習として最も重要なのは、R と RStudio は別のソフトであり、順番に導入する必要があることを理解しておくことである。Rは統計計算を行う本体ソフトであり、RStudioはそれを使いやすく操作するための画面環境である。したがって、まずR本体をインストールした後にRStudioを導入する流れになる。Windowsでは、まず公式サイトから64bit版のRをダウンロードし、標準設定のままインストールすればよい。続いて、RStudio Desktop をダウンロードしてインストールする。初学者はここで両者を混同しやすいため、R=エンジン、RStudio=運転席という関係をあらかじめ理解しておくことが重要である。また、実習前にWindowsの基本操作も確認しておきたい。ダウンロードしたファイル(.exe)を開く方法、保存先フォルダの確認、デスクトップやスタートメニューからアプリを起動する方法を把握しておくと、授業が円滑に進む。とくにセキュリティ警告画面が表示された場合に「実行」を選択する場面があることも想定しておくとよい。さらに、初回起動後は画面の4領域、すなわちスクリプト、コンソール、Environment、Plots の役割を予習しておくと理解が深まる。次回はここで簡単な計算やグラフ作成を行うため、インストール → 起動 → 入力 → 実行 → 保存の流れを意識しておくことが大切である。

5 RStudioをインストールする——Rプログラミングの統合環境として 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第5回は、統計データ解析に広く用いられているプログラミング言語 R の統合開発環境である RStudio をインストールし、基本的な使い方を学ぶことを目的とする。Rは統計解析やデータ可視化に特化した言語であり、生物統計学、環境データ解析、社会調査、機械学習など幅広い分野で活用されている。そのRをより効率的に操作するための環境がRStudioであり、R を使って「計算する・図を描く・結果を保存する」を一つの画面で行う学習環境である。

独自教材
コマ主題細目 ① RStudioとは ② Rプログラミング ③ 統合開発環境
細目レベル ① RStudio とは、統計解析用プログラミング言語 R を使いやすく操作するためのソフトウェアである。Rそのものが計算や統計処理を行う「エンジン」だとすれば、RStudioはそのエンジンを動かすための「運転席」にあたる。Rだけでも計算は可能であるが、初学者にとっては画面がわかりにくく、どこに何を入力すればよいか迷いやすい。その点、RStudioは一つの画面の中に、プログラムを書く場所、結果を確認する場所、データを見る場所、グラフを表示する場所が整理されており、非常に学びやすい環境となっている。画面は主に4つの領域に分かれている。左上にはコードを書くスクリプト画面、左下にはすぐに命令を実行するコンソール、右上には変数やデータセットを確認する環境画面、右下にはグラフやファイルを表示する画面がある。この構成により、入力・実行・確認・保存を一連の流れで行うことができる。重要なのは、RStudioを「難しいプログラム専用ソフト」と考えないことである。むしろ、Excelで行っていた計算やグラフ作成を、より再現性高く、より高度に行える学習環境である。統計学・生物学・環境データ解析において、今後の学習の土台となるソフトウェアである。
② R プログラミングとは、Rという言語を使って、コンピュータに計算や統計解析の命令を与えることである。大学1年生にとって「プログラミング」という言葉は難しく感じられるかもしれないが、基本はコンピュータへの指示を書くだけである。たとえば、平均値を求めたいときには「mean(c(10, 20, 30))」のように入力する。これは「10、20、30の平均を計算せよ」という命令文である。つまり、Rプログラミングとは、数学の問題をコンピュータに解かせるための文章を書く作業である。Rの大きな特徴は、統計解析に特化していることである。平均値、分散、標準偏差、回帰分析、グラフ作成などが非常に簡単な命令で実行できる。たとえば散布図なら「plot(x, y)」という1行で描ける。また、同じプログラムを保存しておけば、後で何度でも再利用できる点が重要である。Excelで毎回手作業を繰り返すのとは異なり、Rでは一度書いたコードをそのまま再実行できる。これにより、再現性の高いデータ解析が可能になる。Rプログラミングを学ぶことは、単なるソフト操作ではなく、データを論理的に扱う力を身につけることでもある。
③ 統合開発環境とは、プログラムを書く・実行する・結果を見る・保存するという一連の作業を、一つのソフトウェア上でまとめて行える環境のことである。RStudio は、R の代表的な統合開発環境である。もし統合開発環境がなければ、コードを書くソフト、計算を実行するソフト、グラフを見るソフトを別々に使わなければならず、学習効率が悪くなる。統合開発環境はそれらを一つにまとめているため、初心者にとって非常に扱いやすい。たとえば、左上でコードを書き、そのコードをすぐ左下で実行し、右下でグラフを見ることができる。さらに右上で変数の中身を確認できる。このように、一連の流れが一画面で完結するのが統合開発環境Eの利点である。「統合開発環境」という言葉自体を覚えるよりも、学習しやすい作業机のようなものと理解するとよい。机の上にノート、計算機、資料、グラフ用紙が整然と並んでいる状態を想像するとわかりやすい。RStudioはまさにそのデジタル版であり、データ解析のための作業机なのである。
キーワード ① RStudio ② Rプログラミング ③ 統合開発環境
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、RStudio を単なるソフトウェアとしてではなく、**データ解析のための学習環境(作業机)**として理解することである。R が統計計算を行うエンジンであるのに対し、RStudioはそのRを使いやすく操作するための統合開発環境である。まずこの両者の役割の違いを明確にしておきたい。復習として確認すべき第一の点は、画面構成である。左上のスクリプト画面はプログラムを書く場所、左下のコンソールは命令をすぐ実行して結果を確認する場所である。右上のEnvironmentでは作成した変数やデータセットを確認でき、右下のPlots / Filesではグラフや保存ファイルを表示できる。この4つの役割を理解しておくことが、今後の実習の基礎となる。第二に、簡単な命令文を自分で入力して実行できるようにしておくことが重要である。たとえば平均値を求めたり簡単なグラフを描くスクリプトは自力で再現できるように復習してほしい。第三に、コードをスクリプトとして保存する習慣を身につけることである。コンソールに直接入力した内容は一時的であるが、スクリプトとして保存しておけば、次回以降も同じ解析を再利用できる。これは再現性の高い統計解析の基本である。要するに今回の復習ポイントは、RStudioの画面構成を理解し、基本的な入力・実行・保存の流れを自分で再現できるようにすることである。これが今後の統計実習の土台となる。

【予習】次回からは、これまで学んできた統計的思考・データ可視化・統計モデルを土台として、いよいよ推定と検定という統計学の中心的な方法へ進む。予習として最も重要なのは、これらが単なる計算手順ではなく、限られた標本データから母集団について合理的に推論する方法であると理解しておくことである。まず「推定」とは、標本から得られた情報をもとに、母平均や母分散など、直接観測できない母集団の特徴を推し量る方法である。たとえば、学生10人の身長データから学科全体の平均身長を推測する場合がこれにあたる。ここでは、標本平均が母平均の推定値として用いられる。一方「検定」とは、ある仮説がデータによって支持されるかどうかを判断する方法である。たとえば、「新しい肥料は従来の肥料より成長量を増やす」という仮説が本当に成り立つかを、実験データにもとづいて評価する。ここで重要なのは、絶対的な証明ではなく、偶然にその結果が起こる可能性がどの程度低いかを考える点である。予習としては、これまで学んだ「観測値=期待値+誤差」という統計モデルの基本となる考え方を思い出しておくとよい。推定も検定も、この誤差やばらつきを前提として成り立っている。したがって、「標本は必ずばらつく」「その中でどのように母集団を推測するか」という視点を意識して予習しておいてほしい。要するに、次回のポイントは、不確実なデータからどのように合理的な結論を導くかという統計学の核心に入る準備をすることである。

6 パラメトリック統計学への登り道① ─ばらつきを数値化する 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第5回は、これまで視覚的に捉えてきたデータのばらつきを、数値としてどのように表現するかが中心テーマである。統計学において、データから合理的な推論を行うためには、単に「散らばっている」と感じるだけでなく、その散らばりの大きさを定量化する必要がある。 まず、データの中心を表す指標として平均値を用い、各データがその平均からどれだけ離れているかを偏差で表す。ところが、偏差をそのまま足し合わせると、正の値と負の値が打ち消し合い、常に0になってしまう。そのため、ばらつきの大きさを測るには適さない。 そこで導入されるのが、偏差を二乗してから合計する「偏差平方和」である。偏差を二乗することで値は必ず0以上となり、平均から遠いデータほど大きく寄与するため、ばらつきの大きさを数値的に表すことができる。これはパラメトリック統計学の重要な基礎概念であり、のちに登場する分散や標準偏差へとつながる。 今回の核心は、視覚的に感じていたばらつきを、平方和という数値で定量化する第一歩を学ぶことにある。

独自教材
コマ主題細目 ① 平均 ② 偏差 ③ 偏差平方和
細目レベル ① 平均とは、データ全体の中心的位置を表す最も基本的な代表値である。統計学では、複数の観測値を一つの数値で要約するとき、まず平均を考える。たとえば、5人のテスト得点が 60, 70, 80, 90, 100 点であれば、その平均は、これらを合計して人数で割ることで求められる。平均の重要な特徴は、単に「真ん中の値」というだけでなく、データ全体の重心を示している点にある。物理学でいえば、棒の上に重りを並べたときに釣り合う支点の位置に相当する。したがって、平均はデータ全体を代表する中心値として広く用いられる。ただし、平均には注意点もある。極端に大きい値や小さい値、すなわち外れ値の影響を受けやすいことである。たとえば、9人が50点前後で1人だけ100点であれば、平均はやや高くなる。このため、場合によっては中央値と比較しながら解釈する必要がある。統計学では、平均はばらつきを測る基準点としても重要である。偏差や分散、標準偏差などの多くの統計量は、この平均を中心に定義される。したがって、平均は統計解析の最初の出発点であり、後続の概念を理解する基盤である。
② 偏差とは、各データが平均からどれだけ離れているかを示す量である。ある観測値に対して、その偏差は「観測値−平均値」で表される。たとえば、データが 60, 70, 80 で平均が 70 なら、それぞれの偏差は -10, 0, 10 となる。つまり、平均より小さい値は負、大きい値は正として表される。このように偏差を見ることで、各データが中心からどの方向にどれだけ離れているかがわかる。偏差の重要な性質は総和が必ず0になることである。これは平均がデータの重心であることを数学的に示している。しかし、この性質があるために、個々のデータの偏差をそのまま足し合わせても、データ全体のばらつきの大きさを測ることはできない。たとえば、偏差が -10 と 10 であれば、実際には大きく散らばっているにもかかわらず、和は0になってしまう。したがって、偏差は各データの位置を理解するには有用であるが、ばらつき全体を数値化するには工夫が必要である。この問題を解決するために導入されるのが偏差平方和である。
③ 偏差平方和(「平方和」と呼ばれる)とは、各データの偏差を二乗して合計した値であり、データのばらつきの大きさを数値化する基本的な統計量である。偏差をそのまま足し合わせると必ず0になってしまうため、データ全体のばらつきを測ることができない。そこで、偏差を二乗することで、すべての値を正に変換し、打ち消し合いを防ぐ。この結果、平均から離れた値ほど大きく寄与することになり、ばらつきの大きさを適切に表現できる。たとえば、偏差が -10, 0, 10 であれば、その平方は 100, 0, 100 となり、偏差平方和は 200 となる。これにより、データが平均からどれだけ散らばっているかを数量的に示せる。偏差平方和は、分散や標準偏差を理解するための土台である。分散は、この偏差平方和をデータ数(または自由度)で割ったものであり、標準偏差はその平方根である。したがって、偏差平方和は単独でも重要であるが、統計学全体において極めて中心的な概念である。今回の学習では、感覚的に見ていた「ばらつき」を数式として捉える第一歩として、この概念を確実に理解しておくことが重要である。
キーワード ① 平均 ② 偏差 ③ 偏差平方和
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、これまで視覚的に捉えてきたデータのばらつきを、数値として定量化する方法を理解することである。第1〜3回では、統計的思考、データ可視化、統計モデルの基本を学び、データの特徴を視覚的・概念的に捉えてきた。今回はその延長として、ばらつきを数学的に表現する基礎を学んだ。まず、データの中心を示す代表値として平均を確認した。平均はデータ全体の重心にあたり、各データがどの位置にあるかを考える基準点となる。次に、各観測値が平均からどれだけ離れているかを示す量として偏差を学んだ。偏差は「データ−平均値」で表され、平均より小さい値は負、大きい値は正となる。しかし、偏差をそのまま合計すると正負が打ち消し合い、必ず0になるため、ばらつきの大きさそのものを表すことはできない。そこで重要になるのが偏差平方和である。これは偏差を二乗して合計したものである。二乗することで負の値が消え、平均から遠いデータほど大きく寄与するため、ばらつきの大きさを適切に数値化できる。今回の復習ポイントは、平均を基準に偏差を考え、その偏差平方和によってばらつきを定量化する流れを理解することである。この考え方は、次回以降に学ぶ分散・標準偏差・自由度・推定・検定のすべての基礎となる。したがって、式の形だけでなく、「なぜ二乗するのか」「なぜ平均を基準にするのか」という意味まで理解しておくことが重要である。

【予習】次回は、今回学んだ偏差平方和を基礎として、いよいよ分散と標準偏差という統計学の基本指標を学ぶ回である。予習として最も重要なのは、前回の偏差平方和が「ばらつきの総量」を表していたことを思い出し、それをデータ数に応じて比較可能な尺度へ変換するという発想を理解しておくことである。たとえば、10個のデータから得られた偏差平方和が100であった場合と、100個のデータから得られた偏差平方和が100であった場合では、ばらつきの意味は同じではない。データ数が異なれば、単純な合計値だけでは比較しにくい。そこで偏差平方和をデータ数(あるいは自由度)で割ることで、1データあたりの平均的なばらつきを表す指標として分散が導入される。さらに、分散は偏差を二乗しているため、元のデータの単位が失われる。たとえば身長(cm)の分散は cm² となる。このため、元の尺度でばらつきを直感的に理解するために、分散の平方根として標準偏差が用いられる。予習としては、平均・偏差・偏差平方和の意味を復習し、「なぜ割るのか」「なぜ平方根をとるのか」を考えておくことが重要である。次回は、ばらつきを視覚的な印象から数値的な尺度へと結びつける、統計学の中核部分に入る。

7 パラメトリック統計学への登り道② ―自由度とは何か 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第7回は、前回学んだ偏差平方和をさらに発展させ、自由度という概念を通して、ばらつきをより公平に比較する方法が説明されている。前回、偏差平方和によってデータ全体のばらつきを数値化できることを学んだが、その値はデータ数の影響を強く受けるという問題がある。たとえば、データ数が多い集団では、個々の偏差が小さくても総和としての平方和は大きくなりやすく、逆にデータ数が少ない集団では見かけ上ばらつきが大きくても平方和が小さくなることがある。 この問題を解決するために、平方和を単にデータ数 n で割るのではなく、 n-1 で割るという考え方が導入される。これが自由度である。シミュレーション結果からも、平方和を n で割ると真のばらつきを過小評価しやすいのに対し、n-1 で割ると真値に近い推定が得られることが示されている。ここで自由度とは、平均値をすでに用いているために、データのうち最後の1つは他の値によって自動的に決まってしまい、「自由に動かせる値の数」が1つ減るという意味である。これにより、推測統計学において妥当なばらつきの尺度である分散へとつながっていく。つまり今回の核心は、平方和を自由度で補正することで、データ数に依存しない公平なばらつき比較が可能になるという点にある。

独自教材
コマ主題細目 ① 自由度 ② データサイズ補正 ③ 推測統計学
細目レベル ① 自由度とは、データの中で自由に変えることのできる値の数を意味する概念である。統計学では、ばらつきを考えるときに非常に重要な考え方であるが、最初は少し抽象的に感じられるかもしれない。そこで、具体例で考えてみる。たとえば、5人のテストの点数があり、その平均点が70点だとすでに決まっているとする。このとき最初の4人の点数を自由に決めることはできる。しかし、最後の1人の点数は、平均が70点になるように自動的に決まってしまう。つまり、5人分のデータがあっても、実際に自由に動かせるのは4人分だけである。この「自由に決められる数」が自由度である。なぜこの考え方が大切なのかというと、平均値を使った時点で、データにはすでに一つの条件が加わっているからである。条件が一つ増えると、その分だけ自由に動かせる範囲が狭くなる。統計学では、この見えない制約をきちんと考慮しないと、ばらつきを正しく評価できない。自由度は、分散、標準偏差、t検定など、今後学ぶ多くの統計手法の基礎にある。したがって、自由度とは「データの見かけの数」ではなく、実際に自由に動かせる情報量の大きさであると理解しておくことが重要である。
② データサイズ補正とは、データの個数が異なる集団どうしを比較するときに、個数の違いによる見かけの差を取り除いて公平に比較するための考え方である。たとえば、10人のクラスと100人のクラスでテストのばらつきを比べる場合を考える。人数が多いクラスでは、それだけデータの合計的なばらつきも大きくなりやすい。逆に人数が少ないクラスでは、ばらつきの総量は小さく見えることがある。しかし、それだけで「こちらのクラスのほうが安定している」と結論づけるのは適切ではない。ここで必要になるのがデータサイズ補正である。つまり、ばらつきの総量をそのまま比べるのではなく、人数の違いを考慮して、一人あたり平均的にどの程度散らばっているかを見るのである。これは日常生活でも同じである。たとえば、売上総額だけを見て店舗を比較すると、大規模店のほうが大きく見えるのは当然である。しかし、1日あたり、あるいは1人の客あたりで比較すると、より公平な評価ができる。統計学におけるデータサイズ補正もこれと同じ発想である。この補正を理解することで、データ数の違いに惑わされず、本質的なばらつきや傾向を読み取ることができる。
③ 推測統計学とは、限られた一部のデータから全体の特徴を推し量るための統計学である。現実には、集団全体を完全に調べることは難しい場合が多い。たとえば、日本全国の大学生全員の平均身長を知りたいとしても、全員を測定するのは現実的ではない。そこで、ある程度の人数を選んで調査し、その結果から全体を推測する。この考え方が推測統計学である。つまり、一部を調べて全体を考える学問である。ここで重要なのは、標本として選んだデータには必ず偶然のばらつきが含まれるという点である。同じ条件で別の学生を選べば、少し異なる平均値になるかもしれない。したがって、推測統計学では、その不確実性を前提にして「どの程度信頼できるか」を考える。たとえば、新しい肥料が植物の成長を促進するかを知りたい場合、すべての植物を調べることはできない。そこで一部を実験し、その結果から全体に当てはまるかどうかを考える。これが検定や推定の基本である。要するに推測統計学とは、部分から全体を合理的に推論する方法であり、科学研究や社会調査の中心的な考え方である。
キーワード ① 自由度 ② データサイズ補正 ③ 推測統計学
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、データのばらつきを公平に比較するためには、単に値の散らばりを見るだけでなく、データ数と自由度を考慮する必要があるという点である。前回は偏差平方和によってばらつきの総量を数値化したが、その値はデータの個数が増えるほど大きくなりやすい。したがって、そのままでは異なるサイズのデータ集団を適切に比較することができない。ここで重要になるのがデータサイズ補正である。データ数の違いによる見かけ上の差を取り除き、一つひとつのデータが平均的にどの程度ばらついているかを考えることで、より公平な比較が可能になる。これは統計学において、総量ではなく「平均的なばらつき」を考える発想である。さらに今回の核心は自由度の理解にある。平均値を用いてデータの中心を決めた時点で、データのうち最後の一つは他の値によって自動的に決まってしまう。そのため、見かけのデータ数よりも、実際に自由に動かせる情報量は1つ少なくなる。この「自由に変えられる数」が自由度である。自由度を考慮することによって、ばらつきを過小評価せず、より妥当な統計量を得ることができる。また、この考え方は今後学ぶ推測統計学の基礎となる。一部の標本データから全体を推測する際には、標本のもつ偶然変動を適切に見積もる必要がある。そのためにも自由度と補正の考え方を確実に理解しておくことが重要である。今回の復習ポイントは、見かけのデータ数ではなく、実際に使える情報量を意識してばらつきを評価することにある。

【予習】次回は、これまで学んできた平均・分散・自由度といった記述統計の基礎から一歩進み、推測統計学の土台となる確率変数と確率分布を学ぶ重要な回である。予習として最も大切なのは、「実際に得られたデータ」だけでなく、まだ観測していない未知のデータのふるまいを考える視点をもつことである。たとえばコイン投げを考えると、1回ごとの結果は偶然に左右される。しかし、何回も繰り返すと「表が出る回数」には一定の規則性が見えてくる。このように、偶然に見える現象の背後にある規則を数量的に表したものが確率分布である。次回は、こうした規則性を数式だけでなく、グラフやイメージとして理解することが重要になる。また、これまでの回では、観測された標本データの平均やばらつきを扱ってきた。次回からは、それらの標本がどのような母集団から生じてきたのか、つまり母集団のふるまいをモデル化する考え方へと進む。そのためには、「偶然性」と「規則性」は対立するものではなく、むしろ偶然の中に一定の法則が存在するという統計学的発想を理解しておくことが大切である。予習としては、コイン投げ、サイコロ、くじ引きなど、日常的な確率現象を思い浮かべ、「起こりうる結果」と「その起こりやすさ」を考えてみると理解が深まる。要するに次回は、偶然を数学的に捉え、未知の母集団を考える入口となる回である。

8 確率変数と確率分布をもって山門をくぐる 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第8回は、これまで学んできた平均・分散・自由度といった記述統計の基礎を踏まえ、いよいよパラメトリック統計学の入口として、確率変数と確率分布の考え方が導入される。ここで重要なのは、私たちが実際に手にしているのは標本データにすぎず、その背後にある母集団そのものは未知であるという点である。統計学は、この既知の標本から未知の母集団を推論する学問であり、そのために偶然のふるまいを数理的に表現する必要がある。 コインを何回か投げたとき、表が何回出るかは偶然に左右されるが、その偶然にも一定の規則性がある。たとえば、回数を重ねると中央付近の回数が起こりやすく、極端に偏った結果は起こりにくい。この「起こりやすさの規則」を数量的に表したものが確率分布である。コイン投げ1回の場合はベルヌーイ分布、複数回の場合は二項分布として整理される。また、起こりうる結果を数値として表した変数を確率変数という。たとえば「表の回数」は典型的な確率変数である。これにより、現実世界の偶然現象を数学的にモデル化し、未知の母集団の特徴を推定するための土台が整う。今回の核心は、偶然を単なる不規則さとしてではなく、規則性をもった数量的対象として捉える視点を身につけることにある。

独自教材
『数値と客観性:科学と社会における信頼の獲得』(セオドア・M・ポーター/著 藤垣裕子/訳)みすず書房,2013
『確率の出現』(イアン・ハッキング/著 広田すみれ,森元良太/訳),慶應義塾大学出版会,2013
コマ主題細目 ① 確率変数 ② 確率分布 ③ 母集団 ④ ベルヌーイ分布 ⑤ 二項分布
細目レベル ① 確率変数とは、偶然によって値が決まる数量的な変数のことである。通常の変数は、決まった値を入れれば決まった結果が得られるが、確率変数は結果が事前には確定しない点が特徴である。たとえばコインを1回投げると、表が出るか裏が出るかは投げる前にはわからない。しかし、結果を数値で表すことはできる。たとえば表を1、裏を0とすれば、コイン投げの結果は0か1のどちらかの値をとる変数になる。これが確率変数である。重要なのは、値そのものよりも「どの値をとる可能性があるか」と「その起こりやすさ」を考えることである。たとえばサイコロであれば、1から6までの値をとる可能性がある。このように、偶然の結果を数学的に扱える形に変換したものが確率変数である。統計学では、現実世界の不確実な現象をこの形で扱う。たとえば、ある植物の発芽数、患者の回復人数、アンケートで賛成した人数なども確率変数として表せる。つまり、偶然に左右される現象を数として扱う入口が確率変数である。
② 確率分布とは、確率変数がどの値をどのくらいの確率でとるかを示した規則である。たとえばコイン投げでは、表と裏がそれぞれ半分の確率で起こると考える。この「どの結果がどの程度起こりやすいか」をまとめたものが確率分布である。たとえばサイコロなら、1から6のどの目も同じ確率で出る。このように、それぞれの値に対して起こる確率を対応させた表やグラフが確率分布である。重要なのは、確率分布によって偶然の現象にも規則性が見えることである。一回一回の結果は偶然でも、何度も繰り返せば全体として一定のパターンが現れる。たとえばコインを100回投げると、表はおよそ50回前後になることが多い。この規則性を数学的に記述するのが確率分布である。統計学では、標本データの背後にどのような分布があるかを考えることで、母集団の特徴を推測していく。つまり確率分布は、推測統計学の土台となる最重要概念である。
③ 母集団とは、調べたい対象全体の集まりを意味する。たとえば全国の大学一年生の平均身長を知りたい場合、全国の大学一年生全員が母集団である。現実には、母集団全体を調べることは難しいことが多い。そのため、一部を取り出して調査する。この取り出した一部を標本という。統計学では、この標本から母集団の特徴を推測する。重要なのは、私たちが直接手にしているのは標本であり、母集団そのものは見えていないことである。したがって統計学では、「この標本はどのような母集団から来たのか」を考えることが中心になる。たとえば10人の学生の身長を測った結果から、学科全体の平均身長を推定するのが典型例である。つまり母集団とは、統計学が最終的に知ろうとしている「全体像」である。
④ ベルヌーイ分布とは、結果が2通りしかない試行を表す最も基本的な確率分布である。たとえばコイン投げでは表か裏、試験では合格か不合格、アンケートでは賛成か反対などである。この分布の特徴は、「成功」と「失敗」の2値だけを扱うことである。たとえば成功を1、失敗を0として表す。1回だけの試行を扱うので、非常に基本的なモデルである。ベルヌーイ分布は、より複雑な分布を理解する土台になる。たとえばコイン投げを複数回行った場合は、ベルヌーイ分布を積み重ねた二項分布へと発展する。
⑤ 二項分布とは、同じベルヌーイ試行を複数回繰り返したときの成功回数の分布である。たとえばコインを10回投げたとき、表が何回出るかを考えるのが典型例である。1回ごとの結果は偶然であるが、10回全体でみると、表が5回前後になることが最も起こりやすい。逆に0回や10回のような極端な結果は起こりにくい。このような回数の分布を表したものが二項分布である。二項分布は、実験や調査で非常によく使われる。たとえば100人中何人が賛成したか、20個の種子のうち何個が発芽したかなど、多くの現象を説明できる。
キーワード ① 確率変数 ② 確率分布 ③ 母集団 ④ ベルヌーイ分布 ⑤ 二項分布
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、偶然に見える現象にも一定の規則性があるという統計学の基本的な考え方を理解することである。これまでの回では、平均・分散・自由度など、すでに得られた標本データの特徴を記述する方法を学んできた。今回はそこから一歩進み、まだ観測していないデータや未知の母集団のふるまいを考えるための基礎として、確率変数と確率分布を学んだ。まず、確率変数とは、偶然によって値が決まる数量的な変数である。コイン投げの表・裏やサイコロの出目のように、結果は事前には決まらないが、数値として表現できる。この考え方によって、現実の不確実な現象を数学的に扱えるようになる。次に、確率分布とは、その確率変数がどの値をどの程度の確率でとるかを示す規則である。1回ごとの結果は偶然であっても、試行を繰り返すと一定の傾向が見えてくる。たとえばコインを何度も投げると、表の回数は中央付近に集まりやすい。このような規則性を数量的に表したものが確率分布である。また、標本の背後に存在する未知の全体集団を母集団として捉える視点も重要である。統計学では、手元の標本から母集団の特徴を推測することが目的となる。今回の復習ポイントは、偶然と規則性は対立するものではなく、偶然の中にも数学的な法則が存在することを理解することである。これが次回以降の正規分布、推定、検定へとつながる重要な基礎となる。

【予習】次回は、確率分布の中でも統計学でもっとも重要な正規分布を学ぶ回である。予習として最も大切なのは、前回学んだ「確率分布」が、さまざまな形をとりうる中で、現実の多くのデータが中央に集まり、左右にゆるやかに広がる山型の形を示すことを意識しておくことである。たとえば、人の身長、テストの点数、測定誤差など、多くの自然現象では、極端に大きい値や小さい値は少なく、平均付近の値が多く観測される。このような分布の典型例が正規分布である。グラフにすると、左右対称の釣鐘型(ベル型)の曲線になる。正規分布を理解するうえで重要なのは、平均値とばらつき(標準偏差)によって分布の形が決まるという点である。平均値は山の中心の位置を決め、標準偏差は山の広がり具合を決める。つまり、これまで学んできた平均・分散・標準偏差が、ここで確率分布の形そのものに結びついてくる。また、正規分布は単なる理論上の形ではなく、標本平均の分布や検定統計量の基礎にもなる。今後学ぶ推定や仮説検定では、この正規分布の考え方が中心となるため、非常に重要な回である。予習としては、身長分布やテスト点数のヒストグラムを思い浮かべ、「なぜ中央に集まりやすいのか」「極端な値はなぜ少ないのか」を考えておくと理解が深まる。次回は、偶然現象の中に現れる最も基本的な規則性を学ぶ重要な節目である。

9 正規分布という王様が誕生する 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第9回は、統計学において最も重要な確率分布である正規分布がどのように誕生し、なぜ「王様」と呼ばれるほど中心的な存在になったのかが、歴史的背景とともに説明されている。前回学んだ二項分布を出発点として、コイン投げの回数を増やしていくと、離散的な棒グラフで表されていた分布が、しだいに滑らかな左右対称の山型曲線に近づいていく。この極限として現れるのが正規分布である。18世紀にアブラハム・ド・モアブルがこの形を数学的に導き出し、その後19世紀に Carl Friedrich Gauss が観測誤差の分布として一般化したことで、正規分布は理論統計学の中心へと成長した。正規分布の重要性は、単に形が美しいからではない。人の身長、測定誤差、試験点数など、多くの自然現象や社会現象が平均付近に集中し、極端な値ほど少なくなるという特徴をもつため、現実のデータを説明するモデルとして非常に有効である。また、 Pierre-Simon Laplace によって、標本平均や総和がデータ数の増加とともに正規分布に近づく中心極限定理が示され、推定や検定の理論的基盤となった。つまり今回の核心は、二項分布の極限として生まれた正規分布が、現実世界の誤差や平均値のふるまいを広く説明する普遍的な分布へと発展したことを理解する点にある。

独自教材
コマ主題細目 ① 正規分布 ② 中心極限定理 ③ 極限分布
細目レベル ① 正規分布とは、統計学でもっとも基本的で重要な確率分布であり、中央に値が集中し、左右に向かってなめらかに減少していく釣鐘型の分布である。グラフにすると左右対称の山の形をしており、平均値の付近に多くのデータが集まり、極端に大きい値や小さい値は少なくなる。たとえば、人の身長、テストの点数、測定誤差など、現実の多くのデータはこの形に近い分布を示す。身長でいえば、平均的な身長の人が最も多く、非常に高い人や低い人は少ない。これは日常感覚にも合っている。正規分布が重要なのは、単に多くのデータがこの形をとるからだけではない。平均値と標準偏差という、すでに学んだ二つの量だけで分布の形が決まるため、データの特徴を簡潔に表現できる。平均値は山の中心、標準偏差は山の広がりを表す。また、今後学ぶ推定や仮説検定の多くは、この正規分布を前提として組み立てられている。そのため、統計学における「王様」ともいえる中心概念である。
② 中心極限定理とは、統計学の中でも特に重要な考え方であり、標本平均は標本数が十分大きくなると正規分布に近づくという法則である。たとえば、もとのデータが必ずしも正規分布でなくても、そこから何度も同じ大きさの標本を取り出して平均値を計算すると、その平均値の集まりはしだいに釣鐘型の分布に近づいていく。これが中心極限定理である。この考え方は非常に重要である。なぜなら、現実のデータは必ずしもきれいな正規分布をしていないからである。それでも標本平均を使えば、統計学的には正規分布を用いた推定や検定が可能になる。たとえば、ある商品の平均重量を知りたいとき、個々の商品の重量分布が複雑でも、複数個の平均を考えることで正規分布を利用できる。このため、推測統計学の理論的な基盤として極めて重要である。
③ 極限分布とは、試行回数や標本サイズを大きくしていったときに、最終的に近づいていく分布の形を意味する。たとえば、コイン投げを考える。10回投げたときの表の回数の分布は棒グラフで表される離散的な形である。しかし回数を100回、1000回と増やしていくと、その形はしだいに滑らかな山型に近づいていく。この最終的に近づく形が極限分布である。すでに学んだように、二項分布は試行回数を増やすと正規分布に近づく。このとき正規分布が二項分布の極限分布である。この考え方は統計学で非常に重要である。複雑な分布でも、標本数や試行回数が十分大きければ、より扱いやすい分布に近づくため、理論的な解析がしやすくなる。つまり極限分布とは、複雑な現象を大きな視点で見たときに現れる普遍的な形であり、統計学の普遍性を支える重要概念である。
キーワード ① 正規分布 ② 中心極限定理 ③ 極限分布
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、正規分布が統計学の中心的な基盤である理由を理解することである。正規分布とは、平均付近にデータが最も多く集まり、そこから左右対称にゆるやかに減少していく釣鐘型の分布である。人の身長、測定誤差、試験点数など、多くの自然現象や社会現象がこの形に近い分布を示すため、現実データを説明するうえで非常に重要である。今回とくに復習しておきたいのは、正規分布が突然現れる概念ではなく、二項分布の極限として生まれるという点である。コイン投げの回数を増やしていくと、表が出る回数の分布はしだいに滑らかな山型に近づいていく。この最終的な形が正規分布であり、この意味で正規分布は極限分布の一例である。また、統計学において極めて重要な中心極限定理も今回の核心である。もとのデータがどのような分布をしていても、標本平均を何度もとると、その平均値の分布は正規分布に近づく。この性質によって、現実の複雑なデータに対しても正規分布を基礎とした推定や検定が可能になる。つまり今回の復習ポイントは、正規分布は現実データをよく表すだけでなく、標本平均のふるまいを通じて推測統計学全体を支える理論的土台であるという点にある。次回以降の区間推定や仮説検定では、この正規分布の考え方が直接用いられるため、その意味をしっかり理解しておくことが重要である。

【予習】次回は、これまで学んできた正規分布・平均・分散・標準偏差を土台として、パラメトリック統計学とは何かを本格的に理解する重要な回である。予習として最も大切なのは、正規分布を単なる「きれいな山型のグラフ」として覚えるのではなく、現実のデータを説明するモデルとして捉える視点をもつことである。今回の中心人物はカール・ピアソンであり、彼は現実の生物データや社会データに対して、正規分布の曲線を当てはめることで、ばらつきのある現象を数理的に説明しようとした。たとえば、カニの甲羅サイズの頻度分布に正規分布曲線を重ねることで、実際の観測データを一つの理論モデルで表現できることを示している。予習として特に意識しておきたいのは、パラメーターという考え方である。正規分布では、平均が山の位置を決め、分散(または標準偏差)が山の広がりを決める。つまり、分布の形は少数の数値によって特徴づけられる。この「少数のパラメーターで母集団全体をモデル化する」という発想が、パラメトリック統計学の核心である。したがって予習としては、これまで学んだ平均・分散・標準偏差の意味を復習し、それらが単なる記述統計量ではなく、母集団を特徴づける未知の値を推定するための手がかりになることを意識しておくと理解が深まる。次回は、統計学が「計算」から「推論」へ進む重要な節目となるである。 

10 ピアソンが築いたパラメトリック統計学の礎石 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第10回は、近代統計学の基礎を築いたカール・ピアソンを中心に、パラメトリック統計学の考え方が詳しく説明されている。今回の核心は、現実のばらつきをもつ観測データを、確率分布という数理モデルによって近似し、その背後にある母集団の特徴を推測するという発想である。ウェルドンが採集したカニ999個体の甲羅サイズのデータが例として取り上げる。観測された頻度分布(ヒストグラム)に正規分布曲線を重ねることで、生物個体群の形態変異が数理的にうまく表現できることをピアソンは示した。ここで重要なのは、正規分布が単なる理論上の美しい曲線ではなく、現実のデータを説明するためのモデルとして使われている点である。 また、正規分布の形は2つのパラメーターによって決まる。平均は分布の中心位置を決め、分散(または標準偏差)は分布の広がりを決める。平均を変えると山の位置が左右に移動し、標準偏差を変えると山の幅や鋭さが変化する。このように、少数の定数によって母集団全体の特徴を表すという考え方が、パラメトリック統計学の本質である。 さらに、標本から計算された平均値や分散値は、母集団の未知の平均や分散の推定値として用いられる。つまり統計学とは、標本データをもとに、母集団を確率分布モデルとして推論する学問である。今回のポイントは、現実データを数理モデルで近似し、未知の母集団をパラメーターで推定する視点を身につけることにある。

独自教材
コマ主題細目 ① 確率分布のパラメーター ② パラメトリック統計学 ③ 正規分布の実用性
細目レベル ① 確率分布のパラメーターとは、分布の形や特徴を決める数値のことである。たとえば正規分布では、平均と標準偏差(または分散)が代表的なパラメーターである。平均は分布の中心、すなわち山の頂点がどこに位置するかを決める。一方、標準偏差は山の広がり具合を決める。標準偏差が小さければ山は細く高くなり、大きければ広くゆるやかな山になる。ここで重要なのは、膨大な数のデータ全体を、そのまま記憶しなくても、少数のパラメーターによって全体像を表せることである。たとえば1000人の身長データがあっても、「平均170cm、標準偏差6cm」とわかれば、全体の特徴をかなりよく把握できる。統計学では、このパラメーターはしばしば未知であり、標本データから推定される対象となる。つまり、手元のデータから母集団の平均や分散を推測することが重要になる。パラメーターとは、単なる数値ではなく、母集団全体の特徴を凝縮した情報であると理解するとよい。これにより、複雑な現象を少数の数値で説明できるようになる。
② パラメトリック統計学とは、母集団がある特定の確率分布に従うと仮定し、その分布のパラメーターを推定・検定する統計学である。たとえば、「身長データは正規分布に従う」と仮定し、その平均や標準偏差を求める方法が代表例である。この考え方の利点は、現実の複雑なデータを、比較的単純なモデルで扱えることである。すべての個々のデータを細かく追うのではなく、平均や分散といった少数のパラメーターで全体を表すため、解析や推論が非常にしやすい。たとえば、あるクラスの平均点をもとに学年全体の平均を推定したり、2つのクラスの平均点に差があるかを検定したりする方法は、多くがパラメトリック統計学に属する。ただし、この方法には前提条件がある。データが正規分布など、想定した分布にある程度従っている必要がある。この前提が大きく崩れる場合には、ノンパラメトリック統計学が用いられる。つまりパラメトリック統計学とは、分布モデルを仮定して母集団を推論する体系的な方法である。
③ 正規分布の実用性とは、現実世界の多くのデータを非常によく説明できることにある。統計学で正規分布が「王様」と呼ばれる理由もここにある。たとえば、人の身長、体重、血圧、試験点数、測定誤差など、多くのデータは平均値付近に集中し、極端な値は少ない。この特徴は正規分布の釣鐘型とよく一致する。さらに重要なのは、中心極限定理によって、もとの分布が完全に正規分布でなくても、標本平均は正規分布に近づくことである。このため、現実の多くの推定・検定で正規分布を利用できる。実務上も、品質管理、医学統計、教育評価、生物統計など、あらゆる分野で用いられている。たとえば、試験の偏差値は正規分布を前提に計算される典型例である。正規分布の実用性は、理論的に扱いやすく、しかも現実のデータによく当てはまるという点にある。これが統計学の中心に位置づけられる理由である。
キーワード ① 確率分布のパラメーター ② パラメトリック統計学 ③ 正規分布の実用性
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、現実のばらつきをもつデータを、確率分布という数理モデルで表現し、その背後にある母集団を推論する視点を身につけることである。これまでの回では、平均・分散・正規分布そのものの性質を学んできたが、今回はそれらが実際の統計解析でどのように使われるかを理解する重要な回であった。まず確認しておきたいのは、正規分布の形は少数のパラメーターによって決まるという点である。平均は分布の中心を、標準偏差は広がりを決める。このように、膨大なデータ全体を少数の数値で表現する考え方が統計学の大きな特徴である。つまり、標本データから求めた平均値や標準偏差は、母集団全体の特徴を推測する手がかりになる。ここで重要になるのがパラメトリック統計学である。これは、母集団がある特定の確率分布、典型的には正規分布に従うと仮定し、その分布のパラメーターを標本から推定する方法である。現実の複雑なデータを単純なモデルで扱うことで、推定や検定が可能になる。また、今回の復習ポイントとして、正規分布が理論上の曲線ではなく、身長、試験点数、測定誤差など、現実の多くのデータをよく説明する実用的なモデルであることを確認しておきたい。統計学とは、標本データをもとに母集団をモデル化し、そこから合理的な推論を行う学問である。つまり今回の要点は、標本 → パラメーター → 母集団モデル → 推論という統計学の基本的な流れを理解することにある。

【予習】次回は、第6回から第10回までの内容を振り返り、パラメトリック統計学の全体像を整理する総復習回である。予習として最も重要なのは、それぞれの回を独立した知識として覚えるのではなく、一つの連続した流れとしてつなげて理解することである。まず第4回では、データのばらつきを視覚的な印象ではなく、平均を基準とした偏差や偏差平方和によって数値化する考え方を学んだ。ここで、ばらつきを「見えるもの」から「測れるもの」へ変換したことが出発点である。第5回では、そのばらつきを公平に比較するために自由度の考え方を導入した。データ数だけでなく、実際に自由に動かせる情報量を考えることで、分散や標準偏差の理論的基礎が整えられた。第6回では、偶然に見える現象を数量的に扱うために、確率変数と確率分布が導入された。ここで標本の背後にある母集団のふるまいを考える視点が生まれる。第7回では、二項分布の極限として現れる正規分布と、その理論的支柱である中心極限定理を学んだ。これにより、標本平均が正規分布に近づくという推測統計学の土台が理解できる。第8回では、Karl Pearson の考え方を通じて、平均や分散という少数のパラメーターで母集団全体をモデル化するパラメトリック統計学の枠組みを学んだ。したがって予習では、ばらつきの数値化 → 自由度 → 確率分布 → 正規分布 → 母集団モデルという流れを整理しておくことが重要である。次回は、この流れを統計学の一本の道筋として理解する回である。

11 パラメトリック統計学世界を見渡す[踊り場回] 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第11回は、パラメトリック統計学の基本的な枠組みが段階的に構築されてきた。第6回では、データのばらつきを視覚的な印象ではなく、偏差や偏差平方和によって数値として表現する方法を学んだ。ここで、ばらつきが定量化され、統計的に扱える対象となった。第7回では、そのばらつきをより公平に評価するために自由度の概念を導入した。見かけのデータ数ではなく、実際に自由に変化できる情報量を考慮することで、分散や標準偏差の理論的基礎が整えられた。第8回では、偶然によって値が決まる現象を数学的に扱うために、確率変数と確率分布を学んだ。ここで、標本データの背後にある母集団のふるまいを確率モデルとして捉える視点が導入された。第9回では、二項分布の極限として現れる正規分布と、その理論的基盤である中心極限定理を学んだ。これにより、標本平均の分布が正規分布に近づくことが理解され、推測統計学の基礎が確立された。第10回では、カール・ピアソンの考え方を通して、平均や分散という少数のパラメーターで母集団全体をモデル化するパラメトリック統計学の枠組みを理解した。要するに、この5回の講義を通して、ばらつきの数値化 → 情報量の補正 → 偶然現象のモデル化 → 正規分布 → 母集団推論という統計学の道筋を体系的に学んだ。

独自教材
コマ主題細目 ① ばらつきの数値化 ② 確率分布 ③ パラメトリック統計学
細目レベル ① ばらつきの数値化とは、データが平均のまわりにどの程度散らばっているかを、感覚的な印象ではなく数値として表現することである。たとえば、あるクラスのテスト得点を見たとき、「点数がそろっている」「かなり散らばっている」と感じることがある。しかし、このままでは主観的であり、別のクラスと正確に比較することが難しい。そこで統計学では、ばらつきを客観的に表す尺度を用いる。まず基準となるのは平均値である。平均から各データがどれだけ離れているかを考えることで、散らばりの大きさが見えてくる。この離れ具合を偏差と呼ぶ。しかし偏差をそのまま足し合わせると、平均より大きい値と小さい値が打ち消し合ってしまう。そこで、それぞれの偏差を二乗して足し合わせることで、ばらつきの総量を表す。これが偏差平方和である。さらに、データ数の違いを考慮して比較できるようにしたものが分散であり、その平方根が標準偏差である。標準偏差は元の単位で理解できるため、実際のデータ解釈でよく使われる。つまり、ばらつきの数値化とは、散らばりを「見た感じ」ではなく、誰が見ても同じように比較できる客観的な尺度へ変換する作業である。
② 確率分布とは、ある確率変数がどの値をどの程度の確率でとるかを示した規則である。簡単にいえば、「どの結果がどれくらい起こりやすいか」を表した地図のようなものである。たとえばコイン投げを考える。1回投げたとき、表が出るか裏が出るかは偶然である。しかし、何度も投げれば、表が出る割合はおおよそ半分に近づく。このように、個々の結果は偶然でも、全体としては一定の規則性がある。この規則性を数学的に表したものが確率分布である。サイコロであれば1〜6の各目が同じ確率で出る。コイン投げを複数回繰り返した成功回数であれば二項分布、人の身長や測定誤差のような連続量では正規分布がよく用いられる。統計学で重要なのは、実際に観測された標本データの背後には、ある母集団の確率分布が存在すると考えることである。つまり、目の前のデータは偶然得られた一部であり、その背後にはより大きな規則性がある。確率分布とは、偶然を規則として理解するための数学的枠組みである。
③ パラメトリック統計学とは、母集団がある特定の確率分布に従うと仮定し、その分布を特徴づける少数の数値、すなわちパラメーターを推定する統計学である。たとえば、人の身長データを考えると、多くの場合は正規分布に近い形を示す。このとき、母集団全体の特徴は「平均」と「標準偏差」の2つのパラメーターでほぼ表現できる。つまり、全員分のデータを知らなくても、この2つの値で全体像をかなり正確に捉えられる。パラメトリック統計学の大きな利点は、複雑な現象を比較的単純なモデルで扱えることである。たとえば、標本平均から母平均を推定したり、2つの群の平均値に差があるかを検定したりする方法は、多くがこの枠組みに属する。ただし、この方法は「母集団が正規分布に従う」などの前提条件がある。この仮定が大きく崩れる場合には、別の方法を考える必要がある。要するにパラメトリック統計学とは、母集団を少数のパラメーターで表現し、その値を標本から推定する体系的な推測方法である。
キーワード ① ばらつきの数値化 ② 確率分布 ③ パラメトリック統計学
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回のまとめ回で最も重要なのは、パラメトリック統計学の流れを、個別の用語ではなく一つの連続した論理の道筋として理解することである。第6回では、ばらつきを平均からの偏差や偏差平方和によって数値化し、感覚的な散らばりを客観的な統計量へと変換した。ここで、データの特徴を「見た感じ」ではなく、数値で比較できる土台が整えられた。第7回では、見かけのデータ数ではなく、実際に自由に動かせる情報量としての自由度を学んだ。これにより、ばらつきを公平に比較するための分散・標準偏差の理論的基礎が理解できた。第8回では、偶然に左右される現象を数量的に扱うために、確率変数と確率分布を導入した。ここで重要なのは、偶然現象にも一定の規則性があると理解することである。第9回では、二項分布の極限として現れる正規分布と、標本平均が正規分布に近づく中心極限定理を学んだ。これにより、推測統計学の理論的基盤が整えられた。第10回では、カール・ピアソンの考え方を通じて、母集団全体を平均や分散という少数のパラメーターで表現する、パラメトリック統計学の考え方を理解した。したがって今回の復習ポイントは、ばらつきを測る → 偶然をモデル化する → 正規分布を基盤に母集団を推論するという流れを自分の言葉で説明できるようにすることである。これが今後の推定・検定・回帰分析へつながる基礎となる。

【予習】次回は、これまで学んできたパラメトリック統計学の基礎を俯瞰し、多様な確率分布の世界を地図のように見渡す回である。予習として最も重要なのは、これまで登場したベルヌーイ分布、二項分布、正規分布が、広大な確率分布の世界のほんの一部にすぎないことを意識することである。本文では、数多くの確率分布の相互関係を可視化した「確率分布曼荼羅(マンダラ)」というチャートが中心となる。 これまでの学習では、主として正規分布を中心に、平均・分散・標準偏差・中心極限定理・パラメトリック統計学の枠組みを学んできた。しかし実際の統計学では、現象の種類に応じて多様な分布が使い分けられる。たとえば、回数データには二項分布、待ち時間には指数分布やガンマ分布、割合にはベータ分布など、それぞれ適したモデルが存在する。第9回では、こうした分布どうしが数学的にどのようにつながっているかを理解することがテーマとなる。 とくに予習として意識しておきたいのは、正規分布がなぜ特別な地位を占めるのかという点である。中心極限定理により、多くの標本平均が最終的に正規分布へ近づくため、正規分布は「王様」の位置に置かれている。この位置づけを理解したうえで、他の分布との関係を見ると理解が深まる。したがって予習では、これまで学んだ確率分布の名前と特徴を簡単に復習し、「どのようなデータにどの分布が使われるか」を考えておくことが重要である。次回は、統計理論の全体地図を手に入れる回である。

12 秘宝:確率分布曼荼羅の発見! 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第12回は、これまで学んできたベルヌーイ分布、二項分布、正規分布などを個別の知識としてではなく、互いに関連した体系として捉える視点が示されている。中心となるのは「確率分布曼荼羅」という図であり、さまざまな確率分布の関係を一枚の地図のように俯瞰することを目的としている。これまでの学習では、偶然現象を数量化するために確率変数と確率分布を学び、さらに正規分布が統計学の中心的役割を担うことを理解してきた。今回では、その正規分布が確率分布全体の中でどの位置にあるのかを理解することが重要なテーマとなる。正規分布は中心極限定理によって多くの標本平均の極限として現れるため、「王様」として特別な位置づけをもつが、実際には他にも多くの分布が存在する。 たとえば、成功回数を扱う二項分布、発生回数を扱うポアソン分布、待ち時間や寿命を扱う指数分布やガンマ分布など、それぞれの現象に応じた分布がある。これらは独立した概念ではなく、極限や変換を通じて互いに数学的につながっている。この全体像を理解することで、統計学が個別の公式の暗記ではなく、分布の体系的理解に基づく学問であることが見えてくる。今回の核心は、確率分布の世界を一つの地図として俯瞰し、各分布の役割とつながりを理解することにある。

独自教材
Leemis L.M. Univariate Distribution Relationships. http://www.math.wm.edu/~leemis/chart/UDR/UDR.html
コマ主題細目 ① 確率分布曼荼羅 ② 確率分布間の関係 ③ 中心極限定理の実力
細目レベル ① 確率分布曼荼羅とは、さまざまな確率分布を個別の公式として覚えるのではなく、一つの体系として見渡すための全体図である。曼荼羅という言葉が使われているのは、中心に重要な分布を置き、その周囲に関連する分布が配置され、互いの関係が視覚的に整理されているからである。統計学を学び始めると、ベルヌーイ分布、二項分布、正規分布、ポアソン分布など、多くの名前が登場し、別々のものとして覚えがちである。しかし実際には、これらは互いに深く結びついている。たとえば、ベルヌーイ分布を複数回繰り返したものが二項分布であり、二項分布は条件によって正規分布に近づく。このようなつながりを一枚の図で整理したものが確率分布曼荼羅である。これにより、「どの分布がどの現象に使われるか」「どの分布からどの分布が導かれるか」が理解しやすくなる。つまり確率分布曼荼羅とは、統計学の確率分布の世界を地図として俯瞰するための概念図である。
② 確率分布間の関係とは、異なる確率分布が独立したものではなく、数学的な変換や極限によって互いにつながっているという考え方である。たとえば、コイン投げ1回の成功・失敗を表すベルヌーイ分布を複数回繰り返すと二項分布になる。さらに試行回数を非常に大きくすると、その形は正規分布に近づく。これは分布の極限関係である。また、一定時間内の発生回数を表すポアソン分布は、二項分布の特殊な極限として理解できる。さらに待ち時間を表す指数分布も、ポアソン過程と深く結びついている。このように、確率分布は単に種類が多いだけではなく、それぞれが論理的につながっている。これを理解すると、個別の公式を暗記するのではなく、「なぜこの分布がここで使われるのか」が見えてくる。つまり確率分布間の関係とは、確率分布を一つのネットワークとして理解する視点である。
③ 中心極限定理の実力とは、この定理が統計学全体を支えるほど強力で普遍的な法則であることを意味する。この定理は、もとのデータがどのような分布をしていても、標本平均を何度もとると、その平均値の分布は正規分布に近づくというものである。これは非常に重要である。なぜなら、現実のデータは必ずしも正規分布をしていないからである。たとえば、売上データや待ち時間のように偏った分布でも、複数の観測値の平均を考えると、その平均値はしだいに釣鐘型に近づく。このため、正規分布を前提とした推定や検定が広く使える。この定理の実力は、「複雑な現実を正規分布で扱えるようにしてくれる」点にある。つまり、推測統計学の多くの方法が成立するのは、この定理のおかげである。要するに中心極限定理とは、統計学に普遍性と実用性を与える最重要法則である。
キーワード ① 確率分布曼荼羅 ② 確率分布間の関係 ③ 中心極限定理の実力
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、これまで個別に学んできた確率分布を、一つの体系としてつながった知識に整理することである。第6回から第8回にかけて、ベルヌーイ分布、二項分布、正規分布、パラメトリック統計学を順に学んできたが、第9回ではそれらを「確率分布曼荼羅」という全体図の中で位置づけた。まずここを復習し、各分布がどのような現象を扱うのかを整理しておきたい。具体的には、ベルヌーイ分布は成功・失敗の二値データ、二項分布はその繰り返しによる成功回数、正規分布は多くの自然現象や標本平均の分布を表す。このつながりを自分の言葉で説明できるようにすることが重要である。また今回の核心は、分布間の関係を理解することである。分布は独立した公式の集まりではなく、極限や変換によって相互につながっている。たとえば二項分布は条件によって正規分布に近づき、ポアソン分布や指数分布も特定の現象に応じて使い分けられる。このネットワーク構造を意識することが、統計学を体系的に理解する鍵となる。さらに、中心極限定理の実力も必ず復習しておきたい。もとのデータ分布が複雑でも、標本平均は正規分布に近づく。この性質があるからこそ、推定や検定の多くが成立する。今回の復習ポイントは、確率分布を個別知識ではなく、一つの地図として理解することである。これが今後の推定・仮説検定・回帰分析への重要な橋渡しとなる。

【予習】次回は、これまで学んできた確率分布やパラメトリック統計学の理論を土台として、いよいよ実際にどのように実験を設計するかという、研究現場に直結する内容に入る。予習として最も重要なのは、統計学は「データを集めた後に計算する学問」ではなく、データを集める前の計画段階からすでに始まっているという視点をもつことである。 今回の中心テーマは 実験計画法、とくに 完全無作為化法 である。実験計画法とは、限られた時間・費用・人手の中で、できるだけ信頼できるデータを得るために、実験を事前に論理的に設計する方法である。たとえば農業実験で複数の肥料や殺虫剤の効果を比較する場合、試験区の配置が偏っていると、土壌条件や日照の差が結果に影響してしまう。これを防ぐために、処理区をランダムに配置する必要がある。 予習として特に押さえておきたいのは、ロナルド・フィッシャーが示した実験計画の三原理である。すなわち、反復実施・無作為化・局所管理である。なかでも無作為化の意義が中心になる。無作為化によって背景要因の影響を偶然誤差に吸収し、処理効果を公平に比較できるようにする。無作為化を怠ると、処理効果と環境要因が混ざり合う 交絡 が生じ、統計的に解釈不能になる。 したがって予習では、これまで学んだ「ばらつき」「誤差」「平均差」の考え方を復習しつつ、なぜ実験前の設計が統計解析以上に重要なのかを意識しておくことが大切である。

13 実験計画はお早めに —— 完全無作為化法 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第13回は、統計解析に入る前の段階、すなわち実験をどのように設計するかという実験計画法の基本を解説する。今回の中心テーマは、ロナルド・フィッシャーが提唱した実験計画の三原理、すなわち 反復実施・無作為化・局所管理 である。これらは農業実験に限らず、生物学・医学・環境科学などあらゆる分野の実験研究に共通する基本原則である。まず反復実施とは、同じ処理を複数回行うことで偶然誤差やばらつきを評価できるようにすることである。次に無作為化とは、処理区や実験対象をランダムに配置・割付することで、背景要因の偏りを偶然誤差に吸収し、処理効果を公平に比較できるようにする方法である。最後に局所管理とは、環境条件が異なる可能性のある場所をブロック化し、その内部でできるだけ条件を均一に保つ工夫である。実例として、イネの殺虫剤試験における無作為化の重要性が具体的に説明されている。もし試験区をきれいに順番どおり並べてしまうと、土壌水分や日照などの環境勾配が処理効果と混ざり合い、結果の解釈が不可能になる。このように、処理効果と背景要因が区別できなくなる状態を「交絡」という。いかに高度な統計手法を用いても、実験計画の段階で交絡が生じていれば正しい結論は得られない。したがって今回の核心は、統計学はデータ解析の前に、実験をどう設計するかから始まっているという点にある。実験計画を誤れば、その後の解析は意味を失うのである。

独自教材
コマ主題細目 ① 実験計画法 ② 無作為化 ③ 完全無作為化法
細目レベル ① 実験計画法とは、実験を始める前に、どのようにデータを集めれば信頼できる結論が得られるかをあらかじめ設計する方法である。統計学というと、データを集めた後に平均や分散を計算する学問と思われがちであるが、実際にはデータを集める前の段階がきわめて重要である。たとえば、2種類の肥料の効果を比較したいとする。このとき、片方を日当たりの良い場所、もう片方を日陰に置いてしまうと、肥料の効果と環境の違いが混ざってしまい、公平な比較ができない。こうした問題を防ぐために、実験条件を事前に整理し、比較が妥当になるように計画する必要がある。実験計画法では、どの処理を何回繰り返すか、どのように配置するか、どの要因を統制するかを考える。ロナルド・フィッシャーによって、反復、無作為化、局所管理という三原理が示されている。つまり実験計画法とは、良いデータを得るための設計図を作る学問であり、統計解析よりも前の段階で研究の質を決める重要な方法である。
② 無作為化とは、処理や実験対象をランダムに割り当てることである。統計学において非常に重要な考え方であり、偏りを防ぐための基本原理である。たとえば、2種類の薬の効果を比較する場合、元気そうな人だけを新薬群に入れ、体調の悪い人を旧薬群に入れてしまうと、薬の効果ではなく被験者のもともとの状態が結果に影響してしまう。このような偏りを避けるために、ランダムに割り付ける。無作為化の利点は、見えない要因の偏りも平均的に分散させられることである。年齢、体力、環境条件など、すべてを完全に統制することは難しい。しかしランダムに割り当てれば、それらの影響を偶然誤差として扱いやすくなる。つまり無作為化とは、公平な比較を可能にするための統計学的な公正性の仕組みである。
③ 完全無作為化法とは、実験計画法の中でも最も基本的な方法であり、すべての実験単位に対して処理を完全にランダムに割り当てる方法である。たとえば、20個の植木鉢に2種類の肥料を比較したい場合、10個ずつランダムに割り当てる。このとき、場所や順番に規則性を持たせず、くじ引きのようにランダムに決めるのが完全無作為化法である。この方法の最大の利点は、設計が簡単でわかりやすいことである。大学一年生の実習でも導入しやすく、統計学の基本的な発想を学ぶのに適している。ただし、環境条件に大きな差がある場合には注意が必要である。たとえば畑の端と中央で土壌条件が大きく異なる場合、完全無作為化だけでは十分でないことがある。その場合は局所管理やブロック法が必要になる。それでも、統計学的な実験設計の出発点として、完全無作為化法は最も重要な基本形である。
キーワード ① 実験計画法 ② 無作為化 ③ 完全無作為化法
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。

復習・予習課題 【復習】今回の学習で最も重要なのは、統計学はデータ解析の前段階である実験設計から始まっているという視点を確実に理解することである。これまでの回では、平均・分散・確率分布・正規分布といった理論を学んできたが、今回はそれらを正しく活用するための土台として、実験計画法を学んだ。まず復習すべき第一の点は、実験計画法の目的である。統計解析は、集めたデータが適切であって初めて意味をもつ。もし実験の段階で条件が偏っていれば、どれほど高度な統計手法を使っても正しい結論には到達できない。したがって、データを集める前に、比較が公平になるよう設計することが重要である。次に、Fisher の三原理のうち、とくに今回中心となった無作為化を復習しておきたい。無作為化とは、処理区や被験者をランダムに割り付けることで、見えない背景要因の偏りを平均化し、公平な比較を可能にする方法である。これにより、処理効果と環境差が混ざる 交絡 を防ぐことができる。さらに、完全無作為化法はその最も基本的な形であり、すべての実験単位に対してランダムに処理を割り当てる方法である。この方法は設計が単純で、統計学の基本原理を理解するのに適している。今回の復習ポイントは、よい統計解析は、よい実験設計からしか生まれないという点である。解析技法だけでなく、データ取得の設計段階こそが研究の信頼性を左右することを理解しておくことが重要である。

【予習】次回は、実験計画法を土台として、実際に得られたデータのばらつきをどのように分解し、処理効果を統計的に評価するかを学ぶ重要な回である。今回の予習で最も大切なのは、データ全体のばらつきが一つの原因だけで生じているのではなく、複数の要因に分けて考えられるという視点をもつことである。前回は、完全無作為化法によって処理区を公平に配置する方法を学んだ。次回は、その実験から得られた数値データについて、全体のばらつきを「処理によるばらつき」と「偶然誤差によるばらつき」に切り分ける考え方が中心となる。たとえば、異なる殺虫剤の効果を比較する実験では、平均収量の違いが本当に薬剤の効果なのか、それとも偶然の変動なのかを区別しなければならない。 ここで重要になるのが、平方和によるばらつきの分割である。これまで学んできた偏差平方和の考え方を思い出し、全体のばらつきを「処理平方和」と「誤差平方和」に分けるイメージをもっておくと理解しやすい。全偏差は処理偏差と誤差偏差に分解され、それぞれの平方和に整理される。つまり予習としては、第4回の偏差平方和、第5回の自由度、第10回の実験計画法を復習し、「ばらつきを原因別に分けて考える」という発想を意識しておくことが重要である。次回は、ここから本格的な「分散分析」への道が開かれる回である。

14 正規分布を踏まえたパラメトリック統計学の降臨 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第14回は、実験計画法を土台として、実際に得られたデータのばらつきをどのように分析し、処理効果の有無を統計的に判断するかが説明されている。今回の核心は、データ全体のばらつきを複数の原因に分けて考えることである。具体的には、イネの収量試験を例に、全体のばらつき(全平方和)を、殺虫剤という処理によるばらつき(処理平方和)と、偶然誤差によるばらつき(誤差平方和)に分割する。これは偏差平方和の発展形であり、ばらつきを「原因別」に整理する作業である。さらに、それぞれに対応する自由度を用いて平均平方を求めることで、処理効果と誤差の大きさを比較できるようになる。ここで重要になるのが「F値」である。「F値」とは、処理平均平方を誤差平均平方で割った比であり、いわば「シグナル(処理効果)」が「ノイズ(偶然誤差)」に対してどれだけ大きいかを示す指標である。F値が1に近ければ処理効果は小さく、大きければ処理効果が存在する可能性が高い。さらに、正規分布を前提とした統計理論から、帰無仮説のもとでF値が従う F分布 が導かれる。この理論分布を用いて、得られたF値が偶然起こりうる範囲を超えているかどうかを判断する。これが 仮説検定 であり、「分散分析」の根幹をなす。今回のポイントは、地上のデータ計算と天空の統計理論が結びつく瞬間を理解することにある。

独自教材
コマ主題細目 ① 平方和の分割 ② 平均平方 ③ F値 ④ F分布 ⑤ 分散分析
細目レベル ① 平方和の分割とは、データ全体のばらつきを、その原因ごとに分けて考える方法である。統計学では、観測値のばらつきは一つの原因だけで生じるわけではない。たとえば、異なる肥料の効果を比較する実験では、植物の成長の違いは「肥料の違い」によって生じる部分と、「偶然の個体差や環境差」によって生じる部分に分けられる。この全体のばらつきをまず「全平方和」として考え、それを「処理平方和」と「誤差平方和」に分けるのが平方和の分割である。イメージとしては、全体の違いの中に「本当に比較したい処理の効果」と「たまたま生じたばらつき」が混ざっているので、それを切り分ける作業である。この考え方があることで、観測された差が本当に処理の効果なのか、それとも偶然なのかを判断できる。分散分析の最初の出発点となる重要概念である。
② 平均平方とは、平方和をその自由度で割ったものであり、平均的なばらつきの大きさを表す量である。たとえば平方和は、ばらつきの総量を示している。しかしデータ数や群数が異なると、その総量だけでは公平に比較できない。そこで自由度で割って、1単位あたり平均的にどれだけばらついているかを見る。数式では、たとえば処理については、平均平方は平方和/自由度となる。これは前に学んだ分散の考え方と本質的に同じである。つまり平均平方は「原因別の分散」と考えてよい。分散分析では、処理平均平方と誤差平均平方を比較することで、処理効果の有無を調べる。その意味で、平均平方はF値を求めるための基礎となる。
③ F値とは、処理効果によるばらつきが、偶然誤差によるばらつきに比べてどれだけ大きいかを示す比率である。数式では F値=処理平均平方/誤差平均平方で表される。直感的には、F値は「シグナル/ノイズ比」である。分子は比較したい処理効果、分母は偶然のばらつきである。もしF値が1に近ければ、処理による差は偶然誤差と同程度であり、有意な差はない可能性が高い。逆にF値が大きければ、偶然では説明しにくいほど処理差が大きいことを意味する。したがってF値は、実験処理の効果が本当に存在するかを判断するための中心的な統計量である。
④ F分布とは、帰無仮説が正しいときにF値が従う理論的な確率分布である。つまり、もし本当に群間差が存在しないなら、偶然によってF値がどの程度の大きさになるかを示した分布である。F分布は0以上の値をとり、右に長い裾をもつ形をしている。小さいF値はよく起こるが、非常に大きいF値はまれである。この分布を使って、実際に計算したF値が偶然起こる範囲にあるかどうかを判断する。これが有意差判定につながる。つまりF分布は、F値の意味を確率的に評価するための基準表である。
⑤ 分散分析(ANOVA)とは、複数群の平均値の差を、ばらつきの分解によって検定する方法である。たとえば3種類の肥料の効果を比較するとき、単に平均値を見比べるだけでは不十分である。偶然誤差が大きければ、見かけの差がたまたま生じた可能性もある。そこで分散分析では、全体のばらつきを「群間差(処理差)」と「群内差(誤差)」に分け、その比率をF値として評価する。この方法の重要な点は、複数群を同時に比較できることである。2群ならt検定でもよいが、3群以上ではANOVAが標準的である。つまり分散分析とは、平均値の差を、ばらつきの構造から統計的に検定する方法である。
キーワード ① 平方和の分割 ② 平均平方 ③ F値 ④ F分布 ⑤ 分散分析
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の学習で最も重要なのは、データ全体のばらつきを原因ごとに分け、その差が偶然か処理効果かを統計的に判断する流れを理解することである。これまで第4回で偏差平方和、第5回で自由度、第7回で正規分布、第10回で実験計画法を学んできたが、今回はそれらが一つに結びつき、分散分析(ANOVA)として体系化された。まず復習しておきたいのは、平方和の分割である。全体のばらつきは一つのまとまりではなく、「処理による差」と「偶然誤差による差」に分けて考える。ここで、処理による差が十分に大きければ、実験処理に意味があると考えられる。次に、平方和を自由度で割った平均平方の意味を確認する。これは各要因ごとの平均的なばらつきの大きさを示しており、前に学んだ分散の考え方と本質的に同じである。さらに重要なのがF値=処理平均平方/誤差平均平方である。この比によって、処理差が偶然誤差よりどれだけ大きいかを判断する。F値が大きいほど、偶然では説明しにくい。最後に、そのF値を F分布 と比較することで、統計的に有意かどうかを判定する。これが分散分析の核心である。今回の復習ポイントは、ばらつきを分ける → 比較する → 分布で判定するという一連の流れを自分の言葉で説明できるようにすることである。これが今後の多変量解析や回帰分析の基礎となる。

【予習】次回は、これまで学んできた統計学の考え方を総合的に振り返り、計算の世界(地上世界)と理論の世界(天空世界)を結びつける回である。予習として最も重要なのは、各回の内容を個別の用語として覚えるのではなく、一つの連続した思考の流れとして整理することである。 まず「地上世界」とは、私たちが実際に手を動かして行うデータ解析の世界である。平均、偏差、平方和、平均平方、F値といった量を具体的に計算し、表やグラフを作成してデータの構造を読み解く世界である。たとえば分散分析では、観測データのばらつきを処理効果と誤差に分け、F値を求めた。 これに対して「天空世界」とは、その計算結果を支える理論の世界である。正規分布、F分布、帰無仮説、仮説検定などがここに属する。地上で求めたF値が、天空で定義されたF分布の棄却域に入るかどうかを判断することで、有意差の有無を判定する。つまり、数値計算と確率理論がここで結びつく。さらに今回の予習では、完全無作為化法に加えて、「乱塊法」というもう一つの実験計画法にも目を向けておきたい。環境勾配が事前にわかっている場合には、ブロックごとに条件をそろえることで背景要因を統制する。この「局所管理」という考え方が重要である。したがって予習では、実験計画 → ばらつきの分割 → F値 → F分布 → 仮説検定
という流れを復習しておくことが重要である。次回は統計学全体の世界観を俯瞰する総括回である。

15 統計データ解析の地上世界と天空世界 ―総括として 科目の中での位置付け 自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダーとRStudio)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。

第15回は、これまでを振り返り、統計データ解析を「地上世界」と「天空世界」という二つの視点から総括する回である。ここでいう地上世界とは、実際に観測されたデータを整理し、平均・分散・平方和・F値などを具体的に計算する実践の世界を指す。一方、天空世界とは、それらの計算結果を理論的に支える正規分布・F分布・仮説検定・有意水準といった確率論の世界である。本回の核心は、この二つの世界が別々に存在するのではなく、統計解析の中で密接に結びついていることを理解する点にある。たとえば分散分析では、地上世界で得られたF値を、天空世界のF分布と照らし合わせることで、処理効果の有無を判断する。この瞬間に、観測データの世界と理論分布の世界が接続される。また、実験計画法の重要性も改めて強調されている。完全無作為化法だけでなく、環境条件の差を事前に考慮する「乱塊法」が紹介され、ロナルド・フィッシャーの三原理の一つである局所管理の意義が示されている。これにより、背景要因によるばらつきを制御し、より精度の高い実験が可能になる。つまり今回は、個々の統計手法を超えて、データ解析の計算世界と理論世界を往復しながら科学的結論を導くことが統計学の本質であることを確認する総括回である。

独自教材
コマ主題細目 ① 地上世界 ② 天空世界 ③ 乱塊法 ④ 統計学の総括
細目レベル ① 地上世界とは、実際に観測されたデータを手元で計算し、整理し、比較する実践の世界を意味する。統計学において、まず私たちが直接目にするのは、実験や調査によって得られた具体的な数値データである。たとえば植物の成長量、学生のテスト得点、アンケート結果などがこれにあたる。この世界では、平均値を求めたり、標準偏差を計算したり、箱ひげ図やヒストグラムを描いたりする。分散分析でいえば、平方和、平均平方、F値を実際に計算する作業が地上世界である。重要なのは、地上世界は「現実のデータそのもの」を扱う点である。ここでは、ばらつきや群間差がどの程度あるかを、数値として具体的に捉える。つまり地上世界とは、現実世界から得られたデータを手で扱い、計算によって構造を読み解く世界である。
② 天空世界とは、地上世界で得られた計算結果を理論的に意味づける確率・統計理論の世界である。たとえば、分散分析でF値を計算したとしても、その値だけでは意味がわからない。F値が大きいのか小さいのか、偶然の範囲なのかを判断するには、理論上の確率分布と比較しなければならない。ここで登場するのがF分布であり、これが天空世界に属する。正規分布、t分布、F分布、カイ二乗分布、仮説検定、有意水準などはすべて天空世界の概念である。これらは直接観測されるものではなく、理論的に構築されたモデルである。つまり天空世界とは、地上で得られた数値を、理論的な基準に照らして意味づける抽象的な世界である。統計学の面白さは、この地上世界と天空世界を往復しながら結論を導く点にある。
③ 乱塊法とは、環境条件の違いを事前に考慮して実験区をブロックに分け、その中で無作為化する方法である。たとえば畑で肥料実験を行うとき、畑の端と中央で土壌条件が異なることがある。このとき完全無作為化法だけでは、肥料の効果と土壌差が混ざってしまう可能性がある。そこで、まず似た条件の区画ごとにブロックを作り、その各ブロック内でランダムに処理を割り当てる。これにより、環境差の影響をできるだけ小さくできる。乱塊法はロナルド・フィッシャーの三原理のうち「局所管理」を具体化した方法であり、背景要因を統制するうえで非常に重要である。つまり乱塊法とは、見えている環境差を設計段階で統制するための実験計画法である。
④ 統計学の総括として最も重要なのは、統計学が単なる計算技術ではなく、現実世界の不確実性を合理的に理解するための思考法であることを理解することである。これまで学んできた内容を振り返ると、まずデータのばらつきを数値化し、確率分布によって偶然をモデル化し、正規分布と中心極限定理を通じて推測統計学の基盤を学んだ。さらに実験計画法と分散分析によって、実際の研究で差を検証する方法を身につけた。統計学の本質は、観測 → 計算 → 理論分布との比較 → 推論という流れにある。つまり統計学とは、地上世界のデータと天空世界の理論を結びつけ、偶然と必然を区別しながら科学的結論を導く学問である。
キーワード ① 地上世界 ② 天空世界 ③ 乱塊法 ④ 統計学の総括
コマの展開方法 社会人講師 AL ICT PowerPoint・Keynote 教科書
コマ用オリジナル配布資料 コマ用プリント配布資料 その他 該当なし
小テスト 「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題 【復習】今回の総括回で最も重要なのは、これまで学んできた統計学の諸概念を、個別の用語としてではなく、一つの統一した思考の流れとして理解することである。まず確認しておきたいのは、統計学には「地上世界」と「天空世界」という二つの側面があるという点である。地上世界とは、実際に観測されたデータを扱う世界である。平均値、標準偏差、平方和、F値などを計算し、データの構造を具体的に読み解く。ここでは、目の前の数値を整理し、差やばらつきを定量化することが中心となる。一方、天空世界とは、それらの計算結果を理論的に意味づける世界である。正規分布、F分布、仮説検定、有意水準などを用いて、観測された差が偶然か、それとも処理効果によるものかを判断する。この理論世界があることで、計算結果は科学的な結論へとつながる。また、今回あらためて重要なのは、実験計画法の意義である。完全無作為化法だけでなく、乱塊法によって背景要因を統制することが、解析の信頼性を大きく左右する。良い統計解析は良い実験計画から始まることを再確認しておきたい。今回の復習ポイントは、実験計画 → データ計算(地上世界) → 理論分布による判定(天空世界) → 科学的推論という流れを自分の言葉で説明できるようにすることである。これが統計学全体の基本構造である。

【予習】この講義は、二年後期の「環境研究デザイン論」につながる内容である。

履修判定指標
履修指標履修指標の水準キーワード配点関連回
1.統計的思考にもとづいてデータを読み解く力 • ★ データから中心傾向やばらつきを読み取ることができる
• ★★ データから意味のある傾向や差異を説明できる
• ★★★ 観測結果から合理的な仮説や解釈を導ける
統計的思考(推論・傾向把握・不確実性) 第1回・第4回
2.データ可視化によって特徴を把握する力 • ★ ヒストグラム・箱ひげ図・散布図を読み取れる
• ★★ 可視化結果から外れ値や分布の偏りを説明できる
• ★★★ 目的に応じて適切なグラフを選択・解釈できる
データ可視化(ヒストグラム・箱ひげ図・散布図) 第1回・第2回・第4回
3.統計モデルを用いて現象を説明する力 • ★ 統計モデルの基本概念を説明できる
• ★★ 誤差を含めてデータの規則性を説明できる
• ★★★ 複数モデルを比較し最適な説明仮説を選べる
統計モデル(線形モデル・誤差・アブダクション) ここまで30点 第3回・第4回
4.RStudioを用いて基本的な解析環境を操作する力 • ★ RStudioの画面構成を理解できる
• ★★ 基本的なコード入力・実行・保存ができる
• ★★★ 自力で簡単な解析スクリプトを作成できる
R実習(RStudio・スクリプト・コンソール) 第5回
5.ばらつきを数値として定量化する力 • ★ 平均と偏差を求められる
• ★★ 偏差平方和を計算できる
• ★★★ ばらつきの意味を数値的に説明できる
ばらつきの定量化(平均・偏差・偏差平方和) 第6回
6.自由度と分散の考え方を理解する力 • ★ 自由度の意味を説明できる
• ★★ データサイズ補正の必要性を説明できる
• ★★★ 推測統計学との関連を論理的に説明できる
自由度(補正・情報量・推測統計) 第7回
7.確率変数と確率分布を理解する力 • ★ 確率変数の概念を説明できる
• ★★ 二項分布や正規分布の特徴を説明できる
• ★★★ 母集団分布との関係を説明できる
確率分布(確率変数・二項分布・正規分布) ここまで40点 第8回・第9回
8.標本から母集団を推定する力 • ★ 標本平均・標本分散を求められる
• ★★ 母平均の推定を説明できる
• ★★★ 信頼区間や標準誤差を解釈できる
推定(標本・母平均・信頼区間) 第10回・第11回
9.仮説検定を用いて科学的判断を行う力 • ★ 帰無仮説と対立仮説を区別できる
• ★★ p値の意味を説明できる
• ★★★ 検定結果を科学的に解釈できる
仮説検定(帰無仮説・p値・有意差) 第12回・第13回
10.環境・生物データに統計手法を主体的に適用する力 • ★ 与えられたデータに適切な手法を選べる
• ★★ 解析結果を文章で説明できる
• ★★★ 自身の研究課題に応用できる
応用統計解析(手法選択・結果解釈・研究応用) ここまで30点 第14回・第15回
評価方法 期末試験で評価する
評価基準 評語
    学習目標をほぼ完全に達成している・・・・・・・・・・・・・ S (100~90点)
    学習目標を相応に達成している・・・・・・・・・・・・・・・ A (89~80点)
    学習目標を相応に達成しているが不十分な点がある・・・・・・ B (79~70点)
    学習目標の最低限は満たしている・・・・・・・・・・・・・・ C (69~60点)
    学習目標の最低限を満たしていない・・・・・・・・・・・・・ D (60点未満)
教科書 とくに指定しない
参考文献 とくに指定しない
実験・実習・教材費 なし