区分
専門教養科目
ディプロマ・ポリシーとの関係
自然と生物の専門知識
フィールド生物調査
環境データ解析
自然共生社会
カリキュラム・ポリシーとの関係
教養
分析思考
実践技能
フィールド間連携
カリキュラム全体の中でのこの科目の位置づけ
総合環境学部は、自然と人間が共存できる社会を目指し、科学的知見に基づいた教育と研究をおこなう学部である。広範な教養を育むカリキュラムを通じて柔軟な考え方や実践的な提案力を養うために、学部共通の授業や複数の分野にかかわる授業も設けている。これにより、幅広い視野をもち、さまざまな課題に対応できる人材の育成を目指す。フィールド自然学科では陸域・水域・農業の3つの分野について学び、環境情報学科ではプログラミングを通じてソフトウェア開発を学ぶ。この両学科に共通する統計データ解析はさまざまな分野に適用可能であり、データを踏まえた考察を進めるための前提となる。
本科目では、環境データを分析するための基本を学生に習得させることを目指している。生物統計学という学問領域の導入であると同時に、その射程は単なる統計手法の紹介にとどまらず、統計学的思考の本質、学問と現場との関係、そして学びの姿勢にまで及ぶ。自然や生物、環境に対する興味・関心を起点とし、数式や計算への忌避感を乗り越えて、それらを科学的に理解しようとする態度を育もうとする。それは、現実世界に存在する複雑で不確定な現象に統計的視座で向き合おうとする知的探究心にもつながる。
科目の目的
本科目は、直感的な思考と理論的思考との行き来を通じて、データと仮説との関わりを考察する探究的学習を重視する。単に知識を記憶するのではなく、統計理論の適用可能性や限界を批判的に検討する視座を育むことが、実践的・統合的な学びの核となっている。すなわち、統計解析の手法を表層的に用いるのではなく、その背後にある生物学的背景や理論的基盤を理解し、学生自らの研究課題に対して最適な手法を選び取ることのできる批判的かつ主体的な統計学ユーザーは、自然科学に基づいた実践的な問題解決能力および持続可能な社会に貢献する人材の育成にも資する。
到達目標
本科目では、下記の到達目標を立てる:
1.自然現象に内在する「ばらつき」や「変動」に注目し、それらをさまざまな統計グラフを介してヴィジュアルに捉える視点を身につける。
2.フィールド自然学のデータを出発点とし、統計手法を問題解決のための道具として主体的に選択・活用できる力を養う。
3.数式やソフトウェアに依存しすぎない批判的思考を身につけるとともに、統計言語Rを用いたデータ解析の初歩を解説する。
4.幅広い視野で統計学の世界を捉え、自身の研究や学習において適切な手法を選び、知的好奇心と柔軟な発想をもって学び続ける姿勢を確立する。
科目の概要
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。
科目のキーワード
ばらつき(変動, 分散, 標準偏差)、直感と理論(データ, モデル)、統計学(仮説, 検定)、統計ソフトウェア(RとRコマンダー)、統計グラフ(ヒストグラム、散布図など)
授業の展開方法
本科目の授業は「講義」と「演習」から構成される。授業では、オリジナルテキスト(PDF版)を配布し、その内容に沿って授業を進める。テキストは、シラバスの「コマ主題細目」に対応した章立てとなっており、授業の最初の10分間では、当該回で取り扱う内容の全体像を概観し、そのコマで学習すべき重要事項や学習のポイントを明示する。続く60分間では、コマ主題細目に沿って、細目レベルに関する解説をおこない、その内容を踏まえた練習問題を解くことで理解度を確認する。その後、各コマ主題細目に要点を整理してまとめをおこなう。これを授業回ごとに繰り返すことで、知識を段階的に積み重ね、系統的な理解へと導く。授業の終盤10分間には、その回の内容全体を振り返り、学んだことを整理する。最後に小テストを実施し、理解度を客観的に確認したうえで、解答と解説をおこなう。授業終了後には、次回までに復習をおこなうことが求められる。テキストの解説や練習問題を見直すだけでなく、ChatGPTを活用して、受講生自ら20問程度の練習問題を作成・解答することで理解を深める。さらに、その解答と解説を確認することで、より確実に知識を定着させる。
オフィス・アワー
三中信宏:【前期】
万物は進化する月5限
基礎ゼミナールⅠ月5限
環境データ解析の基礎月5限
【後期】
環境データの可視化技法火曜5限
基礎ゼミナールⅡ月曜5限
基礎ゼミナールⅣ月曜5限
環境研究デザイン論火曜5限
甲斐貴光:【前期】
農業基礎演習Ⅰ
農業地理学
基礎ゼミナールⅠ
土壌生態学
インターンシップⅠ
全科目:月曜昼~4限
【後期】
農業基礎演習Ⅱ
基礎ゼミナールⅡ
全科目:月曜1・2限
三瓶真:【前期】
地球環境学火曜3・4限
基礎ゼミナールⅠ木曜5限
【後期】
海洋と水産の科学月曜5限
海洋学演習金2限・5限
基礎ゼミナールⅡ火曜4・5限
科目コード
TB2010
学年・期
1年・後期
科目名
環境データの可視化技法
単位数
2
授業形態
講義
必修・選択
必修
学習時間
【授業】90分×15 【予習】90分以上×15 【復習】90分以上×15
前提とする科目
展開科目
関連資格
担当教員名
三中信宏・甲斐貴光・三瓶真
回
主題
コマシラバス項目
内容
教材・教具
1
データを「見る」こと——可視化の世界へ
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第1回は数値データを「見る」ことを通じて「可視化」の世界を解説する。
Windows PC
コマ主題細目
① データのばらつき ② 統計的推論 ③ データ可視化
細目レベル
① データの「ばらつき」とは、生物や自然界で観察されるデータが常に一定ではなく、個体や環境の違いによって多様な値を示す現象を指す。例えば植物の背丈や動物の体重は、同じ種であっても均一ではなく広がりをもつ。このばらつきを「変量」として捉えることで、平均や分散などの統計的な指標を用いて定量的に表現できるようになる。ばらつきの理解は、仮説検証や推定、検定といった統計的推論の基盤を成し、自然科学における知見の積み重ねに不可欠である。
② 統計的推論とは、観察や実験から得られた限られたデータを基に、母集団の性質や法則性を推定し、仮説を検証するための方法である。自然界のデータは必ずしも一定でなく、偶然的なばらつきを含むため、統計的推論ではその不確実性を考慮しつつ結論を導く。具体的には、平均値や割合の推定、差が偶然か実質的かを判断する検定、将来の結果を予測する推定などが含まれる。これにより、単なる観察にとどまらず、論理的で再現性のある科学的知見の構築が可能となる。
③ データの可視化とは、数値として記録された観察結果や実験結果を、グラフや図表を用いて直感的に理解できる形に表現する方法である。生の数字だけでは把握しにくい傾向やパターン、外れ値などを、可視化によって一目で捉えることが可能になる。例えば、ヒストグラムで分布の形を確認したり、散布図で二つの変数の関係を探ったりすることができる。統計学の学習においても可視化は重要な入り口であり、数値データを「見る」ことで背後にある構造や法則性を発見しやすくなる。
キーワード
① ばらつき ② 統計的推論 ③ 可視化
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】現実のデータは必ずしも一定ではなく、個体差や環境要因によって生じる「ばらつき」を理解することが重要である。その上で、平均や分散といった統計的指標を用いて、データの特徴を定量的に表現できるようにする。また、ばらつきを出発点として、仮説を立て、推定や検定を行う統計的推論の基本的な枠組みを確認する必要がある。さらに、得られたデータを直感的に把握する手段としての「可視化」の役割を振り返り、ヒストグラムや散布図などの具体的な表現方法に慣れることが求められる。加えて、統計手法は目的ではなく問題解決の手段であるという姿勢を常に意識し、手法の前提条件や適用範囲を批判的に検討できるようになることも大切である。
【予習】自然界や身近な観察データに「ばらつき」が存在することを意識して、実際の例を挙げて考えてみるとよい。例えば、同じ種類の植物の高さや、クラスの学生の身長・体重といったデータを思い浮かべ、均一ではなく多様な値が存在することを確認しておく。また、そのばらつきをどのように表せるかを考え、平均や範囲といった基本的な数値指標を自分で簡単に計算してみることも効果的である。さらに、新聞や雑誌、研究記事などで用いられているグラフや表を眺め、どのようにデータが可視化され、読み手に伝えられているかを観察しておくと、講義で学ぶ「可視化」の重要性を実感できる。こうした予備的な体験が、統計的な思考の出発点として役立つ。
2
統計ソフトウェアRをインストールする
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第2回は今後使うことになる統計ソフトウェアRをインストールする。
Windows PC
コマ主題細目
① R ② Rコマンダー ③ RとRコマンダーの関係
細目レベル
① Rとは、統計解析とデータ可視化に特化したオープンソースのソフトウェアであり、世界中の研究者や実務者に広く利用されている。多様な統計手法(回帰分析、分散分析、検定など)を実装しているだけでなく、ヒストグラムや散布図などの基本的な可視化から、高度なグラフィックスまで柔軟に表現できる点が特徴である。また、利用者が独自の関数やパッケージを追加できる拡張性をもち、医学・農学・生物学など幅広い分野で活用されている。さらにRは無償で公開され、RStudioやRコマンダーといった補助環境を通じて、初心者でも比較的容易に利用できる。
② Rコマンダーとは、統計解析ソフトウェアRの利用を補助するために開発されたGUI(グラフィカル・ユーザー・インターフェース)である。Rは高機能で柔軟性が高い反面、コマンド入力に慣れていない初心者にとっては操作が難しいという側面がある。そこでRコマンダーを使えば、メニューやダイアログ形式で操作を行い、背後で自動的にRのコマンドを生成・実行してくれるため、直感的に統計解析を進めることができる。データの読み込み、記述統計、グラフ作成、分散分析や回帰分析といった基本的な解析手順を、マウス操作中心で実行できる点が特徴である。また、実行されたRのコードが同時に表示されるため、初心者がメニュー操作に慣れつつ、徐々にRのコマンド言語自体も学習できる教育的利点をもつ。
③ Rは統計データ解析のための「エンジン」であり、RコマンダーはRを操作するための「ハンドル」。Rは、統計解析やデータ可視化を行うための中核となるソフトウェアであり、計算や作図を実行する「エンジン」に相当する存在である。平均値や分散の計算、回帰分析や仮説検定など、統計解析の本体はすべてRが担っている。一方、Rコマンダーは、そのRを人が扱いやすい形にした操作用のインターフェースであり、Rを動かすための「ハンドル」にあたる。Rそのものは、基本的にコマンド(命令文)を入力して操作する必要があるが、Rコマンダーを用いれば、メニューやボタンを選択するだけで解析を進めることができる。重要なのは、Rコマンダー自体が統計解析を行っているわけではないという点である。Rコマンダーは、利用者の操作をもとに適切なRのコマンドを自動的に生成し、それをRに送って実行させている。実際、Rコマンダーの画面下部には、内部で実行されたRの命令が表示される。この仕組みにより、初心者は操作を通じて解析を進めながら、同時にRの文法や考え方を学ぶことができる。すなわち、Rが解析の「力」を提供し、Rコマンダーがその力を安全かつ直感的に引き出す役割を果たしているのである。
キーワード
① R ② Rコマンダー ③ RとRコマンダーの関係
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rの復習では、まずコンソール上での基本的な計算方法や、オブジェクトへの値の代入と呼び出し方といった基礎的操作を確認することが重要である。次に、ベクトルやデータフレームといった主要なデータ構造を理解し、平均や分散などの統計量を計算できるようにする。また、条件抽出や集計関数を用いてデータを整理する練習も必要である。さらに、棒グラフやヒストグラム、散布図といった基本的な可視化を通して、数値の背後にある傾向や分布を読み取る力を養うことが求められる。加えて、Rコマンダーを活用し、スクリプトの保存やデータのインポート、解析の自動化を試すことで、実際の研究や課題解決に役立つ環境を整えることも大切である。これらを体系的に振り返ることで、Rを単なる計算ツールではなく、統計解析の実践的な基盤として使いこなす力が身につく。
【予習】Rを初めて学ぶ人が予習すべきことは、まず「Rとはどのようなソフトウェアか」を知ることである。Rは統計解析やデータ可視化に特化した言語であり、世界中の研究者や実務者に使われていることを理解しておくとよい。その上で、基本的な操作としてコンソールでの四則演算や変数への代入を試し、プログラムが電卓以上の働きをすることを体感することが望ましい。また、ベクトルやデータフレームといったR特有のデータ構造がどのようなものかを事前に確認しておくと、授業での理解が進みやすい。さらに、Rで描かれる棒グラフや散布図などの例を眺め、数値を視覚的に表現できる点に注目すると、データ可視化の学習につながる。Rコマンダーという支援ツールの存在を知っておくことも、学習環境を整える上で有用である。
3
パッケージRコマンダーをインストールする
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第3回はRを用いたいくつかの操作を演習し、初期設定の変更を確認する。
Windows PC
コマ主題細目
① RコマンダーのGUI ② Rコマンダーを用いてグラフを描く ③ Rコマンダーを用いてレポート作成
細目レベル
① RコマンダーのGUI(グラフィカル・ユーザー・インターフェース)は、Rの高度な機能をコマンド入力に頼らず操作できるよう設計された視覚的な環境である。画面上部にはメニューが並び、データの読み込み、記述統計、グラフ作成、推定や検定などの手法を選択できる。各操作はダイアログ形式で進行し、ユーザーは必要な変数や条件をチェックボックスや入力欄で指定するだけで実行可能である。その際、背後では対応するRのコードが自動生成され、出力とともに表示されるため、解析結果を得ると同時にR言語の学習にもつながる。GUIによる直感的操作とコード表示の併用が、初心者にとっての理解と実践の橋渡しとなる。
② Rコマンダーは、統計解析をメニュー操作で行えるだけでなく、学習者がRスクリプトを理解するための教育的な役割も果たす。利用者がGUIで操作すると、その裏側で対応するRコードが自動生成され、出力ウィンドウに表示される。この仕組みにより、初心者は自分の選んだ手順がどのようなRコマンドに対応するのかを逐一確認できる。単に結果を得るだけでなく、コードをコピーして修正・再利用することで、スクリプトを書く練習にもつながる。こうした機能は、マウス操作に慣れた入門者に安心感を与えつつ、徐々にコマンド入力主体の操作へと移行するための橋渡しとなる。そのためRコマンダーは、統計解析の入門教育やRスクリプト習得の導入ツールとして非常に有用である。
③ Rコマンダーの適切な使い方とは、単に「便利な解析ボタン」として依存するのではなく、学習と実践を結びつける補助ツールとして活用することである。具体的には、まずメニュー操作によってデータの読み込みや基本的な統計処理、グラフ作成を行い、その結果を確認する。同時に自動生成されるRスクリプトを読み取り、どの操作がどのコマンドに対応しているかを理解することが重要である。これにより、マウス操作を通じて得た結果を、Rコードとして再現・修正する力が養われる。さらに、Rコマンダーは入門段階の学習や演習には有効だが、複雑な解析や応用的な処理ではRスクリプトの直接記述に移行する必要がある。そのため、Rコマンダーは「とっかかり」として利用し、徐々にスクリプトベースの解析にステップアップする姿勢が適切である。
キーワード
① GUI ② グラフ描画 ③ マークダウン
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rコマンダーの復習では、まずGUIを用いた基本操作を確認することが重要である。具体的には、CSVファイルのインポート、記述統計量の算出、棒グラフや散布図の作成といった基本機能を、メニュー操作を通じて再度試みるとよい。その際、各操作に対応して自動生成されるRスクリプトを必ず確認し、メニュー操作とコマンド入力の関係を理解することが学習の核心となる。さらに、生成されたコードをコピーして修正・再実行することで、R言語の基本的な文法や構造に慣れることができる。Rコマンダーは初心者にとって直感的に扱いやすい環境であると同時に、スクリプト学習の足掛かりにもなるため、結果だけに満足せず「なぜそのコードが生成されたのか」を考えながら復習することが適切である。
【予習】Rコマンダーの予習では、まず「Rコマンダーがどのような役割を果たすソフトウェアなのか」を理解しておくことが大切である。RコマンダーはRの補助的なGUIであり、メニューやダイアログを通じてデータ解析を簡単に行えるとともに、裏側で対応するRコードを自動生成して表示する仕組みを持つ。この特徴を踏まえ、予習では実際に起動方法を確認し、画面の構成(メニュー欄、出力ウィンドウ、スクリプト欄など)を把握しておくとよい。また、どのような統計処理やグラフ作成が可能かをメニュー構成から一通り眺め、どの場面でどの機能を使えそうかをイメージしておくことも有効である。さらに、Rコマンダーでの操作がRの学習につながることを意識し、実行結果として出力されるスクリプトを読む準備を整えておくと、授業での理解がいっそう深まる。
4
RとRコマンダーの使い方
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第4回はRの操作をメニュー化したパッケージRコマンダーをインストールして、その起動を確認する。
Windows PC
コマ主題細目
① Rの操作 ② Rコマンダーの操作 ③ RとRコマンダーの使い分け
細目レベル
① 統計言語Rは、統計解析やデータ処理に特化したプログラミング言語であり、その操作にはいくつかの特徴がある。まず、Rはコマンドライン入力を基本とし、利用者は「関数名(引数)」という形式で指示を与える。例えば mean(x) と入力すれば、データxの平均が計算される。このように直感的な関数呼び出しで多様な統計手法を使える点が大きな魅力である。また、Rはオブジェクト指向の仕組みを採用しており、読み込んだデータや結果は「オブジェクト」として保存され、再利用や加工が容易である。さらに、Rには膨大なパッケージが公開されており、必要に応じて追加することで最先端の統計手法や可視化をすぐに使える。操作にはある程度のコード入力が必要だが、その分柔軟で再現性のある分析が可能であり、学習を進めることで応用範囲が広がる。
② Rコマンダーは、統計言語Rをより使いやすくするための追加パッケージであり、初心者がRを学ぶ際にとても役立つ。通常のRはコマンドを入力して操作するが、Rコマンダーでは「メニュー形式」の画面操作が可能で、ボタンや選択肢をクリックするだけでデータの読み込み、グラフ作成、統計解析などが実行できる。このとき裏側ではRのコードが自動生成され、利用者は結果だけでなく対応するRスクリプトも確認できるため、操作と同時にRの文法を学ぶことができる。また、統計解析に必要な基本機能がひと通り揃っており、CSVのインポートや平均・分散の計算、回帰分析、χ二乗検定などを簡単に実行できる。さらに、作成した表やグラフはそのままレポートに活用できるため、授業や研究の初歩的なデータ解析に向いている。すなわち、Rコマンダーは「クリック操作で使えるRの学習環境」であると同時に、コード習得の橋渡しをしてくれる点が特徴である。
③ 統計言語RとそのパッケージであるRコマンダーは、目的や習熟度に応じて使い分けることが重要である。R本体はコマンドライン操作を基本とし、関数を直接入力して実行するため、自由度が高く再現性のある分析が可能である。しかし、初心者にとっては文法や関数名を覚えることが負担になりやすい。そこで役立つのがRコマンダーである。Rコマンダーはメニューやダイアログを用いたGUI(グラフィカル・ユーザー・インターフェース)で操作でき、マウス操作だけでデータ読み込みやグラフ描画、基本的な統計解析を簡単に実行できる。また、その際に裏側で自動生成されるRコードを確認できるため、視覚的な操作に慣れながら徐々にRの文法を学べる。したがって、最初はRコマンダーを利用して基本操作や分析の流れを体験し、慣れてきたらR本体のコマンド入力に移行するのが効果的な学習方法である。
キーワード
① R ② Rコマンダー ③ RとRコマンダーの関係
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】統計言語RとRコマンダーの操作を復習する際には、それぞれの特徴と役割を意識して整理すると理解が深まる。まずR本体はコマンドラインで関数を入力して実行する仕組みであり、平均や分散の計算、グラフ作成、回帰分析などを関数名と引数を用いて指定する。コードを打ち込むことで分析過程が記録に残り、再現性や応用の柔軟さが確保される点が強みである。一方、RコマンダーはGUI形式で操作でき、メニューやボタンを選ぶだけでデータの読み込みや統計手法の実行が可能である。特に初心者にとって直感的でわかりやすく、さらに裏側で自動生成されるRコードを確認できるため、Rの文法を自然に学習できる利点がある。復習では、Rコマンダーで行った操作がどのようなRコードに対応するのかを確認し、同じ処理をR本体で入力してみると効果的である。こうした往復練習を通じて、操作の理解とスキルが着実に定着する。
【予習】Rコマンダーによるデータ可視化の予習では、まずどのような種類のグラフが作成できるかを把握することが大切である。メニューの「グラフ」には、ヒストグラム、棒グラフ、箱ひげ図、散布図などの代表的な可視化方法が用意されており、それぞれがどのような目的で使われるかを理解しておくとよい。例えば、ヒストグラムは分布の形を確認するため、散布図は変数間の関係を探るために用いられる。また、グラフ作成の際には軸ラベルやタイトルを指定できるので、結果を読み手に伝わりやすくする工夫も重要である。さらに、Rコマンダーでは背後でRコードが自動生成されるため、予習の段階で「どの操作がどのコードに対応しているか」を意識する準備をしておくと、可視化の理解が深まり、授業での学習効果が高まる。
5
Rへのデータの読み込みとデータ可視化入門
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第5回はRとRコマンダーの操作を振り返る。
Windows PC
コマ主題細目
① データインポート ② 記述統計量 ③ データ可視化
細目レベル
① Rコマンダーによるデータインポートは、外部で作成したCSVやExcelなどのデータファイルをRに取り込み、解析の出発点とする重要な操作である。メニューの「データ」から「データのインポート」を選択すると、ファイル形式に応じたオプションが表示され、ファイルの場所や文字コード、区切り文字、変数名の有無などを指定できる。インポート後はデータフレームとしてRに読み込まれ、変数の一覧やケース数を確認できる。さらに、読み込みと同時に背後でRのコードが生成され、スクリプトウィンドウに表示されるため、単なる操作だけでなくRコマンドの学習にもつながる。データインポートは解析作業の最初のステップであり、正しく行うことで後の統計処理や可視化が円滑に進む。
② Rコマンダーによる記述統計量の算出は、データの基本的特徴を把握するための重要なステップである。メニューの「統計」から「記述統計」を選び、さらに「要約」や「度数分布」などを指定することで、平均・中央値・最小値・最大値・分散・標準偏差といった代表的な統計量を簡単に求めることができる。対象となる変数をチェックボックスで選択するだけで、解析結果が出力ウィンドウに表示される。また同時に、裏側で実行されたRのコマンドがスクリプトとして示されるため、操作結果を確認すると同時にRコードの学習にも役立つ。こうした機能により、初心者でもデータの分布や中心傾向、散らばり具合を直感的に理解でき、次の仮説検定や可視化へと進む基盤を築くことができる。
③ Rコマンダーによるデータ可視化は、数値だけでは捉えにくいデータの傾向や分布を直感的に理解するための基本的な機能である。メニューの「グラフ」から、ヒストグラム、棒グラフ、箱ひげ図、散布図などを選択し、対象変数を指定するだけで簡単に描画できる。生成されたグラフは出力ウィンドウに表示され、データの分布の形や外れ値、変数間の関係などを視覚的に把握できる点が特徴である。また、背後では対応するRコードが自動的に生成されるため、利用者はグラフを得ると同時に、どのコマンドが用いられているかを学習できる。これにより、初心者でも直感的にデータを「見る」ことができ、同時にRスクリプトを理解する足掛かりとなる。可視化は統計解析の出発点として重要な役割を果たす。
キーワード
① データインポート ② 記述統計量 ③ データ可視化
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rコマンダーによるデータインポートの復習では、まずメニューの「データ」から「データのインポート」を選び、CSVやExcelなど外部ファイルを読み込む手順を再確認することが大切である。その際、区切り文字や文字コード、変数名の有無といった設定を正しく指定しないと、データが崩れたり正しく認識されなかったりするため注意が必要である。インポート後には、データセットが正しく読み込まれたかを画面で確認し、行数や列数、変数の内容を点検することが欠かせない。また、Rコマンダーはインポート操作に対応するRコードを自動生成するため、それを確認してコードと操作の対応を理解することも復習の重要な要素である。こうした点を意識することで、単なる操作にとどまらず、統計解析の基盤としてのデータ準備力を養うことができる。
【予習】Rコマンダーによるデータ可視化の予習では、まずどのような種類のグラフが作成できるかを把握することが大切である。メニューの「グラフ」には、ヒストグラム、棒グラフ、箱ひげ図、散布図などの代表的な可視化方法が用意されており、それぞれがどのような目的で使われるかを理解しておくとよい。例えば、ヒストグラムは分布の形を確認するため、散布図は変数間の関係を探るために用いられる。また、グラフ作成の際には軸ラベルやタイトルを指定できるので、結果を読み手に伝わりやすくする工夫も重要である。さらに、Rコマンダーでは背後でRコードが自動生成されるため、予習の段階で「どの操作がどのコードに対応しているか」を意識する準備をしておくと、可視化の理解が深まり、授業での学習効果が高まる。
6
データ解析の第一歩は計算ではない
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第6回はデータ解析の第一歩は計算ではなく、グラフによる可視化であることを説明し、Rコマンダーのグラフ描画機能の実習を行う。
Windows PC
コマ主題細目
① データのパターン発見 ② 外れ値の検出 ③ Rコマンダーによる可視化
細目レベル
① データ解析における「パターン発見」とは、大量の数値や記録の中から繰り返し現れる特徴や傾向を見出すことである。単なる数値の羅列では理解しづらい関係性も、グラフや図表に可視化することで直感的に把握できる。例えば、散布図を用いれば二つの変数が正の相関をもつのか、あるいは無関係なのかが視覚的に示される。また、時系列グラフからは季節変動や長期的なトレンドが明らかになる。こうしたパターンの発見は、新たな仮説の立案や意思決定の根拠を提供する重要なステップであり、統計解析や機械学習の前段階としても位置づけられる。パターンを見抜く力は、単なるデータ処理を超えて知識へと結びつく鍵である。
② データ解析における「外れ値検出」とは、他の観測値と比べて著しく離れた値を見つけ出すことである。外れ値は、測定ミスや入力エラーなどの単純な誤りによって生じる場合もあれば、実際に対象が特殊な状態にあったことを示す場合もある。そのため、外れ値を見つけることはデータの品質管理や解釈の精度を高めるうえで欠かせない。具体的には、箱ひげ図を用いると四分位範囲から大きく外れた点を直感的に確認でき、散布図では全体の傾向から外れて位置する観測値を容易に把握できる。外れ値の扱い方は状況によって異なり、解析から除外する場合もあれば、重要な情報として強調すべき場合もある。したがって外れ値検出は、統計的判断と研究目的の両面を考慮して行う必要がある。
③ Rコマンダーによるデータ可視化の適切な使用法とは、単にグラフを描いて見た目を整えることにとどまらず、データの特徴や関係性を的確に把握するための道具として活用することである。まず、ヒストグラムや箱ひげ図を用いてデータの分布や外れ値を確認し、散布図によって変数間の相関やパターンを探ることが基本となる。その際、軸ラベルやタイトルを明確に設定し、読み手にとって理解しやすい形にする工夫が欠かせない。また、可視化を通じて得られた知見を次の統計的推論や仮説検証につなげる姿勢が重要である。さらに、背後で自動生成されるRコードを確認し、メニュー操作とスクリプトの対応を理解することで、単なる結果の確認からR言語の習得へと発展させることができる。
キーワード
① パターンの発見 ② 外れ値の検出 ③ Rコマンダーによる可視化
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】データ解析における可視化の復習では、まず数値データをグラフに変換することで、分布の形や傾向を直感的に理解できる点を再確認することが重要である。ヒストグラムではデータの広がりや偏りを把握でき、箱ひげ図では外れ値や中央値、四分位範囲を確認できる。散布図を用いれば二つの変数間の相関やパターンを視覚的に捉えられる。これらの可視化は、統計量だけでは見落としがちな特徴を補足し、仮説検証やモデル構築の出発点として役立つ。また、ラベルやタイトルを付与して他者にわかりやすく伝える工夫も重要である。さらに、RやRコマンダーでグラフを描いた際に自動生成されるコードを確認し、どの操作がどのコマンドに対応するかを理解することが、解析スキルの定着につながる。
【予習】データ解析における可視化の予習では、まず「なぜグラフが必要なのか」を意識することが重要である。数値だけでは理解しづらい分布や傾向、外れ値を直感的に捉えるために可視化が用いられることを理解しておくとよい。そのうえで、代表的な可視化手法を整理しておく。ヒストグラムはデータの分布の形を確認するため、箱ひげ図は散らばりや外れ値の有無を把握するため、散布図は二つの変数の関係を調べるために用いられる。また、グラフには軸やラベル、タイトルが必要であり、結果を正しく伝えるための工夫が求められる点も予習しておくとよい。さらに、RやRコマンダーでどのようにグラフを描けるかをメニューや関数例から確認し、どの操作がどの場面で適切かをイメージしておくことで、授業での理解がスムーズになる。
7
グラフいろいろ(1)——インデックスプロット
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第7回はRコマンダーのグラフ描画機能のひとつ「インデックス・プロット」を用いた実習を行い、グラフを用いてデータを可視化する第一歩を踏み出す。
Windows PC
コマ主題細目
① インデックスプロットとは何か ② Rコマンダーでの作図 ③ インデックスプロットで何がわかるか。
細目レベル
① インデックスプロットとは、データの各観測値をその出現順序(インデックス)に沿って並べ、折れ線や点で表現するグラフである。横軸には観測番号や時系列の順序が置かれ、縦軸には各観測値が示されるため、データの変動や推移を直感的に把握できる点が特徴である。特に時系列データの傾向や周期性を確認するのに有効であり、急激な変化や異常値(外れ値)の検出にも利用される。Rコマンダーでは、メニュー操作で簡単にインデックスプロットを描画できるため、観測データの品質点検や前処理の段階で役立つ。数値を表や統計量だけで眺めるよりも、順序に基づく全体像を可視化することで、データの持つ特徴や問題点を早期に発見できる基本的な手法である。
② Rコマンダーでインデックスプロットを作図する際は、メニューの「グラフ」から「インデックスプロット」を選び、対象とする変数を指定するだけで作成できる。横軸には観測順序(ケース番号)が自動的に割り当てられ、縦軸には選択した変数の値が配置され、折れ線または点によってデータの推移が表示される。これにより、数値の羅列では見えにくい増減のパターンや変動の大きさを直感的に確認できる。また、他の観測値から大きく外れた点も容易に特定できるため、外れ値検出やデータの品質確認に有効である。作図と同時にRコードも自動生成されるため、メニュー操作で得られたグラフを再現したり、コードを修正して応用的な可視化に発展させることも可能である。
③ インデックスプロットは、データを観測順に並べることで推移や変動の様子を直感的に把握できる可視化手法である。折れ線や点によって表現されるため、増減のパターンや急激な変化を容易に確認でき、特に外れ値の発見やデータの安定性の判断に有効である。しかし一方で、この手法からはデータ全体の分布の形や平均値・中央値といった統計的特徴を読み取ることはできない。また、単一の変数を対象とするため、変数同士の関係性や複数群の比較を行うことも難しい。そのため、インデックスプロットは主にデータの順序的な動きや異常値の確認を目的として活用され、分布の把握や群間比較を行う場合にはヒストグラムや箱ひげ図、散布図など他の可視化手法と組み合わせる必要がある。
キーワード
① インデックスプロット ② Rコマンダーでの作図 ③ インデックスプロットの特徴
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rコマンダーによるインデックスプロット作図の復習では、まず「グラフ」メニューから「インデックスプロット」を選び、対象とする変数を指定する基本操作を確認することが重要である。横軸には観測順(ケース番号)、縦軸には変数の値が配置され、折れ線または点でデータの推移が描かれるため、値の増減パターンや外れ値の有無を直感的に把握できる。復習の際には、データが時間や順序に応じてどのように変動しているかを読み取り、安定性や異常点の有無を確認する練習を行うとよい。また、可視化と同時に自動生成されるRコードを確認し、どのコマンドでプロットが描かれているのかを理解することで、Rスクリプト学習にもつなげられる。インデックスプロットは単純な可視化であるが、データ点検に役立つ基礎的手法であることを意識して復習する必要がある。
【予習】Rコマンダーにおけるヒストグラム作図の予習では、まずヒストグラムが「データの分布の形」を直感的に把握するための手法であることを理解しておくことが重要である。横軸には変数の数値範囲、縦軸には度数(観測数)が示され、データがどの範囲に多く集まっているか、偏りや広がりがあるかを確認できる。予習の際には、メニューの「グラフ」から「ヒストグラム」を選び、対象となる変数を指定する手順を把握しておくとよい。また、階級幅(ビン幅)の設定によって分布の見え方が変わるため、異なる設定で比較しながら特徴を読み取る練習をすると理解が深まる。
8
グラフいろいろ(2)——ヒストグラム・ドットプロット・箱ひげ図
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第8回はRコマンダーを用いて「ヒストグラム」の実習を行い、グラフによって可視化される属性が異なることを説明する。
Windows PC
コマ主題細目
① ヒストグラム ② ドットプロット ③ 箱ひげ図
細目レベル
① Rコマンダーでのヒストグラム作図は、データの分布を視覚的に確認する基本的な可視化手法である。メニューの「グラフ」から「ヒストグラム」を選び、対象となる変数を指定することで簡単に作成できる。横軸には変数の数値範囲が区切られて表示され、縦軸には各区間に含まれるデータの度数が棒の高さで表されるため、どの範囲にデータが集中しているかや分布の形状(正規分布に近いか、偏りがあるかなど)を直感的に把握できる。また、階級幅の設定を変更することで分布の見え方が変わる点も特徴である。さらに、作図と同時に対応するRコードが自動生成されるため、GUI操作で得られた結果を確認するとともに、R言語でのスクリプトの書き方を学習する機会にもなる。
② Rコマンダーにおける箱ひげ図の作成は、データの分布と散らばりを視覚的に示す基本的な方法である。メニューの「グラフ」から「箱ひげ図」を選び、対象変数を指定すると、中央値・四分位範囲・最大値・最小値が箱とひげで表され、さらに外れ値が点として表示される。これにより、データの中心がどこにあるか、値のばらつきがどの程度か、そして外れ値が存在するかを直感的に把握できる。複数グループを指定すれば群間比較も可能で、平均値の比較よりも分布全体の違いを示すのに適している点が特徴である。復習時には、箱の高さが分散を示し、ひげや外れ値の解釈に注意することが重要である。また、作図と同時に自動生成されるRコードを確認し、操作とスクリプトの対応を理解することで、統計的思考とRの学習を並行して深められる。
③ 箱ひげ図とヒストグラムはいずれもデータの分布を示す可視化手法であるが、その表現内容と用途には明確な違いがある。箱ひげ図は、データの中央値や四分位範囲、最大値・最小値、さらには外れ値の有無を簡潔に示すことができ、分布の要約統計量を視覚的に表現する点に特徴がある。そのため、複数のグループを並べて比較し、ばらつきや中心の位置の違いを確認するのに適している。一方、ヒストグラムはデータを区間に分けて度数を棒の高さで示し、分布の形状を直感的に把握できる点に特徴がある。山が一つか複数か、左右に偏りがあるかなど、分布の具体的な形を理解するのに有効である。ただし外れ値や四分位数といった要約統計量は明示されない。このように、箱ひげ図は分布の要約比較に強く、ヒストグラムは分布の形を捉えるのに強いという違いがある。
キーワード
① ヒストグラム ② 箱ひげ図
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rコマンダーにおける箱ひげ図とヒストグラムの復習では、それぞれの特徴と使い分けを確認することが重要である。箱ひげ図は、データの中央値や四分位範囲、最大値・最小値、外れ値を一目で把握できる可視化手法であり、特に複数グループを並べて比較する際に有効である。復習の際には、箱の高さが散らばりを示すことや、外れ値の位置に注目することが求められる。一方、ヒストグラムはデータを区間ごとに区切り、その度数を棒の高さで表すため、分布の形状や偏り、山の数などを直感的に理解するのに適している。階級幅を変えると分布の見え方が変わる点も復習ポイントとなる。さらに、両者をRコマンダーで作図する際に自動生成されるRコードを確認し、メニュー操作とコマンドの対応を理解することで、可視化とRスクリプト学習を結びつけることができる。
【予習】Rコマンダーにおける散布図の予習では、まず散布図が「二つの数値変数の関係を視覚的に示す」ための基本的な手法であることを理解しておくことが重要である。横軸と縦軸に異なる変数を割り当てることで、相関の有無や強さ、直線的か非線形かといった関係の特徴を確認できる。予習の段階では、どのような場合に散布図を用いるのかを意識し、例えば身長と体重、温度と植物の成長量といった例を考えてみるとよい。また、外れ値がどのように散布図上に現れるかを想像することも理解を助ける。Rコマンダーではメニューの「グラフ」から「散布図」を選び、対象となる二変数を指定するだけで作成できる。さらに、散布図と同時に生成されるRコードを確認する準備をしておくことで、GUI操作とスクリプト学習をつなげられる点も予習内容として押さえておきたい。
9
グラフいろいろ(3)——共変動と散布図
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第9回はRコマンダーを用いて「散布図」の実習を行い、複数のデータ間の関係の可視化について学ぶ。
Windows PC
コマ主題細目
① 相関関係の可視化 ② 散布図 ③ 外れ値の検出
細目レベル
① Rコマンダーの散布図における「相関関係の可視化」とは、二つの数値変数の関係性を点の配置として表し、その傾向を視覚的に理解することである。横軸と縦軸に異なる変数を設定すると、正の相関では右上がりのパターン、負の相関では右下がりのパターンが現れ、無相関の場合は点がばらばらに散らばる。これにより、数値計算で相関係数を求めなくても、関係性の強さや方向を直感的に把握できるのが利点である。また、全体の傾向から外れた点を発見することも可能であり、データの異常検出にも役立つ。Rコマンダーではメニュー操作で散布図を容易に作成でき、同時に自動生成されるRコードを確認することで、可視化とスクリプト学習を結びつけられる点も重要である。
② Rコマンダーの散布図における「データセットの傾向性」とは、二つの変数を軸にとって点を配置したときに現れる全体的なパターンを指す。例えば、点が右上がりに並べば正の相関が、右下がりに並べば負の相関が示され、点が無秩序に散らばっていれば相関は弱いか存在しないと判断できる。また、点の集まり方からは直線的関係だけでなく、曲線的傾向や特定の集団ごとのクラスタリングを見出すことも可能である。散布図は単なる二変数の比較にとどまらず、外れ値や分布の広がりを含めて全体のデータ構造を把握する手掛かりを提供する。Rコマンダーではメニューから簡単に散布図を作成できるため、統計量の計算とあわせて傾向性を直感的に確認する予習・復習の基盤となる。
③ Rコマンダーの散布図における「外れ値の検出」とは、全体の点の分布から大きく離れて位置するデータ点を視覚的に見つけることである。散布図では、二つの変数の関係が点群として表現されるため、ほとんどの点が一定の傾向に沿って並ぶのに対し、その流れから外れた点が外れ値として浮かび上がる。例えば、右上がりの正の相関が明確に見える場合でも、その傾向から大きく外れた点が一つあれば、それは測定ミスやデータ入力の誤り、あるいは特殊な条件を示す重要な情報源である可能性がある。Rコマンダーでは簡単に散布図を作成できるため、数値計算だけでは把握しにくい異常値を直感的に確認できる。外れ値の扱いは状況に応じて異なり、削除するのか、むしろ注目して解釈するのかを判断することが重要である。
キーワード
① 相関関係の可視化 ② 散布図 ③ 外れ値の検出
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rコマンダーの散布図に関する復習では、まず二つの数値変数を選んでメニューから「グラフ」→「散布図」を実行する基本操作を確認することが重要である。散布図は横軸と縦軸に異なる変数を置き、点の配置から変数間の関係を視覚的に把握する手法であり、正の相関なら右上がり、負の相関なら右下がりの傾向が現れる。点がばらばらに散らばっていれば相関は弱いと判断できる。また、全体の傾向から外れた点は外れ値として検出でき、データの異常確認に役立つ。復習の際には、相関の強さや方向、外れ値の有無、点の分布の広がりを意識して読み取る練習を行うとよい。さらに、Rコマンダーが自動生成するRコードを確認し、メニュー操作とスクリプトの対応を理解することで、散布図を通じた可視化とRスクリプト学習を結びつけることができる。
【予習】Rコマンダーの3次元散布図に関する予習では、三つの数値変数の関係を同時に可視化できる点を理解しておくことが重要である。横軸・縦軸・奥行きの三方向に異なる変数を割り当てることで、二次元散布図では把握できない複雑なパターンや関係性を直感的に捉えることができる。例えば、身長・体重・年齢といった三変数を同時にプロットすることで、多変量的な傾向を視覚的に確認できる。Rコマンダーでは「グラフ」メニューから3次元散布図を選び、対象変数を指定するだけで作図可能であり、必要に応じて回転表示による視点の切り替えも行える。予習段階では、三変数をどう選べば有効な可視化につながるかを考え、どのような関係性が浮かび上がるかをイメージしておくとよい。また、自動生成されるRコードを確認する準備も学習の一助となる。
10
グラフいろいろ(4)——多変量データと3次元散布図
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第10回はRコマンダーを用いて「3次元散布図」の実習を行い、データが増えたときにそれらの間の関係がどのように可視化できるかについて説明する。
Windows PC
コマ主題細目
① 多変量データの可視化 ② 高次元空間の表示 ③ パターン発見
細目レベル
① Rコマンダーの三次元散布図を用いた多変量データの可視化は、三つの数値変数の相互関係を立体的に表現し、二次元では捉えにくい特徴を明らかにする手法である。横軸・縦軸・奥行きにそれぞれ異なる変数を割り当てることで、三変量の同時的な変動パターンを確認でき、データが特定の傾向に沿うのか、あるいは複数の集団に分かれるのかを視覚的に把握できる。また、外れ値や非線形的な関係も浮かび上がりやすく、多変量解析に進む前の探索的段階として有用である。Rコマンダーでは「グラフ」メニューから簡単に作図でき、表示を回転させることで視点を変え、多角的にデータを観察できる点も特徴である。さらに、自動生成されるRコードを確認すれば、GUI操作にとどまらずスクリプト学習にもつながる。
② Rコマンダーの三次元散布図を用いた高次元空間の表示は、多数の変数をもつデータの一部を三つ選び、立体的に可視化することで構造を把握する手法である。高次元データは直接的に視覚化できないが、代表的な三変数を選んで三次元散布図に描くことで、潜在的なパターンやクラスタリングの傾向を直感的に確認できる。例えば、4変数以上を含むデータから重要な三つを取り出せば、全体の特徴を部分的に視覚化でき、相関や外れ値の検出にも役立つ。ただし三次元表示は高次元の情報を完全には表現できないため、主成分分析など次元削減手法と組み合わせることが望ましい。Rコマンダーではメニュー操作で容易に三次元散布図を描けるほか、回転表示で異なる視点からデータを観察できる点も高次元理解の補助となる。
③ Rコマンダーの三次元散布図を用いたデータのパターン発見は、多変量データの中に潜む関係性や構造を直感的に把握するための有効な手法である。横軸・縦軸・奥行きに三つの変数を割り当てることで、点群としてデータが表示され、二次元散布図では見えにくい集団の分かれ方や非線形的な傾向を観察できる。例えば、データが複数のクラスターにまとまる様子や、一部の変数が他の二つと組み合わさることで新しいパターンを形成することが明らかになる。また、外れ値の特定や変動の方向性を視覚的に把握できるのも特徴である。Rコマンダーではメニュー操作で容易に作図でき、回転表示によって異なる角度から点群を確認することで、データの持つ多面的な構造を探索できる。これにより、統計解析やモデリングの前段階として仮説生成やデータ理解を深めることが可能になる。
キーワード
① 多変量データの可視化 ② 高次元空間の表示 ③ パターン発見
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rコマンダーの3次元散布図に関する復習では、まず「グラフ」メニューから「3次元散布図」を選び、三つの数値変数を指定して作図する基本操作を確認することが重要である。横軸・縦軸・奥行きに異なる変数を割り当てることで、二次元では把握できない多変量的な傾向を視覚的に捉えることができる。復習の際には、点群の配置から相関関係や非線形的なパターン、クラスタリングの有無を読み取る練習を行うとよい。また、全体の流れから外れたデータ点が外れ値として浮かび上がる点にも注目する必要がある。さらに、表示を回転させることで異なる視点から構造を観察できるため、多角的にデータを理解する習慣を身につけることが望ましい。あわせて自動生成されるRコードを確認し、GUI操作とスクリプト学習を結びつけることが復習内容として重要である。
【予習】これまでRコマンダーを用いて作図してきたさまざまな統計グラフの類似点と相違点を相互比較してみよう。
11
グラフいろいろ(5)——条件付き散布図と散布図行列
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第11回はこれまで使ってきたさまざまなグラフがデータのどのような側面を可視化しているかについて振り返る回である。
Windows PC
コマ主題細目
① 条件付き散布図 ② 散布図行列 ③ 統計グラフの比較
細目レベル
① Rコマンダーの条件付き散布図は、二つの数値変数の関係を第三のカテゴリ変数ごとに分割して表示する可視化手法である。例えば「身長」と「体重」の関係を性別や地域ごとに散布図として示すことで、全体をまとめて表示した場合には見えにくいグループ間の違いを直感的に把握できる。横軸と縦軸に二変数を配置し、条件となる変数の水準ごとに小さなパネルが作成され、それぞれに点がプロットされる。これにより、相関の強さや傾向がグループごとに異なるかどうかを容易に確認でき、データの背後にある構造や潜在的な要因を探索する手掛かりとなる。Rコマンダーではメニュー操作で簡単に条件付き散布図を作成でき、同時に自動生成されるRコードを確認することで、GUI操作を通じてRスクリプト学習へと発展させることも可能である。
② Rコマンダーの散布図行列は、複数の数値変数間の関係を同時に視覚化できる便利な手法である。選択した変数群について、縦軸と横軸の組み合わせごとに散布図が描かれ、データセット全体の相関構造を一目で把握できる点が特徴である。例えば、4つの変数を選べば、6種類の二変量散布図が自動的に配置され、正の相関、負の相関、あるいは相関が弱い関係を比較できる。また、対角部分には変数ごとのヒストグラムや密度分布が表示される場合もあり、単変量の分布と多変量の関係を同時に確認できる。Rコマンダーではメニュー操作で簡単に作図でき、背後で生成されるRコードを確認することで、多変量データ解析の基礎を学ぶことにもつながる。散布図行列は、変数間のパターン発見や分析方針の決定に有効な探索的手法である。
③ Rコマンダーの統計グラフには、ヒストグラム、箱ひげ図、散布図、インデックスプロット、条件付き散布図、3次元散布図など多様な種類があり、それぞれ異なる目的で用いられる。ヒストグラムはデータ分布の形状を直感的に示し、偏りや山の数を把握するのに有効である。箱ひげ図は中央値や四分位範囲、外れ値を簡潔に示し、群間比較に適している。散布図は二変数の相関関係や外れ値を視覚的に捉えることができ、条件付き散布図はカテゴリごとの違いを比較するのに便利である。さらに、3次元散布図は三変数を同時に表示し、複雑な関係やクラスタリングを探るのに役立つ。一方、インデックスプロットは観測順に沿った変動を確認するのに適している。このように、Rコマンダーの統計グラフは目的に応じて使い分けることで、データ理解を多角的に深めることができる。
キーワード
① 条件付き散布図 ② 散布図行列 ③ 統計グラフの比較
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】Rコマンダーの統計グラフの長所は、メニュー操作で直感的に多様な可視化が可能であり、初心者でもヒストグラム・箱ひげ図・散布図・3次元散布図などを容易に作成できる点にある。さらに、操作に応じて自動生成されるRコードを確認できるため、GUI操作とRスクリプト学習を同時に進められる教育的な利点も大きい。また、データの分布や相関、外れ値の確認といった探索的解析を効率的に行える点も強みである。一方で短所としては、複雑なカスタマイズや高度なグラフィック表現には限界があり、ggplot2のような高度な可視化パッケージに比べ自由度が低いことが挙げられる。また、三次元散布図や条件付き散布図などは見やすさや解釈に制約があり、大規模データの処理にも不向きである。したがって、入門から基礎的な可視化には有効だが、応用にはスクリプトによる補完が必要となる。
【予習】データセットの「ばらつき(分散)」を直感的に理解するには、数値だけでなくグラフを用いて分布の広がりを目で確認することが有効である。例えば、ヒストグラムを描けば、データがどの範囲に多く集まっているかや、左右に広がっているかが直感的にわかる。箱ひげ図を使えば、四分位範囲の広さや外れ値の有無からばらつきの大きさを把握できる。また、同じ平均値をもつ二つのデータセットでも、点の散らばり方を散布図やインデックスプロットで比較すれば、分散の大小を感覚的に理解できる。数式での分散の定義(平均との差の二乗の平均)を意識しながら、実際のデータを可視化して確認することで、ばらつきを単なる数値ではなく「広がり」として体感的に捉えることができる。
12
データのばらつきを見る
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第12回はデータの「ばらつき」をどのように理解するかという新たな段階に入る。データがばらつくとはどういうことかをじっくり理解することは統計データ解析の最初の一歩である。
Windows PC
コマ主題細目
① データの分散(ばらつき) ② 分散の可視化 ③ 数値化に向けて
細目レベル
① データセットの分散(ばらつき)とは、観測値が平均値のまわりにどの程度散らばっているかを数値で表した指標である。平均だけでは「中心」が示されるにすぎず、データがその周辺に密集しているのか、広く分布しているのかはわからない。そこで各観測値と平均値との差(偏差)を計算し、その二乗を平均したものが分散である。分散が大きければデータは広くばらついており、分散が小さければ平均付近に集中していることを意味する。例えば、テストの平均点が同じでも、点数が50~90点に分かれるクラスと70~80点に集中するクラスでは、前者の分散が大きい。分散は標準偏差と並び、データの変動の大きさを定量的に理解するための基本的な尺度であり、統計的推論やモデル化の基盤を成す重要な概念である。
② データセットの分散(ばらつき)の可視化は、数値指標だけではわかりにくいデータの広がりを直感的に理解するために有効である。代表的な方法としてヒストグラムがあり、分布が広く平坦なら分散が大きく、山が鋭く集中していれば分散が小さいことが視覚的に把握できる。箱ひげ図では、箱の長さが四分位範囲を示し、これが大きいほど分散が大きいことがわかる。また、外れ値の有無も視覚的に確認できる点が特徴である。さらに、インデックスプロットや散布図を用いれば、個々のデータ点の散らばり具合を直接見ることができる。こうした可視化は、平均値が同じでも分散が異なるデータセットの違いを示すのに有効であり、分散を「数式で定義された値」ではなく「データの広がり」として直感的に理解する助けとなる。
③ データセットの分散(ばらつき)の数値化とは、データの広がりを定量的に表すために、平均からのずれを数式で計算することである。具体的には、まず各観測値と平均値との差(偏差)を求め、それを二乗して正の値に変換し、「自由度」で割ることで平均を取ったものが「分散」である。この計算によって、データが平均の周囲に密集しているか、あるいは大きく散らばっているかを数値で比較できるようになる。ただし分散は二乗値を含むため元の単位と異なる。そこで平方根を取った「標準偏差」がよく使われ、直感的な解釈がしやすい。例えば、平均点70の試験で分散が小さければ多くの学生が70点前後に集中し、分散が大きければ点数が大きくばらついていることを示す。分散の数値化はデータ特性を把握するうえで不可欠な基礎手法である。
キーワード
① 分散(ばらつき) ② 可視化 ③ 数値化
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】データセットの分散(ばらつき)の復習では、まず「分散とは平均からのずれの大きさを二乗して平均した値」であることを理解することが基本である。平均値だけではデータの中心はわかっても散らばりの程度は示せないため、分散はデータの変動の大きさを数値化する重要な指標となる。復習の際には、分散が大きければデータが広く散らばり、小さければ平均付近に集中していることを具体例で確認することが大切である。また、分散は元の単位の二乗で表されるため、平方根を取った標準偏差が直感的に理解しやすいことも整理しておく必要がある。さらに、ヒストグラムや箱ひげ図などの可視化とあわせて確認することで、数式としての理解と直感的な理解を結びつけることができ、分散を実際のデータ解析に生かせるようになる。
【予習】データセットの平均に関する予習では、まず「平均」とはデータの代表値であり、全体の傾向を表す基本的な指標であることを理解することが重要である。具体的には、観測値の合計をデータ数で割った算術平均が最も一般的であり、数値データの中心を示す役割をもつ。予習段階では、平均が「データの真ん中」ではなく「全体のバランス点」であることを意識すると理解が深まる。例えば、数直線上に重りを置いたときに均衡が取れる位置が平均にあたる。また、平均は外れ値の影響を受けやすいため、極端に大きい値や小さい値が含まれると結果が偏ることも理解しておく必要がある。平均値だけではデータの広がりを示せないため、分散や中央値など他の指標と組み合わせて解釈する重要性も予習内容として押さえておきたい。
13
平均とは何か?
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第13回はデータの「平均」に着目する。データの集まり(「データセット」)の“まんなか”が何を意味するかについて考える。
Windows PC
コマ主題細目
① 代表値としての平均 ② 平均値と中央値 ③ 外れ値の影響
細目レベル
① データセットの平均は、最も基本的で広く用いられる代表値であり、全体の傾向を示す「中心」の指標である。算術平均は、観測値の総和をデータ数で割ることで求められ、数直線上で考えれば、すべての値の重みがつり合う「バランス点」として理解できる。このため、平均はデータ全体を一つの値で要約し、異なる集団や条件を比較する際の基準として有効に機能する。ただし、平均は外れ値の影響を受けやすく、極端な値が含まれる場合には全体の特徴を正しく反映しないこともある。そのため、平均を解釈するときは中央値や最頻値といった他の代表値や、分散・標準偏差などのばらつきを示す指標とあわせて検討することが望ましい。平均は便利であるが万能ではなく、データの特性に応じた使い分けが重要である。
② 平均値と中央値(メディアン)はいずれもデータの中心を表す代表値であるが、その性質には明確な違いがある。平均値は観測値の合計をデータ数で割った値で、全体の「バランス点」としてデータを要約できる。しかし、極端に大きい値や小さい値(外れ値)が含まれると大きく影響を受けやすいという弱点がある。一方、中央値はデータを小さい順に並べたときに中央に位置する値であり、データの半分がその値以上、半分がその値以下となる。中央値は外れ値の影響を受けにくく、偏った分布においても「典型的な値」を示す指標として有効である。例えば、所得のように一部に極端な高額値が含まれる場合、平均値は大きく引き上げられるが、中央値は大多数の実態を反映する。このように、平均値は全体の均衡を示し、中央値は分布の中間を示すという違いがある。
③ 外れ値が平均に及ぼす影響は大きく、平均値の信頼性を損なうことがある。平均は観測値の合計をデータ数で割って求めるため、極端に大きな値や小さな値が一つ含まれるだけで、全体のバランス点がその方向に引き寄せられる。例えば、テストの点数がほとんど70~80点に集中している中で1人だけ0点を取ると、平均点は実態よりも低く計算されてしまう。同様に、所得データでは一部の高額所得者が平均を押し上げ、多くの人の実情を反映しにくくなる。このため、外れ値を含むデータでは平均だけを用いるのではなく、中央値や最頻値といった外れ値の影響を受けにくい指標をあわせて確認することが望ましい。外れ値の存在は異常値検出や特殊事例の手掛かりにもなるため、平均への影響とともにその意味を検討する姿勢が必要である。
キーワード
① 代表値としての平均 ② 平均値と中央値 ③ 外れ値の影響
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】平均に関する復習では、まず平均が「データ全体の代表値」として、観測値の合計をデータ数で割って求める算術平均であることを確認する必要がある。平均はデータの中心的傾向を示す基本指標であり、全体の「バランス点」として理解できる。ただし、外れ値の影響を強く受けるため、極端な値が含まれると実態を正しく反映しない場合があることを理解しておくことも重要である。そのため、復習の際には、平均値を単独で用いるのではなく、中央値や最頻値、分散や標準偏差といった他の指標と組み合わせてデータを解釈する姿勢を確認することが望ましい。また、同じ平均値をもつデータセットでも分散の大きさによって特徴が異なることを具体例で確認することで、平均の限界と役割をより深く理解できる。
【予習】偏差に関する予習では、まず「偏差とは各データが平均値からどの程度ずれているかを示す値」であることを理解することが重要である。平均はデータ全体の中心を表すが、個々のデータが平均にどれだけ近いか、あるいは離れているかは偏差によって確認できる。具体的には、各観測値から平均値を引いた値が偏差であり、正なら平均より大きい、負なら平均より小さいことを意味する。予習の段階では、いくつかの小さなデータセットを用意し、平均を計算した上で各データの偏差を求める練習をすると理解が深まる。ただし、偏差の合計は常にゼロになるため、そのままではばらつきの大きさを表せないことも確認しておく必要がある。この点が分散や標準偏差と結びつく基礎となるため、偏差の概念を直感的に理解しておくことが大切である。
14
偏差とは何か?
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第14回はデータの「ばらつき」に目を向ける。データセットの平均から個々のデータがどのようにばらつくのかを知ることで、そのばらつきを数値として表すことができる。各データのばらつきを表す値が「偏差」である。この偏差はそのあとに続くデータ解析の出発点となる。
Windows PC
コマ主題細目
① 平均からのズレ ② 正負の符号 ③ 総和はゼロ
細目レベル
① 偏差とは、各データが平均からどれだけ離れているかを示す「ズレ」の大きさである。具体的には、観測値から平均値を引いた値が偏差となり、平均より大きいデータは正の偏差、平均より小さいデータは負の偏差として表される。これにより、各データが全体の中心と比べて高いのか低いのかを判断できる。例えば、クラスのテスト平均点が70点で、ある学生が80点なら偏差は+10、60点なら−10となる。偏差を全体で足すと必ずゼロになるため、そのままではばらつきの大きさを表せないが、分散や標準偏差といった指標を導く基礎となる。つまり、偏差は「平均を基準にした相対的な位置」を示すものであり、データの広がりを理解する出発点となる重要な概念である。
② 偏差の正負の符号は、各データが平均と比べてどの位置にあるかを示す重要な手掛かりである。偏差は「観測値-平均」で計算されるため、観測値が平均より大きければ正の値となり、平均より小さければ負の値となる。例えば、平均点が70点の試験で80点を取れば偏差は+10、60点なら−10となる。このように符号によって「平均より高いか低いか」が直感的にわかる。ただし、すべてのデータの偏差を合計すると必ずゼロになるため、正と負が互いに打ち消し合ってしまい、データ全体の散らばりの大きさは直接的には表せない。そのため、偏差を二乗して平均した「分散」や、その平方根である「標準偏差」がばらつきを数値化する指標として用いられる。偏差の符号は個々のデータ位置を理解するための基礎的な情報である。
③ 偏差の総和はゼロになるという性質は、平均の定義そのものに基づいている。偏差とは各データから平均値を引いた値であり、すべての偏差を足し合わせると「観測値の総和-(平均×データ数)」となる。平均は観測値の総和をデータ数で割った値であるため、この計算は必ずゼロになる。例えば、データが60, 70, 80であれば平均は70となり、偏差は−10, 0, +10であり、その合計はゼロである。この性質は、平均がデータ全体の「重心」や「バランス点」として位置付けられる根拠でもある。ただし偏差の総和がゼロであるため、データのばらつきの大きさを直接示すことはできない。そこで偏差を二乗して自由度で平均した「分散」や、その平方根である「標準偏差」が導入され、データセットのばらつきを定量的に表す指標として用いられる。
キーワード
① 平均からのズレ ② 正負の符号 ③ 総和はゼロ
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】偏差に関する復習では、まず偏差が「各データから平均を引いた値」であり、データが平均より大きいと正、小さいと負になることを整理しておく必要がある。偏差は個々の観測値が平均からどの程度ずれているかを示す指標であり、平均を基準とした相対的位置を理解するのに役立つ。具体例として、平均点70点の試験で80点なら偏差は+10、60点なら−10となる。このとき、すべての偏差を合計すると必ずゼロになるという性質も復習の重要ポイントである。このため、偏差そのものの総和ではばらつきの大きさを表せないことを理解し、そこから分散や標準偏差といった指標が導かれることを確認しておくとよい。偏差は単なる計算結果ではなく、ばらつきを数値化する基礎概念として統計学の出発点をなす。
【予習】データ視覚化全般に関する予習では、まず「視覚化の目的」が単なる図の作成ではなく、データの特徴を直感的に理解し、他者に分かりやすく伝えることであることを意識することが重要である。数値だけでは把握しにくい分布の形、傾向、外れ値、変数間の関係などをグラフにすることで容易に発見できる。代表的な視覚化手法として、分布を示すヒストグラム、散らばりや外れ値を示す箱ひげ図、変数間の関係を示す散布図などがあり、それぞれの役割と使い分けを整理しておくとよい。また、軸ラベルやタイトルを付けるなど、結果を正しく解釈し他者に伝達するための工夫も欠かせない。
15
データ可視化からその先へ——総括
科目の中での位置付け
自然界や生物の観察データは、必ずしも一定の値を示すのではなく、遺伝的・環境的要因などにより常にばらつきを伴う。このばらつきを「変量」として理解し、平均・分散などを用いて定量的に記述できるようになることを目指す。また、ばらつきから出発して仮説の立案・推定・検定へとつなげる統計的推論の基本的枠組みを理解する。生物学的・農学的・医学的な具体的課題に即して、統計手法を問題解決の道具として主体的に選択・適用できる能力を育成する。統計手法は目的ではなく、あくまで手段である。実際の研究や実務における課題を出発点とし、それに最も適した統計的アプローチを自ら選び、実際に適用できるようになることが求められる。統計学を「生物」の問題から発して構築されてきた思考体系として捉える姿勢を重視する。統計手法の前提条件や適用限界を理解し、数式やソフトウェアに盲目的に依存せず、批判的かつ論理的に判断できる力を養う。今日では多くの統計解析ソフトウェアが普及しており、誰でも手軽に解析が可能になっているが、解析結果が常に妥当であるとは限らない。どのような前提で手法が成り立っているのか、現場のデータがその前提を満たしているかを評価し、必要に応じて代替手法や補正を考慮する判断力が不可欠である。それとともに、統計言語R(およびRコマンダー)を用いたデータ解析の初歩を解説する。統計学全体を俯瞰し、自身の課題に応じて適切な手法を選択・応用する柔軟性と、知的好奇心をもって学び続ける姿勢を確立する。本科目は統計学の講義ではあるが、数学はほとんど出さない。第15回はこれまでの回を総括し、生のデータを「見る」ことにより、どのような統計データ解析の世界が開かれるのかをまとめる。
Windows PC
コマ主題細目
① データとモデル ② 統計的推定 ③ 仮説検定
細目レベル
① データ可視化と統計モデルは、データ解析において互いを補完し合う重要な関係にある。可視化は、数値の羅列では捉えにくい分布の形や傾向、外れ値、変数間の関連を直感的に示し、モデル化に向けた仮説や着想を与える役割をもつ。例えば、散布図から直線的な関係が見えれば回帰モデルを、非線形なパターンがあれば曲線モデルを検討するきっかけとなる。一方、統計モデルは数式によってデータの背後にある構造を定量的に表現し、可視化だけでは不確かな推測を検証可能な形に落とし込む。モデルの妥当性を評価する際にも、残差プロットや予測値と観測値の比較など可視化が用いられ、理解を助ける。つまり、可視化はモデル構築の出発点であり、モデルは可視化を裏付ける数理的枠組みとして機能するのである。
② データ可視化と統計的推定は、データ解析の過程において密接に結びついている。可視化は、数値の背後にある分布の形や傾向を直感的に把握する手段であり、推定の前段階として重要な役割を果たす。例えば、ヒストグラムによってデータが正規分布に近いかどうかを確認すれば、その後に平均や分散の区間推定を行う際の前提を検討できる。また、散布図を用いて変数間の関係を視覚的に確認すれば、回帰モデルに基づく推定の妥当性を判断する手がかりとなる。一方、統計的推定は可視化で得た直感的理解を数値的に裏付ける手法であり、母集団の性質を有限のサンプルから一般化する役割を担う。つまり、可視化は推定の仮説や前提を探る出発点であり、推定はその印象を統計的に検証・定量化する手段である。
③ データ可視化と仮説検定は、統計的推論において相補的な役割を担う。可視化は、データの分布や傾向、群間の違いを直感的に示し、仮説設定の出発点となる。例えば、二つのグループの箱ひげ図を比較して平均値が異なるように見えれば、「両群の平均は等しい」という帰無仮説を検定で検証する動機となる。また、散布図で正の傾向が観察されれば、相関係数が統計的に有意かどうかを検定する流れにつながる。一方、仮説検定は可視化で得られた印象が単なる偶然なのか、統計的に有意な差や関係なのかを数値的に裏付ける役割を果たす。したがって、可視化は検定の前段階で探索や仮説形成を助け、検定はその印象を検証し確証を与えるという関係にある。両者を組み合わせることで、より信頼性の高い解釈が可能となる。
キーワード
① データとモデル ② 統計的推定 ③ 仮説検定
コマの展開方法
社会人講師
AL
ICT
PowerPoint・Keynote
教科書
コマ用オリジナル配布資料
コマ用プリント配布資料
その他
該当なし
小テスト
「小テスト」については、毎回の授業時間内に、ヨリソル上において当該コマの小テスト(難易度表示付き)を実施します。
復習・予習課題
【復習】データ可視化と統計モデル・推定・検定の関係を復習すると、まず可視化はデータの分布や傾向を直感的に把握し、分析の出発点となる役割をもつ。散布図やヒストグラム、箱ひげ図などを通じて、外れ値の有無や相関関係、分布の形を確認し、その後に構築すべき統計モデルの方向性を考える手掛かりとなる。統計モデルは、可視化で見えたパターンを数式で表現し、データの背後にある構造を定量的に説明する枠組みである。推定は、モデルに基づいて母集団の平均や分散などをサンプルから一般化する過程であり、可視化の印象を数値化する役割を果たす。さらに、仮説検定は可視化や推定から得られた直感的な違いや関係が偶然かどうかを統計的に判断する手法である。これらを組み合わせて復習することで、探索から数値的裏付けまでの一連の流れを体系的に理解できる。
【予習】データ可視化に続く統計モデル・推定・検定については「環境データ解析の基礎」で講義します。
履修判定指標
履修指標
履修指標の水準
キーワード
配点
関連回
ばらつきを統計的に表現できる力
データのばらつきを「変量」として捉え、平均・分散などの指標を使って定量的に表現できること。
ばらつき、変量、平均、分散、標準偏差
10
1, 5, 8, 13, 14
統計的推論の基礎理解
データの背後にある不確実性を考慮し、推定・検定などの統計的推論を基盤として説明できる力。
推定、検定、仮説、母集団、不確実性
10
1, 6, 8, 15
データ可視化の基礎技能
ヒストグラムや散布図など基本的な可視化を使って、数値から傾向や外れ値を読み取れること。
可視化、ヒストグラム、散布図、外れ値、傾向
10
1, 5, 6
Rの基本操作習熟
R環境での基礎操作(計算、データ構造、基本的な統計量算出)や、Rコマンダーの利用経験。
R、コンソール、ベクトル、データフレーム、演算
10
2, 5. 9
RコマンダーのGUI活用とコード理解
メニュー操作でデータインポート・記述統計・可視化を行い、その背後のRコードを確認できること。
GUI、メニュー操作、Rスクリプト、解析結果
10
4, 5, 6
データインポートと前処理能力
CSVやExcelのデータを正しくインポートし、行数・列数・変数を確認できること。誤った設定(文字コードや区切り)の回避。
CSV、Excel、文字コード、変数名
10
5, 6. 9
記述統計量の算出と解釈
平均・中央値・標準偏差などの記述統計を求め、分布の特徴や散らばりを理解できること。
中央値、最小値、最大値、分布、度数分布
10
5, 8, 10, 12, 13
外れ値検出とパターン認識
箱ひげ図や散布図を用いて外れ値を適切に把握し、データのパターンや相関を視覚的に確認できること。
外れ値、箱ひげ図、散布図、パターン
10
6, 7, 8
インデックスプロットによる変動把握
データの順序的な変化をインデックスプロットで確認し、外れ値や変動傾向を読み取れること
インデックス、変動、異常値、順序データ
10
7, 8, 9
可視化手法の比較と適切な選択
ヒストグラムと箱ひげ図の違いを理解し、目的に応じて適切な手法を選んで解釈できること。
箱ひげ図、ヒストグラム、中央値、分布形状
10
8, 9, 10, 11
評価方法
試験(100%)により評価する。
評価基準
評語
学習目標をほぼ完全に達成している・・・・・・・・・・・・・
S (100~90点)
学習目標を相応に達成している・・・・・・・・・・・・・・・
A (89~80点)
学習目標を相応に達成しているが不十分な点がある・・・・・・
B (79~70点)
学習目標の最低限は満たしている・・・・・・・・・・・・・・
C (69~60点)
学習目標の最低限を満たしていない・・・・・・・・・・・・・
D (60点未満)
教科書
なし
参考文献
なし
実験・実習・教材費
なし