小休止
特別枠:数学夏祭り(統計)
お祭り男ではないが,夏祭りなるものに参加してみた.
問題
下表の2変量データとXとY(サイズ \(n=200\))の相関係数を,小数第3位まで求めよ.

問題の著作権は数学夏祭り実行委員会に帰属します.
リンク先:https://mathmatsuri.org/
方法
エクセル(スプレッドシート)にデータを突っ込むか,プログラミング組むかして,一挙に計算してみましょう.
もちろん手計算でもできますが,大変です.
解答
標本相関係数を\(r\)は次の式で表される.
\(\displaystyle r=\frac{\sum_{i=1}^{n}(x_i-\overline{X})(y_i-\overline{Y})}{\sqrt{\sum_{j=1}^{n}(x_j-\overline{X})}\sqrt{\sum_{k=1}^{n}(y_k-\overline{Y}})}\)
ここで,
\(\overline{X}\),\(\overline{Y}\)はデータ\(X={x_1,x_2,\cdots,x_n}\),\(Y={y_1,y_2,\cdots,y_n}\)の相加平均であり,\(\displaystyle \overline{X}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_1+x_2+\cdots+x_n}{n}\),\(\displaystyle \overline{Y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}=\frac{y_1+y_2+\cdots+y_n}{n}\)である.
このデータを計算すると次のようになる(\(i=16\)以降は省略)

相関係数を計算すると,\(r=0.02018156212\cdots\)
答えは小数第3位まで求めるので,0.020
※ちなみに散布図(点群の図示化)は次のようになります.

〇データ分析(統計)について
問題自体は難しくないですが,統計という学問は非常に重要だと思っています.今回の問題に全く関係ないですが,データを使った分析は今後理系学生のみならず,社会に出ても今後使うかもしれない内容を書いておきます.
・回帰分析:学生の実験で利用するかもしれません.
データに対して\(Y=f(X)\)というモデルを当てはめ(回帰),分析すること.線形回帰における最小二乗法が有名.人工知能でも回帰分析を行います.ちなみにエクセルのデータ分析のアドインを利用して計算することが可能で,相関係数や傾き,誤差などを求めることができます.
・実験計画法:学生の実験で利用するかもしれません.
例えば,ある実験結果を説明する因子が7つあった場合,各因子を2つの値に振って,因子の効果を見たい場合,何も考えないと,\(2^7=128\)通りの実験を行う必要があります.しかし実験計画法を理解していると,その因子の主効果を求めるのに,8通りの実験で済みます.
厳密には二元配置分散分析,交互作用,要因効果,直交表などを理解してから使う必要があります.「実験計画法」という本を見れば直交表の前段階で説明が載っているはずなので,興味のある方はぜひ勉強しましょう.
・タグチメソッド(品質工学):製造に近い方は今後使う機会があるかもしれません.
タグチメソッドは田口玄一博士によって,実験計画から発展した手法である.品質工学の専門家にもかかわらず,アメリカの自動車業界への功績により,1997年に米国自動車殿堂入りを果たしています.
実験計画法との違いとして,実験計画法は因果を見つける方法であることを目的にしているのに対し,タグチメソッドは,ばらつきや劣化減らすことを目的とした方法である.つまり,実験計画法は因果が分かるので,因子(設計パラメータ)を用いた設計はできるが,製造で発生するノイズに対し,必要な調整を行うことができないという欠点がある.タグチメソッドはやノイズを取り入れることでロバストな設計が可能になっている.