2変量データと相関の演習

相関行列の作成

  1. dataset1.csv (年齢/身長/体重のデータ) を開く。
  2. 年齢(C列)から体重(E列)までを選択する。
  3. メニュー: 「データ」→「統計」→「相関」を選び、 結果を貼り付けたい位置の先頭のセルを選んで[OK]を押す。

このままでも使用できるが、「列1,列2」などが分かりづらいのと、 小数点以下の桁数が多すぎるので見栄えを調整する。

  1. 見出しの修正

    元の見出し「年齢[歳]」から「体重[kg]」までを選択する。

    1. 行の見出しに貼り付ける(そのままできる)。
    2. 列の見出しには縦に並ぶ「列1」を選択して C-S-v を押すか、「列1」を 右クリック:「形式を選択して貼り付け」 →「形式を選択して貼り付け」で、 【オプション】のところにある「□行と列を入れ替え」 にチェックを入れてから[OK]を押す。
  2. 小数点以下の表示修正

    相関係数が並ぶ範囲を選択して右クリック: 「セルの書式設定」→「数値」でカテゴリーから「数」を選び、 形式として小数点以下2桁のものを選ぶ。

  3. 相関係数の変化色付け(カラースケール)

    同じく相関係数が並ぶ範囲を選択して メニュー:「書式」→「条件付き」「カラースケール」を選び、

    を選ぶ。赤と緑は判別困難な場合がある(※)ので「赤」を橙色に変える。

結果として以下のような相関行列表示を得る。

Correlation Table

※参考: 細胞工学 色覚の多様性と色覚バリアフリーなプレゼンテーション: 第2回 色覚が変化すると、どのように色が見えるのか?

データセット

  1. NPB2023年全球団打席数ランキング: npb-2023-hits.csv

    出典: プロ野球データFreak全球団打席数ランキング(規定打席以上)

  2. V1女子(プレミア女子)/レギュラーラウンド/総得点: vleague-20231204f.csv

    出典: バレーボール Vリーグ オフィシャルサイト RECORD / RANKING

課題

問題

上記データセットの1(野球)または2(バレーボール)いずれかを選び、 各数値の相関行列を作成し、見出しを直して、小数以下2桁表示にして、 係数値の値に応じて色分けしたものにせよ。

また、相関係数が(A)特に高いもの、(B)ゼロ付近のもの、(C)特に低いもの、 の組み合わせをそれぞれ選び、 なぜその組み合わせに「正の相関がある」、「ない」、「負の相関がある」 のかの理由について簡単に(自分なりに)考察したものを記載せよ。

提出方法

提出は見やすいようにPDFとする。そのために以下の手順で加工し、 PDFエクスポートしたものとすること。

  1. 1行目より上に2行挿入し、空になったA1セルに学籍番号、A2セルに氏名を入れる。
  2. 表計算上で新しいシートを[+]ボタンで作成しする。
  3. 作成した相関行列全体を範囲選択して C-x で切り取る。
  4. 1で作成した新しいシートのA1にに貼り付ける。
  5. 貼り付けた全ての列を選択し、列名部分を右クリック「最適な幅」で 追加の幅を「0cm」にして表示幅を最も狭くする。
  6. ファイルをまずods形式で c122xxx-corr.ods の名前で保存する。
  7. メニュー:「ファイル」→「PDFとしてエクスポート」でpdfファイルに保存。
  8. s4にPDFを添付して、考察とともに記入する。

yuuji@e.koeki-u.ac.jp