2012/08/06

文系のための「行列」(1)

もちろん、文系研究者であっても、
コンピュータを使って、定量「的な分析を行いたいときがある。
ところが、文系出身者の多くは、データの扱い方をきちんと
学ぶ機会が無く、「見よう見まね」でやってることが多い。
これは良く無い。少しは、知っておいた方が良い。

データ整理で一般的に使われているソフトウェアがエクセルである。
そのように思う。それが適切であるとは、言い難いが...。
まぁ、それには目をつむることとして、そういった理由から、
エクセルを例に分析のためのデータのことを考えてみることにする。

エクセルの形式は、一般的には、「スプレッドシート」と呼ばれている。
スプレッドシートが、複数の「シート」から成る「ブック」を
一つの単位として扱っていることは、周知の通りである。

一枚の「シート」は、格子状に配置された「セル(cell)」から成っていて、
様々な「値(Value)」は、この一つ一つの「セル」に入力されている。
ここで、「セル」を横方向に見た場合には「行(row)」と呼び、
縦方向に見た場合には「列(column)」と呼ぶ。

ここまでが、一般的な「スプレッドシート」の話。一般常識。
いよいよ、データの構造について考えることにする。

まず、大抵の場合、一行目に「ヘッダ(header)」と呼ばれる「項目名」があって、
一列目には、「対象」の名前や識別子(ID)が入っている。
そして、二列目以降には、「項目名」に対応した「属性値(観測値)」が入っている。

このように、行と列によって表されたデータのことを「行列」データと呼ぶ。
行列」の形式で整理されているデータは良く見かける形式であるし、
無意識にそういったデータを作っている。そのように思う。

ちなみに、一つの「セル」には、一つの「」が入っているべきであり、
良く見かけることではあるが、「セル」の中に複数の値が入っているのは良く無い。
この辺りの話は、いずれ「データベース」の話でしようと思うが、
とりあえずは、このような状況を前提としよう。

次に、「行列」にどような値が入力されているかを考えてみる。
そもそも、分析対象となるデータの一群「データセット」は、
観察対象を「抽象化」したものであって、「属性」は対象の定義である。

例えば、観察対象を「」としたデータセットがあったとして、
その「属性」が「年齢」、「身長」、「体重」として定義されていたとする。
直感的に、対象が縦方向に「Aさん、Bさん、Cさん・・・」のように並んでいて、
一番上の「ヘッダ」行の項目名に「性別、年齢、身長、体重」といったように
データセットとして入力されている、そういった状況を想像できるだろう。

このように並んでいる格子状のデータこそが、
これから分析をしようとするデータである。

定量的な分析を行う場合には、全ての属性が「数値化」できる必要があって、
そのようになっているデータを「多次元データ」と呼ぶことにする。

0 件のコメント:

コメントを投稿