沢山のデータがあるとき、それをただ見ただけではデータの性質は読み取れない。ある視点でデータをまとめ、データが持つ性質を象徴するような値を計算すると、そこに潜む原理を発見したり、全体的な特徴を見出したりできる。統計では、注目すべき対象を母集団、実際のデータは標本、多数の標本から母集団の特徴を抽出するのが統計である。特徴抽出には、平均や分散、ヒストグラム、中央値や最頻値を求めることが一般的となる。表現方法を工夫することで、視覚的に特徴を抽出することができる。時系列で折れ線グラフ化すること、棒グラフ、円グラフなどである。
①データの特徴を捉える:たくさんのデータがあるとき、それぞれのデータはバラバラの値でまとまりがなく、そこから特徴を見出すことは困難である。統計を使えば、データの特徴を表す「代表値」を計算し、データの特徴やデータの分布の状態、データ間の関係を分析できる。②集団のサンプルデータから集団全体の特徴を推測する:多数の集団の特徴を調べようとするとき、全数調査が困難な場合がある。少数の標本(サンプル)だけ調べ、その分析から集団の特徴を推測し、全数調査と同様な結論を得ることができる。
測定した値を調べ、性質を導き出すのが統計である。データの数が少なければ、全てのデータから統計量を計算する(全数調査)。一方、データが多ければ、又は事情により一部分のデータしか集められなければ、サンプルのみ調査し統計処理によって全体像を推定する。近年は、IT技術の発展により大量のデータを瞬時に処理する全数調査が可能となった。
データを代表する値となるのは、平均値である。データの値を全部足し合わせ、個数で割る。平均値1つの値で全体を代表できるし、平均値で2種類のデータの比較や時間的変化を捉えられる。最大最小は、母集団の範囲を表し、この範囲内にある境界の認識と、バラツキの程度を示す。分散は、データと平均値の差を2乗し平均をとったもので、データのバラツキの程度を表す。メジアンは、データを小さいものから大きいものまで順に並べたとき中央に来る値であり、データの代表値となる。データの分布をxy座標で表したのがヒストグラムであり、分布を視覚的に理解することができる。
大量にあるデータの列を眺めてみただけでは、そこから全体の特徴を読み取ることは困難である。グラフ化することで、視覚的に特徴を掴むことができる。 ①棒グラフ、折れ線グラフ: 注目すべきカテゴリーを横軸、数量を縦軸にして高さが量を表す。折れ線グラフは時間的推移(時系列)である量の変化を見るのに適している。 ②円グラフ、横棒グラフ: 全体を100%として、その中の比率を見るのに使われる。 ③相関グラフ: AとBの2つのものさしの関係を見るのに、Aを縦軸、Bを横軸にしてマッピングする。点の偏りぐあいで、相関関係を探る。
身長、体重など沢山のサンプルを範囲に分け範囲に収まる個数を縦軸にして棒グラフ化したものである。この分布の形がデータのバラツキ具合を表現している。
統計の基本計算では、平均値、分散、最大最小、メジアン、モード(最頻値)がある。 平均値は、データを代表する値である。2つのデータを比較するとき、平均値を比較すれば、元データの違いをある程度説明できる。 分散は、データのバラツキを表す。分散が大きければ、平均値の周りのバラツキ(値の範囲)が大きく、小さければ、平均値の周りのバラツキ(値の範囲)が小さいといえる。最大最小は、データの範囲を示す。この範囲に全てのデータがある。2つのデータを比較するとき、最大最小で比較しても、ごく一部のデータだけを比較していることとなり、2つのデータの違いを結論づけられない。
メジアン(中央値)は、データを順序付けして並べた時の中央の順位の値である。順序が意識されるデータを代表する値としてなじみやすいものであるが、数学的な妥当性はない。一例は背の順です。身長の真ん中を捉えるのに、平均値だけでなく真ん中の順位の人の身長が代表値となりえる。所得の分布においても、平均値よりもメジアンの方が直観的に代表値に適していると言われる。
モードは、度数分布で最もサンプルが多かった値である。平均とメジアンとモードは、統計値を特徴付けるパラメータとなる。この3つが一致することもあるが、一致しなかった場合、このうちどれが統計値を代表するものとしてふさわしいか検討が必要となる。
統計で集めるデータは様々な値を持っている。値にはばらつきがある。また測定値であれば、観測誤差が含まれ、真値が一つでも観測値はばらつきが発生する。測定対象から様々な値が出現すると解釈できる。統計値を、確率的事象から実際に出現した実現値の集まりと捉えることで、確率と統計を結びつけることができる。統計で使う平均値や分散の計算は、確率の考え方で位置づけられる。
将来何が起きるかは現時点では分からない。予想することができても、それが実現するとは限らない。しかし、まったく予想できない場合を除いて、結果の選択肢が有限であり、選択肢のどれかが実現するような場合もある。各選択肢に起こり得る可能性の差がなければ、数学的思考の出番となりうる。これが確率である。根本的な考え方は、結果について複数の選択肢がn個あり、その選択肢にこれといって差がない場合は、1/n の確率でその事象が起きると解釈しようというものである。
不確実性があり、現時点では値が分からない変数を確率変数と呼ぶ。不確実性がなくなり値が判明したときは、特定の値となるが、事前にはわけらず結果あり得そうな候補を実現値という。n通りの実現値があり、どれも確からしさに差がなければ、確率変数がある特定の実現値となる確率は、1/nとなる。特定の実現値となる確率を全てたすと1となる。確率の定義は、形式的には、全ての実現値の確率を加算して1となっていれば、これが確率であるための唯一の条件である。
事象Aと事象Bが同時に起きるとき、その確率はAとBの確率の掛け算となる。事象Aと事象Bのどちらかが起きる確率はAとBの確率の足し算となる。事象Aの確率をpとするとき、事象Aが起きない確率は、1 - pである。このとき、独立事象が仮定されている。事象Aが起きる起きないの影響が事象Bには及ばないことである。同様に、事象Bが起きる起きないの影響が事象Aには及ばないことである。
1回あたりの事象の確率がxであるとき、n回の試行での発生数をmとすると、m / nは、nが大きくなるのつれ、xの値に近づく。これを大数の法則という。厳密にはn回の試行での、m / nにはバラツキがあるが、nが大きくなるにつれm / nの分布の平均値がxに近づき分散がゼロに近づくのである。
考えられうる全ての実現値に対して、その確率を記述した一覧表を確率分布という。確率分布は、横軸に実現値の列、縦軸に確率値をとる。実現値が離散的ならば、棒グラフとなる。実現値が連続的な場合は、曲線(直線)のグラフとなる。確率分布が定まれば、確率変数の性質が定義されたといえる。公式により、期待値、標準偏差が計算できる。意味的には、期待値は分布を代表する値であり、統計では平均値である。標準偏差は、実現値のばらつきを表す尺度で、標準偏差が大きいと実現値が大きくばらつくのである。同じ期待値でああても標準偏差が異なれば分布は異なり、同じ期待値、標準偏差であっても、分布の形は異なることがありえる。
全ての考え得る実現値にその確率を掛け、加算したものが期待値である。期待値はその名の通り、期待される代表的な値である。期待値は、その値が実現するとは限らないし、確率ゼロの場合もある。例えばサイコロの場合は、期待値は3.5である。期待値はその値そのものより、期待値同士を比較するときに意味を持つ。確率変数が2つある場合、低い期待値の確率変数より高い期待値の確率変数の方が、高い実現値が出やすいといえる。全ての考え得る実現値と期待値の差を2乗してその確率を掛け加算したものを分散という。直観的には、分散は、確率変数のバラツキ具合を示す量となる。分散の値で、その確率変数のバラツキを評価する。
各実現値とそれぞれ対応する確率の値を一覧表にしたものが確率分布であるが、確率変数xについて、P( x < a)で、xがa未満となる確率を表すなら、連続変数aに対して無限に確率を割り当てることができる。連続変数aを横軸に、対応する確率を縦軸にとれば、1本のグラフが出来上がる。P(a < x < b)の確率は、a < x < bの面積に対応する。
分布の性質を記述するものとして、期待値、標準偏差の他に、メジアン(中央値)、モード(最頻値)がある。メジアン(中央値)は、標本を小さい方から並べて全体数の中央にくる値をみつけだすものである。分布の形が左右対称な場合は、ほぼ期待値=メジアンであるが、分布の形が左右対称でなくひずんでいる分布のときは、メジアン(中央値)が重要になってくる。モード(最頻値)は、分布がピークをなるときの値である。計算式で求め数学的に意味のある期待値や標準偏差と異なり、メジアン(中央値)、モード(最頻値)は意味を持たない。
確率変数の実現値の列を統計データの列と考えることで、確率と統計の理論を融合できる。統計データは母集団からの標本の列であり、統計の平均や分散は、標本平均、標本分散となる。メジアン(中央値)は確率分布関数の50%の値、モード(最頻値)は、確率密度分布のピークの部分を指す。
確率分布は無数に考えられるが、代表的なパターンが幾つかある。一様分布。これは、どの実現値も同じ確率を持つ場合である。最も単純な分布で、特に分布の形状に条件がなければ、どの実現値も同様に確からしいと考えること、すなわち一様分布を仮定することは自然である。
もうひとつは、二項分布である。これは、2つの実現値AとBがあり、それぞれ確率p、1 - pとなっているものである。1回の試行で一つの実現値が判明するとすると、n回繰り返し実施すれば、n回分の結果が判明する。Aの出現回数は、1,2,3,nと、n通りが考えられる。n回の試行でのAの出現回数を確率変数とし、実現値の候補1,2,3,nのそれぞれの確率を考えてみる。Aが1回出現する確率は、n p(1 - p)n-1、Aが2回出現する確率は、n (n - 1)/2 p2(1 - p)n-2と計算できる。これを1,2,3,nとそれぞれ計算し、グラフで書き表したのが図である。グラフは真ん中が高く量は市が低いという山形となっている。分布の期待値は、p nとなり、最も確率が高くなる。グラフ上で山の中心となる。確率0.3のとき、100回あたり30回Aが出現すると考えるのが最も確からしく、かつ期待値となるのは、直感に合う。30回の周りに山の裾野が広がる形である。
二項分布は、nが小さいときは、出現回数である実現値の数も小さく、分布は棒グラフとなるが、nをどんどん大きくしていくと、実現値が無数に近くなり、分布はなだらかな曲線をもったものになる。これを正規分布という。正規分布は、確率変数にある期待値が存在するとき、その期待値に誤差が乗ったものが観測値となるとき、正規分布でモデル化できるといわれている。不確実性のある自然現象の多くは正規分布で表すことができる。一般に、特に特別な条件がなければ、一様分布か正規分布を仮定してさしつかえない。正規分布の特徴は以下である。①山が一つであり左右対称な形をしている。②分布の幅は無限大となっている。③期待値、メジアン、モードは同じで、グラフの中央にある。④正規分布には、期待値と標準偏差の2つのパラメータがあり、この2つだけで正規分布の形が定まる。このような特徴と自然現象のモデル化の容易性から確率モデルとして正規分布が多用される。
正規分布は代表的な確率分布で、いくつかの性質を理解しておく必要がある。期待値と標準偏差で分布形が定まる。期待値(グラフのピーク値)から左右に標準偏差分をとった位置は1シグマと呼ばれ、それぞれ30%,70%の位置を表す。左右に標準偏差分の2倍をとった位置は2シグマと呼ばれ、それぞれ2.5%,97.5%の位置を表す。2シグマ以内に95%が収まることになり、不確実性に対処するためのリスク管理は、2シグマ以内を管理対象とすれば、95%の確率で管理可能となる。リスク管理では、不確実性のある対象は、正規分布を仮定し、期待値と標準偏差を推定し、標準偏差の2倍分の範囲が想定される範囲内として許容しておくのである。
二項分布で、発生頻度を低く、かつ、試行回数を長くしていった場合の極限となる分布である。一定期間で、ある事象がn回発生する場合の確率をnの関数とする分布である。発生確率が分かっている事象の起こりうる回数(例えば待ち行列の長さ)の分析に利用される。
単位時間における発生頻度が一定のとき、その事象が最初に発生するまでの時間には、ばらつきがでる。その時間の分布は指数分布と呼ばれ、工学的によくつかわれる分布である。単位時間当たりの故障率が一定とした場合の故障するまでの時間(正常動作の時間)は指数分布になる。平均と分散から製品の寿命設計や保証期間の設定などに利用できる。
指数分布では故障率が一定と仮定したが、一般に、工業製品の故障率は、製品投入初期には故障率が高く、その後徐々に低下し一定のレベルで推移し、製品寿命近辺から、また故障率が上昇していく形となる。この形状はバスタブ型とも呼ばれる。初期と末期を除く期間の長さは、指数分布でモデル化できる。
統計では、統計をとりたい対象は母集合という。しかし母集団が大きいと全数調査は不可能で、母集合からいくつか標本を抜き取り、標本の分析から母集合を推定する方式がとられる。いわゆるサンプル調査やアンケート調査である。標本集合と母集合の区別は重要である。標本集合を調べ、統計的性質を見出だし、母集合の性質を推測するのである。一番簡単な考え方は、標本平均が母集団の平均を、標本の標準偏差が母集団の標準偏差を表していると推測することである。また、得られたサンプルが最も確からしい(最も確率が高い)ものと考え、標本から母集団の統計的性質を推定する最尤判定法もある。
母集団の全数調査が不可能な場合があります。この場合、標本調査から母集団を推測することになります。標本調査では、母集団の性質が標本に反映されるように、①無作為抽出、②標本数をなるべく多くとる、の2つが必要です。標本数を増やすほど、標本平均や標本分散から母平均、母分散の推定値の制度があがります。
確率統計学の利点は、少ない情報(標本データ)から母集団に対しての多くの知見を引き出すことである。標本データから得られる統計として、平均、分散、ヒストグラムがある。それから母集団の確率分布や平均、分散を計算で推定する。無作為、独立、大量に収集したサンプルであれば、次のように考えてよい。 ・サンプルの数が大きくなるほど、平均と分散が母集団の平均と分散であると考えるのはもっとも妥当な推定である。
観測される量は、観測誤差を含んでいる。観測値から真の値を推定しなければならない。誤差は、期待値ゼロ、一定の標準偏差の正規分布で仮定されることが多い。真の値に誤差が乗って観測値となるのだから、逆に、観測値から誤差分を引けば真の値となる。誤差分は不明であるが、確率統計的に一定の分布に従うのならば、推定は可能である。観測値にプラスマイナス1シグマを加算したものの中に真値が収まる確率は70%、プラスマイナス2シグマを加算したものの中に真値が収まる確率は95%である。
観測値=真の値+測定誤差、から、観測値-測定誤差=真の値となる。測定誤差は値がわからないが、通常、統計的性質として、①正規分布、②時間的に独立事象、が仮定される。こう仮定すれば、確率統計の知識を活用し、様々な計算ができる。
真の値=観測値-測定誤差の式から、測定誤差が確率変数ならば、観測値から推定する真の値の候補も確率変数となる。候補となる値には幅があることになる。観測値をxとして測定誤差が標準偏差σの正規分布ならば、真の値は、x - σとx + σの間に70%の確率で収まる。一定の確率以上で収まる範囲を信頼区間という。信頼区間を拡大すれば、そこに収まる確率は上昇する。真の値は、x - 2σとx + 2σの間に98%の確率で収まる。
仮説を立て、それが棄却できるかを検定という。仮説が棄却できても成り立つことを証明はできない。事例で説明する。ある物理量を測定器で測定した。測定器には誤差があり、誤差の分布が正規分布とする。サンプル調査を行って出た値は、誤差を考えれば妥当な値なのかどうか検証するのが検定である。母集団の確率分布を推定する。確率分布が与えられれば、サンプル値が出現する確率が分かる。検定水準を2%とすれば、サンプル値の出現確率が2%以下だった場合、「推定した母集団の確率分布が正しいと仮定すると、確率のきわめて低い事象が発生したことになる。このような結果はないと考えられるから、元々の推定した確率分布が間違いであるに違いない。」と考え、推定した分布を棄却するものである。棄却はできても、推定した確率分布が正しいと認定することはできない。
確率変数が、平均m、標準偏差sの確率分布を持つ変数Xについて、次の計算式が成り立つ。E[a X + b] = a m + b、D[a X + b] = a sつまり、確率変数Xを定数倍したものの平均と標準偏差は、それぞれを定数倍すればよい。
2つの確率変数XとYについて、それぞれの変数の実現値xとyが出現する確率が、P(X = x) P(Y = y) = P(X = x,Y = y)が成り立つとき、確率変数XYは独立であるという。意味的には、XとYの確率変数がそれぞれ相手の実現値から影響を受けないということである。このとき、E[X + Y} = E[X] + E[Y] = m + n、D[X+Y] = (D[X] + D[Y])の平方根である。2つの確率変数の実現値をいくつか2次平面上にプロットしたのが散布図である。散布図にプロットされた点の位置関係をみれば、2つの確率変数に関係性があるかどうかが分かる。もし図のような並びであった場合、2つの確率変数は無関係ではなく比例関係にあることが推測される。一方、図であれば無関係といえる。関係の程度は、相関係数として計算できる。相関係数は-1と1の間を取る変数で、-1と1で逆相関、正相関の関係を示し、0で無相関を示す。2つの確率変数が独立であれば無相関である。一方、無相関であっても独立とはいえない。 独立でない場合の2つの確率変数の平均と標準偏差は、E[X + Y} = E[X]+E[Y] = m + n、D[X + Y] = (D[X]+D[Y])の平方根 + D[X]D[Y]cos uとなる。標準偏差は、それぞれの確率変数の標準偏差と相関係数によって定まる。
2つの確率変数XとYは、それぞれ期待値E[X]とE[Y]、分散値S[X]とS[Y]を持つとする。XとYが独立ならば、Z = X + Yとするとき、E[X + Y]= E[X] + E[Y], S[X + Y]=S[X] + S[Y]となる。Z = a X とするとき、E[a X] = a E[X], S[a X] = a2 S[X]となる。独立ではないとき、計算は複雑になる。独立がどうかによって値が異なるので、2変数の場合は注意が必要である。また、(X - E[X]) (Y - E[Y]) P(X,Y)を共分散という。この平方根は相関係数である。
2つの確率変数をxy平面上にプロットし、点の集合を見ると、一定の関係が見いだされる場合がある。 全体的に均一にちらばっている場合:2つの確率変数には相関がないと解釈できる。相関係数を計算するとゼロに近い値となる。 右上ななめ方向に固まっている場合:2つの確率変数には正の相関があると解釈できる。相関係数は正の値となり、一直線上に点が並べば相関係数は1である。 右下ななめ方向に固まっている場合:2つの確率変数には負の相関があると解釈できる。相関係数は正の値となり、一直線上に点が並べば相関係数は-1である。 一直線に近づけば、相関係数は1または-1に近づく。直線の傾きの程度は関係ない。
相関係数を計算し、1か-1に近ければ、2つの確率変数の関係を仮説的にY = a X + b と考え、実際のx,yの値には、y = a x + b + eとしてyの観測誤差分eが加えられたものとしてモデル化できる。ここで2つの確率変数の関係を表すモデルをどう作るかを考える。実際の観測値x, yのペアについて、仮説モデルと実測値の誤差y - ( a x + b )を計算したとき、全てのペアの誤差の2乗の和が最小になるようにaとbを選ぶのである。意味的には、仮説モデルと実測値の誤差の標準偏差を最小とするようなaとbを選ぶ、逆に言えば、このようにして選んだaとbは、実測値との差分を最小化しているモデルだと言える。このときの、仮説モデルと実測値の誤差y - ( a x + b )の2乗の和を標準誤差という。2つの変数間の関係をy = a x + b + eと仮定してパラメータabを求めることを回帰分析という。aはXの定数倍成分、bはXと無関係な定数成分である。aの大きさ、aの符号(正の値、負の値)が注目される。
2つの確率変数X, Yがペアで常に出現するとき、XとYの関係を探るのに回帰分析はよく用いられる。Y = a X + bとの線形モデルでXとYの関係を表すのは、一番単純な形で取扱いやすい。真のモデルが分からない場合は、この線形モデルが仮定される。Yが被説明変数、Xが説明変数で、Xの動きがYにどういう影響を与えるかの分析に役立つモデルである。注意すべきなのは、XとY の相関関係を表しているのであって、XとY の因果関係を表しているわけではないことである。XとYのサンプル(統計データ)を基に、母集団のモデルY = a X + bのaとbを推定するのである。推定は、標準誤差が最小になるようにaとbを計算する。計算結果の妥当性については、t値を計算することでaとb の信頼性を評価する。サンプル(統計データ)とモデルのフィッテイングについては、決定係数の計算で評価する。注目するのはaの符号である。aが正であればXとYは正の相関、aが負であればXとYは負の相関があることが分かる。回帰分析は、経済データや自然科学データの2つの変数間の関係を見出すのに利用される。
任意のn個の確率分布(任意というところに注目)の確率変数A,B,C,Dの標本平均X = (A + B + C + D) / nは、nが大きくなるにつれて、正規分布に近づき、かつ分散も小さくなる。この定理の使えるところは、標本平均が正規分布になり、値のバラツキもどんどん小さくなることである。つまり、標本をできるだけ多く集めて平均化すれば、分散の小さい(精度の高い、信頼性の高い)正規分布が得られることである。
中心極限定理が意味するところは、たくさんのサンプルを平均化すると、その分布は正規分布となるということである。また、サンプルを増やすほど分布は狭くなる。ということは、たくさんのサンプルを集めその平均をとると、母集団の平均の推定値となることである。母集団はどんな分布でもよい。別に意味するところは、様々な要因が重なり合って(加算されて)生じる現象は、中心極限定理から、正規分布となることである。簡単に言えば、複雑な現象の分布は正規分布と仮定してさしつかえないということである。
やみくもに統計計算をすれば何か結論が出てくるというアプローチでは、膨大な時間と無駄になってしまうので、下記のように計画的に進める。
確率は1回の試行に対してのものである。しかし繰り返しの現象として解釈すると分かりやすい。例えば確率0.5なら、2回に1回の割合で発生すると考えるのである。10回あたりでは5回である。確率は1回きりの試行を想定しているので、確率1/nを、n回あたり1回と捉えるのは、必ずしも正しくはない。
確率に時間の概念をいれたものである。確率変数をXとして時間tの関数X(t)とする。時間の経過とともにXの具体的な値が変化していく。X = 3 t + 2とするとXの値は時間的に変化するが、確定的である。確率過程は、例えばサイコロを1秒ごとに振り続け出現した数をXとすると、X(0) = 1, X(1) = 5, X(2) = 3,とサイコロの目が続く。このような確率過程で代表的なのがランダムウォークである。X(t)に対してX(t + 1) = X(t) + 1となる確率0.5、X(t)に対してX(t + 1) = X(t) - 1となる確率0.5となる確率過程を考える。1単位時間が経過する毎に1つ上がったり下がったりジャンプする。他にはマルコフ過程がある。状態遷移を確率で表現したものである。状態AとBで、AからBへ移る確率0.5、BからAへ移る確率0.5のように表現される。
時間的に変化する量は、連続であっても離散時間でサンプリングすれば、統計データとなる。例えば 1秒ごとに収集した1時間分のデータ(サンプル)から、母集団(無限時間)の性質を推定することである。定常過程であれば、サンプルの統計的性質は時間不変と仮定され、サンプルの平均、分散が全体の時系列データ(母集団)の推定値となる。サンプルにトレンドがある場合は、そのトレンドがサンプル以外にも存在すると仮定して、全体の時系列データにも当てはめる。時系列解析では、基本統計量(平均、分散)以外にもトレンドや周期性の抽出が行われる。周期性があれば周期の長さや周期をもたらす波の成分が分析される。
f(x)とf(x + T)のサンプルを集め相関係数を計算する。Tを変化させてそれぞれ相関係数を求めればTの関数となる。幾つかのTの値でこの関数がピークを付けていれば、そのTの値が周期成分を表している。逆に時系列データは、いろいろな周期の波を合成したものと考えることができる。
人間行動の素データは、5W1Hが基本となる。誰が、いつ、どこで、何を、どのように、どうしたか、である。購買データであれば、誰が(個人、属性情報:性別、年齢、住所)、いつ、どこで、何を、どのように、どうしたか、である。 このデータを大量に集め、そこから法則性を見出し、商品構成の最適化、販売促進活動を通じて売り上げと利益の向上につなげるのである。 分析には目指す結論のターゲットがないと、手当たりしだいの分析となってしまう。