原文: Tim Brock» Visual Explorations of Sample Size
小さなサンプルに基づいて結果を導くと問題になる可能性が明らかに高いです。その一方でビッグ データが有名になることによって、組織が分析に実際どれぐらいのデータが必要かを論理的に考えるより、ランダムに可能な限りのデータを収集すようになるかどうかは疑問です。私はデータが足りないよりも必要なデータ量より少し多めのデータを使用する方を好みます。統計を使用してどれだけのデータが本当に必要なのかを判断できます。最近、サンプルサイズを増加させる効果をどのようにビジュアル化できるのかを考えてみました。
シンプルさを保持するために、正規分布の特定のインスタンスから random variates (ランダム変量)でサンプル サイズを増やす効果について見てみましょう。パラメーターの true の意味と true の標準偏差については後で触れます。
以下のアニメーション gif は、確率正規分布から生成された密度ヒストグラムを示します。サンプルのサイズは 10 の因数で増加し、各ヒストグラムを描画するためのデータは前のフレームのデータの上位集合です。赤い曲線は同じ平均のある正規分布でサンプルデータとしての標準偏差です。
明らかに、たった 10 個のサンプルで経験的分布は同じ平均の標準偏差と全く異なります。ここで言えることは true の平均が 4 または 5 の近辺であるということです。 サンプルを 100 ポイント増やすと、すでに釣鐘曲線が見て取れます。100,000 ポイントに達するまでには、ヒストグラムとカーブ間でビジュアルの一致がとても高いということです。更にポイントを追加しても配分の外観、プリント平均、標準偏差は変わりません。
アニメーション ヒストグラムは、ポイントをさらに追加するにつれて物事の変更にについて広範な概要を提供するのに適しています。ただし各 10 の因数に対して 1 フレームのみの場合、詳細を確認できません。上部のタイトルのパラメーターでより多くの桁を印刷しない場合、どのサンプル サイズにおいても平均や標準偏差がどれほど正確であるかが明確ではありません。より理解を深めるために、パラメーターを使用してサンプルサイズの関数としてそれを 2 ポイント (両方のサンプル パラメーターに限界がある場合) から 100 ポイントまでプロットできます。まず平均を確認します。
小さなデータのみの場合、よりすばやく変化するため、上記のチャートはほぼ役に立ちません。サンプルでポイント数の対数 (10進法) を取得すると、とても明確になります。
数ポイントでサンプルの平均が 4 をはるかに上回ります。ただし、これが急激に減少し、2 桁になると安定します。数千ポイントを超えると同じ平均で認識できる変化がほとんどありません。ただし右側にズームインすると揺らぎが見えます。
以下はサンプル サイズを変更するに従ってどのように標準偏差が変更されるかがわかります。(注: これは サンプルの標準偏差 (standard deviation of the sample) で、平均の 標準誤差 (standard error) ではありません。):
true は、生成されていたサンプルが 3.9172 で、標準偏差が 0.7200 であったことを意味します。チャートでは、厳密な統計分析を全く行わずにこれらの数値にかなり近くなったことを見てとることができます。ただし、1 万データ ポイントからそれほどかけ離れているわけではありませんでした。より多くのデータで正確さが増します。ただし、平均が 4 ポイント以上または 4 ポイント未満かどうかを確認するだけの場合、1000 ポイント以下で十分でしょう。
ポイントを補強するために、はじめの 100,000 データ ポイントを 10,000 が 10 個のサンプルに分割します。各サブサンプルで前と同じグラフィック テクニックを使用できます。以下のチャートで色の付いた線は、最初の 10,000 データ ポイントの結果を示します。灰色の線はその他のサブサンプルです。
チャートの目的は、1 つのサブサンプルで構成される個々のトラックを表示することではありません。サブサンプルの平均と標準偏差でそれぞれが数データポイントのみを持つ場合に広範囲に広がることを示すことです。ただし、少なくとも対数目盛ではポイントを追加するにつれてすばやく収束します。
もちろんすべてのデータセットは異なり、その多くはシンプルな無作為のサンプリングではありません。実環境のデータセットが、標準分布のシングルインスタンスからコンピューター生成されたランダムな変量の大きなコレクションのような扱いやすいデータであることを前提にすることはできません。更に上記チャートのアイデアは、厳密な統計の正当な代替にはなりません。ただし特定の場合に補足になる可能性があります。たとえば、統計的な評価のサニティチェックの提供やあまり技術的な知識を持たないユーザーに対するビジュアルの代替にもなります。