catch-img

試験のサンプルサイズ(n数)の決め方を解説

試験や調査を行う際、どのくらいの数の対象者からデータを集めれば良いのか、つまりサンプルサイズ(n数)をどのように決定すれば統計的に信頼性の高い結果が得られるのかは非常に重要な問題です。

サンプルサイズが適切でないと、得られた結果から誤った結論を導き出してしまう可能性があり、その後の意思決定に大きな影響を与えかねません。

本記事では、統計学的な観点から試験におけるサンプルサイズの考え方から具体的な算出方法までを解説します。

目次[非表示]

  1. 1.試験におけるサンプルサイズ(n数)とは
    1. 1.1.統計学における用語の定義
    2. 1.2.サンプルサイズとサンプル数の相違点
  2. 2.適切なサンプルサイズ設計の重要性
    1. 2.1.サンプルサイズが不足している場合の影響
    2. 2.2.サンプルサイズが過剰である場合の影響
  3. 3.サンプルサイズを決定する手順
    1. 3.1.1. 決定に必要な主要要素
    2. 3.2.2. 出現率の考慮
    3. 3.3.3. 決定後に確認すべき事項
  4. 4.サンプルサイズの算出方法
    1. 4.1.1. サンプルサイズってどう決まるの?
    2. 4.2.2. 割合を調べる場合の例(アンケート)
    3. 4.3.3. 平均値の差を比べる場合の例(A/Bテスト)
    4. 4.4.4. 実務でのコツ
  5. 5.まとめ
  6. 6.試験の実施にIBTシステム「MASTER CBT PLUS」をご活用ください

試験におけるサンプルサイズ(n数)とは


そもそもサンプルサイズとは何か、統計学における用語の定義やサンプル数との違いについて解説します。

統計学における用語の定義

統計学において、試験や調査の対象となる集団全体を「母集団」と呼びます。この母集団の特性を知るために、そこから無作為に選び出された一部の集団が「サンプル」または「標本」です。

そして、そのサンプルに含まれる個体の数を「サンプルサイズ(n)」と定義します。実験やテスト、検定といった統計的手法を用いる際、このサンプルサイズを適切に設定することが、結果の信頼性を確保するために不可欠となります。

サンプルサイズとサンプル数の相違点

サンプルサイズとサンプル数という言葉は似ていますが、統計学では明確に区別して使用される場合があります。

サンプルサイズは、一つのサンプル(標本)に含まれる個体数を指します。例えば、ある実験で3つの異なるグループ(サンプル)に対してテストを行い、それぞれのグループが100人の被験者で構成されている場合、各サンプルのサイズは100となります。一方、サンプル数は、抽出したサンプルの数を指します。この例では、3つのグループがあるためサンプル数は3となります。文脈によってはサンプルサイズがn数として単に調査対象の総数を指すこともありますが、複数の群を比較する実験などを扱う場合は、それぞれの群のサイズと群の総数を区別して考えることが重要です。

サンプル数とサンプルサイズをわかりやすく表にまとめると下記の通りです。

項目

サンプル数(Number of Samples)

サンプルサイズ(Sample Size)

意味

調査・実験で集めたデータの件数や個数

1つのサンプルに含まれる観測値やデータの数

対象

全てのサンプルの総計

各サンプル単位の大きさや容量

単位の例

件、個、人、試料数など

バイト数、長さ、重量、観測回数など

例(アンケート調査)

回答者が100人 → サンプル数は100

1人あたり10問回答 → サンプルサイズは10項目

例(機械学習)

学習データが5,000枚の画像 → サンプル数は5,000

各画像の解像度が256×256ピクセル
→ サンプルサイズは256×256×3(RGBの場合)

混同しやすい点

件数を示すのに「サンプルサイズ」と誤用されやすい

「データ数」ではなく「1サンプルの中身の規模」を示す


適切なサンプルサイズ設計の重要性

サンプルサイズは適切に設計される必要があります。

ここでは、サンプルサイズの設計がどのような影響を与えるかについて解説します。

サンプルサイズが不足している場合の影響

サンプルサイズが小さいと、統計的な結論の正確性が大きく損なわれます。

統計の世界では、次の2つの誤りがよく知られています。

第一種の過誤(α過誤):本当は効果や差がないのに「ある」と誤って判断すること(“偽陽性”)。

第二種の過誤(β過誤):本当は効果や差があるのに「ない」と誤って判断すること(“偽陰性”)。

サンプルサイズが不足すると、この第二種の過誤が増える傾向があります。つまり、実際に効果があるにもかかわらず、それを見つけられない可能性が高まるのです。
この「効果を正しく見つけられる確率」を「検出力(Power)」と呼びますが、サンプルサイズが小さいほど検出力は低下します。その結果、貴重な実験や調査が意味をもたなくなったり、得られた情報をもとに誤った意思決定をしてしまうリスクが高まります。
さらに、サンプル数が少ないと信頼区間(推定値が母集団の真の値を含む範囲)が広くなります。信頼区間が広いということは、推定結果の精度が低いことを意味します。このため、結果の不確かさが増し、結論の信頼性が下がります。

サンプルサイズが過剰である場合の影響

一方で、サンプルサイズが多すぎる場合も問題があります。
まず、不必要に多くのコスト(時間・費用・労力)を消費します。大規模な実験やテストでは、この負担は無視できません。

また、サンプル数が非常に多いと、効果や差がごくわずかで実質的には意味がない場合でも、統計的検定で「有意差あり」と判断されやすくなります。これは第一種の過誤とは別の問題で、「統計的有意=実質的に重要」という誤解を招きやすくなります。
したがって、サンプルサイズは検出力(第二種の過誤を減らすため)と実質的な効果量(第一種の過誤を避け、意味のある差に焦点を当てるため)の両方を考慮し、適切な値を設定することが重要です。

サンプルサイズを決定する手順

サンプルサイズは感覚で決めるのではなく、統計学的な基準と調査目的に基づいて決定します。ここでは、その手順と考慮すべきポイントを説明します。

1. 決定に必要な主要要素

サンプルサイズを決めるには、以下の要素を事前に設定する必要があります。
①効果量(Effect Size)

・検出したい差や効果の大きさを表します。

・効果量が小さいほど、それを検出するためにはより大きなサンプルサイズが必要です。


②有意水準(α)

・本当は効果がないのに「ある」と判断してしまう確率(第一種の過誤の許容度)。

・一般的には 0.05(5%)がよく使われます。


③検出力(1-β)

・実際に効果があるときに、それを正しく検出できる確率。

・第二種の過誤(効果があるのに「ない」と判断する誤り)を防ぐための指標です。

・通常は 0.80(80%)または 0.90(90%)を目標とします。


これら3つは相互に関連しており、検出力を高めたい場合は、一般的にサンプルサイズを増やす必要があります。

2. 出現率の考慮

特定条件に合致する対象者を抽出する場合は、その条件に該当する人の割合(出現率)も考慮します。


出現率が低いと、必要なサンプル数を集めるために、より多くの母集団にアプローチする必要があります。


例:特定の疾患を持つ人が母集団の1%しかいない場合、100人の有効サンプルを得るには、1万人規模への協力依頼が必要になることもあります。

本調査の前に「予備調査(出現率調査)」を行うことで、必要な協力者数の目安が分かり、無駄なコストや時間を削減できます。

3. 決定後に確認すべき事項

統計的に算出したサンプルサイズは、現実的な制約も踏まえて見直します。

①実行可能性

予算・期間・人的リソースの面から、本当に実施できるかを検討します。

②条件の緩和

実施が難しい場合は、許容誤差を広げる・検出力を下げる・効果量の想定を見直すといった調整も可能ですが、結果の信頼性低下に注意が必要です。

③分析セグメント

年代別や性別など、特定のグループごとに分析する場合は、各グループ内でも十分なサンプル数が確保できるかを確認します。

この手順を踏むことで、統計的に妥当かつ実行可能なサンプルサイズを設定でき、結果の信頼性を高めることができます。

サンプルサイズの算出方法

サンプルサイズを算出するにはさまざまな方法があります。ここでは算出方法について解説します。

1. サンプルサイズってどう決まるの?

サンプルサイズは大きく次の3つで決まります。


①どのくらいの差を見つけたいか(効果量)

小さな差を見つけたいほど、たくさんのサンプルが必要になります。


②どのくらいの確率で間違えたくないか(有意水準と検出力)
有意水準(α):効果がないのに「ある」と判断してしまう確率の上限(通常は5%)。
検出力(1-β):効果があるときに、それを正しく見つけられる確率(通常は80%や90%)。


③データのバラつきの大きさ(標準偏差)

バラつきが大きいほど、同じ精度で測るために必要なサンプル数は増えます。

2. 割合を調べる場合の例(アンケート)

たとえば、


信頼水準:95%(α=0.05 → Z=1.96)


出現率(割合の予想):50%(情報がないときは最大値で計算)


許容誤差:±5%


この場合、必要なサンプル数は約385人になります。

イメージとしては、「コインの表と裏の割合を5%以内の誤差で、ほぼ確実に知るためには、約385回投げればOK」という感じです。

3. 平均値の差を比べる場合の例(A/Bテスト)

例えば新しい広告バナーAと、従来のバナーBのクリック率を比べたいとします。

両側検定、α=0.05

検出力80%

クリック数の標準偏差(過去データから):10

検出したい差:5クリック

この場合、各グループで約63サンプル(合計126)が必要になります。

4. 実務でのコツ

小さい効果を見つけたいほど必要数が急増します。信頼水準や検出力を上げると、その分サンプル数も増えます。

出現率が低い調査では、「必要サンプル数 ÷ 出現率」で母集団にアプローチする人数を見積もります。

手計算は大変なので、Excelや無料ツール(G*Powerなど)を使うと便利です。

まとめ

試験・調査・実験で信頼できる結果を得るには、適切なサンプルサイズを設定することが欠かせません。

サンプルサイズとは、母集団から抽出するデータの個体数のことで、サンプル数(群の数)とは区別されます。

サンプルサイズが小さすぎると、実際にある差や効果を見落とす可能性が高まります。逆に大きすぎると、コストや時間を無駄にするだけでなく、実質的に意味のない差まで検出してしまうことがあります。

適切なサンプルサイズを決めるには、目的・許容誤差・信頼水準・効果量・出現率などを事前に考慮し、統計的な計算式やオンラインツールを使って算出します。

さらに、算出結果が予算・期間・人員などの制約の中で実行可能かも必ず確認しましょう。

適正なサンプルサイズ設計は、結果の信頼性を高め、限られたリソースを最大限に活かすための重要なステップです。

本記事が、皆様の試験や調査における適切なサンプルサイズ設計の一助となれば幸いです。

試験の実施にIBTシステム「MASTER CBT PLUS」をご活用ください

試験運用や成績管理を簡単に行いたいと思っている企業の人事・教育ご担当者様や検定団体様、学校関係者の皆様は、IBTシステムの「MASTER CBT PLUS」の導入をご検討ください。成績データのダウンロードも簡単です。

試験をIBTで実施する際に、カンニングや不正行為などに不安を感じられる場合は、試験実施の様子を録画しAIによって不正を検知する「Remote Testing」や、オンラインテストでの不正操作・行為を制御するアプリケーション「ULTRA GUARDIAN」などの連携が可能です。また、テストセンターの利用や1つの会場に集まって実施する試験も可能です。

ご興味がおありの場合は、お気軽にお問い合わせください。

 

組織が発展していくには、社員一人ひとりの能力を向上させることが不可欠です。 そのためにも、企業は個々のスキルアップを促す仕組み作りをする必要があります。 このメディアでは、社員教育に力を入れていきたい企業様に向けて、 教育・研修をメインに社員が成長していくための情報を発信していきます。

試験のDX化、人材教育の課題など、私たちイー・コミュニケーションズが解決します。

お電話でのお問い合わせはこちら

Copyright ©e-communications,Inc.

PAGE TOP