ch3-1 トワイマンの法則と実験の信用性、統計結果の誤った解釈

この節の主題は二つある。第一は トワイマンの法則 、すなわち「驚くほど面白い・通常と異なる結果ほど、実は計測や計算の誤りである可能性が高い」という経験則である。第二は、その誤りの多くが潜む場所である 統計結果の解釈 について、現場でよく起きる勘違いを一つずつ正すことである。

Hulu の動画推薦では、オフライン指標の改善や A/B テストの「勝った・負けた」が日々大量に生まれる。そのなかには、本当に意味のある改善もあれば、ロギングの不具合・データ重複・集計バグ・統計の読み違いに起因する「幻の改善」も混じっている。この節を通して身につけたいのは、 良い結果が出たときほど立ち止まって疑う という規律と、 p 値・信頼区間・検出力を正しく読む ための具体的な視点である。

この節は次の順に読むと整理しやすい。

トワイマンの法則とは何か、なぜデータが「面白い」ほど疑うべきなのか。
実験の信用性を高めるための「assert（表明）」という発想。
統計的検出力の不足。「有意でない」は「効果がない」ではない。
p 値の誤った解釈（Goodman の 12 の誤解から代表的な 4 つ）。
p 値のピーキング（覗き見）と多重仮説検定。
信頼区間の正しい読み方とよくある誤解。

トワイマンの法則 ―― 面白い結果ほど疑え

トワイマンの法則は、英国でラジオ・テレビの視聴率測定に長く携わった William Anthony Twyman に由来するとされる経験則である。ただし本人が著書で明確に定式化したわけではなく、複数の言い回しが伝わっている。

「データが普通でない、または興味深いものであればあるほど、ある種のエラーの結果である可能性が高くなる」（Marsh and Elliott 2009）
「面白そうに見えるものや通常とは異なるものはたいてい間違っている」（Ehrenberg 1975）
「面白いと思える統計はほとんど間違いである」（Dickson 1999）

この法則が突くのは、人間の認知バイアスである。重要なメトリクスが驚くほど改善したというポジティブな結果を見ると、私たちはそれを中心にストーリーを組み立て、共有し、祝おうとする。逆に、結果が驚くほどネガティブだと、その研究の限界や小さな欠陥を探し出して却下しようとする。つまり、 見たい結論に合う証拠は甘く、合わない証拠は厳しく 評価してしまう。

しかし経験上、極端な結果の多くは次のいずれかに由来する。

計測装置の誤り（ロギングの不具合、イベント定義の取り違え）
データの損失、あるいは逆にデータの重複
計算上の誤り（集計の単位ずれ、結合条件の誤り）

Hulu での具体例 ：ある新ランキングの実験で、推薦棚経由の再生開始が前週比でいきなり +40% になったとする。チームは喜びたくなるが、トワイマンの法則はまず疑えと言う。実際にありがちな原因は、たとえば次のようなものである。

ga4_unnested_cleaned_log の event_name の定義が更新され、これまで別イベントだった自動再生（オートプレイ）が「再生開始」に合算されるようになった。効果ではなく計測定義の変更である。
介入群だけクライアントのリトライ処理でイベントが二重送信され、再生開始ログが重複していた。
集計時に profile 単位とセッション単位を取り違え、ヘビーユーザーの寄与が二重計上された。

このように、 「大きすぎる勝利」は祝う前に検算する のが鉄則である。逆に、改善幅が事前に見積もった最小検出可能効果（第 2 章）と整合する「地味だが妥当な」値であれば、むしろ信用に値することが多い。

信用性を高める「assert（表明）」という発想

データベースには、整合性を保つための 完全性制約（integrity constraint） がある。たとえば「ユーザー ID は重複しない」「年齢は負にならない」といった制約である。防御的プログラミングでは、こうした制約が守られているかを実行時に検証するため、assert()（前提が真であることを表明し、偽なら直ちに異常として止める文）を書くことが推奨される。

実験でも同じ発想が使える。すなわち、 「正しく実験できていれば必ず成り立つはずの条件」を事前に列挙し、自動でチェックする のである。例として次のようなものがある。

ある時間帯にはすべてのユーザーがコントロール群か介入群のどちらか一方だけに割り振られる設計なのに、両群に同一ユーザーが多数現れていたら 赤信号 である。割当ロジックかロギングが壊れている。
実験計画が「両群に等しい割合（たとえば 50:50）で割り振る」ことを求めているとき、実際の人数比が確率的にありえないほど偏っていたら、これも疑うべきである。これはサンプル比率のミスマッチ（SRM, Sample Ratio Mismatch）と呼ばれ、後章で詳しく扱う。

Hulu での具体例 ：割当単位を profile_id とする実験なら、「同一 profile_id が両群に出現しないこと」「介入群と対照群の profile 数の比が 50:50 から統計的にありえないほどずれていないこと」「実験開始前の期間では両群のメトリクスに差がないこと（A/A 的なサニティチェック）」などを、ダッシュボードで自動検査できる。これらの assert が一つでも破れていたら、効果の議論に進む前に原因を潰す。

次節以降では、トワイマンの法則に当てはまる「素晴らしい発見」の実例を扱うが、その前に、誤りが最も入り込みやすい 統計の解釈 を正しておく。

統計的検出力の不足 ―― 「有意でない」は「効果がない」ではない

仮説検定（NHST, Null Hypothesis Significance Testing）の枠組みでは、まず「コントロール群と介入群でメトリクスに差はない」と仮定する。この仮定を 帰無仮説（null hypothesis） と呼ぶ。そして、得られたデータがこの帰無仮説と強く矛盾するとき、帰無仮説を棄却する。

ここで非常によくある誤解が、 「統計的に有意でなかった = 介入効果はない」 とみなすことである。これは誤りである。有意でない理由は二通りあり得る。

本当に効果がほとんどない。
効果はあるが、それを検出するだけの 検出力（statistical power） が足りなかった。つまり、テストに参加したユーザー数が少なすぎた。

検出力とは「本当に効果があるとき、それを有意と判定できる確率」である。標本が小さいと、たとえ効果が存在しても検定は「差なし」と言いがちになる。実際、GoodUI.org が集めた 115 件の A/B テストを評価した研究（Georgiev 2018）では、その大半が検出力不足だったと示唆されている。

ここから得られる教訓は明確である。実験を始める前に、

自分たちの文脈で 何が実質的に有意（practically significant）か を定義し（第 2 章参照）、
その実質的な差、あるいはそれより小さな差まで検出できる 十分な検出力 を確保する

ことが重要である。

点推定（効果の大きさ）は同じでも、標本が小さいと信頼区間が広がってゼロをまたぐため「有意でない」と判定されやすい。これは効果がないことを意味しない。

さらに重要な注意がある。 実験が母集団のごく一部にしか影響しない場合、影響を受けた部分集合だけを切り出して分析する べきである。たとえ影響を受けたユーザーへの効果が大きくても、その集合が母集団全体に対して小さいと、全体平均では効果が希釈されて検出できなくなるからである（第 20 章および Lu and Liu 2014 参照）。

Hulu での具体例 ：新しい推薦ロジックが「特定アニメを過去に視聴した profile」にだけ強く効くとする。この対象は全 profile の数 % にすぎないかもしれない。全 profile を分母に取った OEC では効果が薄まって有意にならないが、対象セグメントだけを見れば明確な改善が観測できる。したがって、効果が局所的だと予想されるなら、 事前に分析対象セグメントを定義しておく ことが、検出力を確保する鍵になる。

p 値の誤った解釈

p 値は、おそらく統計のなかで最も誤解されている量である。最も一般的な誤解は、 「p 値とは、コントロール群の平均と介入群の平均が（この一回の実験データで）異なる確率である」 とみなすことである。これは誤りである。

正しい定義は次のとおりである。

p 値とは、 帰無仮説が真であると仮定したうえで 、実際に観察されたものと 同等かそれ以上に極端な 結果が得られる確率である。

この定義には二つの肝がある。第一に、p 値は「帰無仮説が真」という前提条件のもとで計算される量であって、帰無仮説が真である確率そのものではない。第二に、「観察された結果ちょうど」ではなく「それ以上に極端な結果まで含めた裾の確率」である。下図がこの裾の面積のイメージである。

p 値は「観測された差」そのものの確率ではなく、帰無分布のもとで観測値以上に極端な領域（裾）の面積である。帰無仮説の置き方しだいで値が変わる点に注意する。

ワークド例：再生開始率の差から p 値を実際に計算する

抽象的な「裾の面積」を、Hulu の暗黙的フィードバックである「推薦棚からの再生開始の有無」で具体化する。ホーム画面の「アニメへのおすすめ」棚について、現行ランキングを control、新ランキングを treatment とし、各群に 10,000 profile を割り当てたとする。観測結果が次だったとしよう。

群	露出 profile 数 $n$	再生開始した profile 数 $x$	再生開始率 $\hat{p}$
Control	$10{,}000$	$2{,}000$	$0.200$
Treatment	$10{,}000$	$2{,}150$	$0.215$

観測された絶対差は $\hat{p}_T - \hat{p}_C = 0.215 - 0.200 = 0.015$ 、すなわち 1.5 ポイントの改善である。これが「効果ゼロ（帰無仮説）でも偶然このくらい出るのか」を測るため、二標本の比率の差に対する z 検定を行う。まず、帰無仮説のもとでは両群の真の再生開始率が等しいと考えるので、両群をまとめた プールした比率 を使う。

\hat{p} = \frac{x_C + x_T}{n_C + n_T} = \frac{2{,}000 + 2{,}150}{20{,}000} = \frac{4{,}150}{20{,}000} = 0.2075

次に、差の標準誤差を求める。

\text{SE} = \sqrt{\hat{p}(1-\hat{p})\left(\frac{1}{n_C} + \frac{1}{n_T}\right)} = \sqrt{0.2075 \times 0.7925 \times \frac{2}{10{,}000}} \approx 0.00574

これらから検定統計量 $z$ を計算する。

z = \frac{\hat{p}_T - \hat{p}_C}{\text{SE}} = \frac{0.015}{0.00574} \approx 2.61

両側検定の p 値は、標準正規分布で $|z| \ge 2.61$ となる裾の面積である。標準正規分布の上側確率から $P(Z \ge 2.61) \approx 0.0045$ なので、両側では次になる。

p\text{-value} = 2 \times P(Z \ge 2.61) \approx 2 \times 0.0045 = 0.009

この $p \approx 0.009$ の意味を、定義どおりに言葉にすると重要さが分かる。すなわち「もし新旧ランキングの真の再生開始率がまったく同じ（差ゼロ）だったとしても、ランダム割当のばらつきだけで、今回観測した 1.5 ポイント以上に極端な差が出てしまう確率は約 0.9% である」ということである。これは「差がゼロである確率が 0.9%」でも「新ランキングが勝っている確率が 99.1%」でもない。先の裾の面積の図で言えば、観測値 $z = 2.61$ より外側（両側）の塗りつぶし面積が 0.009 だ、というだけである。

帰無仮説をどう設定するかは決定的に重要である。同じデータでも帰無仮説が変われば p 値は変わる。以下、Goodman（2008）の “Twelve P-Value Misconceptions” から代表的な誤解を四つ取り上げる。

誤解 1：p = 0.05 なら、帰無仮説が真である確率は 5% だ

これは誤りである。p 値は 「帰無仮説が真である」と仮定したうえで計算される 量であって、帰無仮説が真である確率を表していない。確率の向きが逆なのである。

直感的に言えば、p 値が答えるのは「もし効果がゼロだったら、こんなに極端なデータはどれくらい珍しいか」であって、「データを見たうえで効果がゼロである見込みはどれくらいか」ではない。後者を知りたければ、事前確率を持ち込むベイズの議論（後述の誤解 4 参照）が必要になる。

誤解 2：有意差がない（p > 0.05）なら、二群に違いはない

これは誤解 1 と同じく「有意でない＝効果なし」の言い換えである。典型的なコントロール実験では、p 値とともに信頼区間が示される。p > 0.05 とは、 95% 信頼区間がゼロを含んでいる 状態に対応する。

しかし、信頼区間がゼロを含むからといって、 ゼロが区間内の他の値より「もっともらしい」わけではない 。区間内のどの値も同程度にあり得る。区間が広くてゼロをまたいでいるなら、それは多くの場合 検出力不足のサイン であり、「効果がない」証拠ではない。

Hulu での具体例 ：新ランキングの相対リフトの 95% 信頼区間が「−1% から +6%」だったとする。これは「効果はおそらくゼロ」を意味しない。「効果は −1% かもしれないし +6% かもしれない、まだ精度が足りない」というだけである。判断には、より多くの profile・期間を積むか、対象セグメントを絞る必要がある。

誤解 3：p = 0.05 は、帰無仮説のもとで起きうる試行のうち 5% でしか観測されないデータだ、という意味だ

これも定義上、誤りである。なぜなら、5%（の裾の確率）には、 今回観測されたデータちょうど だけでなく、 それ以上に極端で帰無仮説をより強く否定するデータ も全部含まれるからである。先の裾の面積の図を思い出すとよい。p 値は一点の確率ではなく、観測値から外側へ伸びる領域全体の積分なのである。したがって「ちょうどこのデータが 5% で起きる」という言い方は、領域と一点を混同している。

誤解 4：p = 0.05 は、仮説を棄却したときの偽陽性（false positive）の確率が 5% だ、という意味だ

これは誤解 1 に似ているが、より巧妙で気づきにくい。Goodman は次の極端な例で説明する。

鉛を熱と圧力にさらし、その上に万能薬を注いで金に変えようとしているとする。そして混合物の「神々しさ」の量を測定しているとしよう。化学的処理で鉛の原子番号を 82 から 79（金）へ変えることは 絶対にできない ことが分かっている。したがって「変化はない」という帰無仮説は 常に真 であり、それを棄却すれば 必ず偽陽性 になる。つまり、p 値がいくつであろうと、棄却は 100% 偽陽性である。

この例が示すのは、 偽陽性の確率は p 値だけでは決まらない ということである。偽陽性とは「帰無仮説が真なのに棄却してしまうこと」であり、その確率を評価するには「そもそも帰無仮説が真である見込み（事前確率）」が必要になる。

形式的に言えば、関心があるのは「棄却したという条件のもとで、実は帰無仮説が真だった確率」、すなわち事後的な誤り率である。これを求めるには ベイズの定理 を使い、 ある程度信頼できる事前確率 を要する。なお、「p 値が 0.05 未満で、かつ帰無仮説が真である」という事象は 同時確率 であって、「帰無仮説が真という条件のもとでの条件付き確率」とは別物である点に注意したい（この区別を曖昧にすることが、誤解 4 の正体である）。

Hulu での具体例 ：仕組み上ほとんど効くはずのない微修正（たとえばログにしか影響しないリファクタ）を多数 A/B テストしているとする。これらは事前確率としてほぼ「効果ゼロ」である。この状況で p < 0.05 の「勝ち」が出ても、その多くは偽陽性である。逆に、強い理論的根拠と過去実績のある変更なら、同じ p < 0.05 でも本物の確率は高い。 同じ p 値でも、事前の見込みしだいで信用度はまったく違う のである。

ワークド例：1,000 件の実験のうち「勝ち」の何割が偽物か

「p < 0.05 なら偽陽性は 5%」という誤解が、なぜ大きく外れるのかを実数で確かめる。Hulu の推薦チームが、ランキングの細かなパラメータ調整を中心に、1 年間で 1,000 件 の A/B テストを回したとする。経験上、この種の細かな変更のうち本当に効果があるのは 10% 程度だとしよう。つまり事前確率は次である。

本当に効果がある実験： $1{,}000 \times 0.10 = 100$ 件
本当は効果がない実験： $1{,}000 \times 0.90 = 900$ 件

ここで、有意水準を $\alpha = 0.05$ 、検出力（本当に効果があるとき有意と判定できる確率）を $\text{power} = 0.80$ とする。すると、それぞれの群から出る「有意（勝ち）」の件数は次のように分かれる。

効果がない 900 件のうち、偶然 p < 0.05 になる（偽陽性）： $900 \times 0.05 = 45$ 件
効果がある 100 件のうち、正しく p < 0.05 になる（真陽性）： $100 \times 0.80 = 80$ 件

したがって、「勝ち」と宣言される実験は合計 $45 + 80 = 125$ 件である。このうち偽物（偽陽性）の割合、すなわち偽発見率は次になる。

\text{FDR} = \frac{45}{45 + 80} = \frac{45}{125} = 0.36

つまり、 p < 0.05 で「勝った」と判定した実験のうち、実に 36% は実際には効果がない 。誤解が言う「5%」とは大きく食い違う。差が生まれる理由は、偽陽性率 5% が掛かる分母が「効果のない 900 件」と大きいのに対し、真陽性の分母「効果のある 100 件」が小さいことにある。

さらに、事前確率を下げると事態はもっと悪化する。仮に本当に効果があるのが 1% だけ（残り 99% は効果なし）だとすると、偽陽性は $990 \times 0.05 = 49.5$ 件、真陽性は $10 \times 0.80 = 8$ 件となり、偽発見率は $49.5 / (49.5 + 8) \approx 0.86$ 、すなわち 86% が偽物 になる。事前確率をゼロに近づけていけば、偽発見率は 100% に近づく。これは、まさに先ほどの「鉛を金に変える（帰無仮説が常に真）」の例で棄却が 100% 偽陽性になることの、連続的なつながりである。

なお、ここまでの「帰無仮説が真と仮定する」一般的な p 値の定義でさえ、暗黙の前提を省いている。すなわち、 データがどう収集されたか（無作為抽出か） 、 検定がどんな仮定（独立性、分布の形など）を置いているか といった前提である。とりわけ、最終結果を出す前に中間分析を行い、その結果を見てから分析手法や打ち切りを選んだ場合、仮説検定の前提は明白に破られる（Greenland et al. 2016）。これが次の「ピーキング」の問題につながる。

p 値のピーキング（覗き見）

オンラインの A/B テストでは、結果が日々蓄積されるため、 p 値をリアルタイムで監視し続ける ことが技術的に可能である。実際、商用ツール Optimizely の初期バージョンはこれを推奨していた（Johari et al. 2017）。

しかし、これは深刻な問題を引き起こす。実験期間中に p 値を何度も覗き、「初めて 0.05 を下回った瞬間に有意と宣言して止める」という運用をすると、 偶然による偽陽性が大幅に増える 。報告では、こうした多重的な覗き見によって、有意性のバイアスが本来の 5〜10 倍 に膨らみ得るとされる。

直感的な理由はこうである。効果が本当はゼロでも、p 値は実験期間を通じてランダムに上下に揺れる。揺れている以上、どこかの時点で偶然 0.05 を下回る瞬間が訪れやすい。その瞬間だけを狙って打ち切れば、「偶然の谷」を効果と取り違えてしまう。

累積 p 値の時系列。真の効果がなくても偶然 0.05 を割り込む瞬間があり、そこで打ち切ると偽陽性になる。

対処法は大きく二つある。

逐次検定（sequential testing）またはベイジアン検定 を使う。覗き見すること自体を前提に、何度監視しても誤り率が制御されるよう数学的に設計された手法である（Johari et al. 2017、Deng, Lu and Chen 2016）。Optimizely は後にこの方向の解決策を実装した。
あらかじめ実験期間を固定する 。たとえば「1 週間回し切ってから 1 回だけ判定する」と決め、途中の p 値では結論を出さない。Google・LinkedIn・Microsoft の実験プラットフォームはこの方式を採る。

Hulu での具体例 ：新ランキングを月曜に投入し、火曜に「もう有意だ、勝った」と早期判断するのは典型的なピーキングである。曜日効果（平日と週末で視聴行動が違う）や新奇性効果（後述）もあるため、 最低でも 1 週間（できれば 2 週間）回し切ってから判定する という運用ルールを事前に決め、途中経過は監視用ガードレール（重大悪化の検知）に限って使うのがよい。

多重仮説検定

多重比較問題（multiple comparisons problem）は、上述のピーキングを一般化したものである。 複数の検定を行い、そのうち最も小さい p 値を選んで報告すると、p 値と効果量の推定値に偏りが生じる 。

この問題の本質を、Vickers（2009）“What is a p-value anyway?” の小話がうまく突いている。

統計家 ：お、もう p 値を計算してたのですね。

外科医 ：ああ、多項ロジスティック回帰を使ったよ。

統計家 ：そうなのですね。どうやってその手法を選びましたか。

外科医 ：統計ソフトのドロップダウンメニューでいろいろな手法を試して、p 値が一番小さいものを選んだよ。

最小の p 値を選ぶこの行為こそ、多重比較の罠そのものである。多重比較は、次のような場面で現れる。

複数のメトリクスを見る 。指標を 20 個並べれば、効果がなくても平均 1 個は偶然 p < 0.05 になる。
p 値を継続的に見る （上述のピーキング）。
ユーザーをセグメント別に見る 。国、デバイス、OS、ブラウザ、ヘビー／ライト、新規／既存などで切り刻むほど、偶然の有意が増える。
同じ実験を何度も実施する 。実験が本当は何もしない場合（A/A テスト）でも、20 回繰り返せば、偶然 p < 0.05 が出ることは十分あり得る。

同じ条件どうしを比較する A/A テストでも、検定を繰り返せば偶然有意が混じる。最小 p 値だけを拾うと、それを本物の効果と誤認する。

ワークド例：20 個のメトリクスを見ると偽陽性はどれだけ増えるか

「20 回繰り返せば偶然有意が出る」を実数で押さえる。ある推薦実験が本当はまったく効果を持たない（すべて帰無仮説が真）としよう。それでも、総視聴時間・再生開始率・25% 以上視聴シリーズ数・継続率・お気に入り登録数など、独立とみなせる 20 個のメトリクスを同時に検定し、「どれか一つでも p < 0.05 なら勝ち」と判定するとする。

各メトリクスが偶然有意になる確率は $0.05$ 、有意にならない確率は $0.95$ である。20 個すべてが有意にならない確率は、独立性のもとで次になる。

(0.95)^{20} \approx 0.358

したがって、 少なくとも一つが偶然有意になる確率 は次である。

1 - (0.95)^{20} \approx 1 - 0.358 = 0.642

すなわち、効果がゼロでも 約 64% の確率で「どれかのメトリクスで勝った」と誤って言えてしまう 。ちなみに、偶然有意になるメトリクスの期待個数は $20 \times 0.05 = 1$ 個であり、平均してちょうど一つの「幻の勝ち」が紛れ込む計算になる。

これを防ぐ素朴な方法が ボンフェローニ補正（Bonferroni correction） である。実験全体としての偽陽性率（族全体での誤り率）を 5% に抑えたいなら、各検定の閾値を検定数で割って厳しくする。

\alpha' = \frac{0.05}{20} = 0.0025

実際、この閾値なら少なくとも一つが偽陽性になる確率は $1 - (1 - 0.0025)^{20} \approx 0.049$ となり、ねらいどおり 5% 程度に収まる。ただしボンフェローニは保守的すぎる（本物の効果を見逃しやすい）ため、メトリクスを多数見る実務では、後述の偽発見率（FDR）を制御する方法のほうが現実的なことが多い。

この偽陽性の氾濫を制御する重要な概念が 偽発見率（FDR, False Discovery Rate） である（Benjamini and Hochberg 1995）。FDR は「有意と宣言したもののうち、実際には誤りだった割合」を一定以下に抑えるよう調整する考え方で、多数の検定を扱う際の標準的な道具になる（第 17 章参照）。

Hulu での具体例 ：一つの推薦実験で、総視聴時間・再生開始率・25% 以上視聴シリーズ数・継続率・お気に入り登録数など 10 以上のメトリクスを同時に見るのはごく普通である。さらに国・デバイス・新規／既存でセグメントを切れば、検定の数は数十〜数百に達する。何も調整せずに「どれか一つでも p < 0.05 なら勝ち」とすれば、偽陽性は不可避である。対策としては、 判定に使う主要メトリクス（OEC）を事前に一つに絞り 、補助メトリクスやセグメント分析は探索用と位置づけ、必要に応じて FDR 制御を併用する。

信頼区間 ―― 正しい読み方と二つの誤解

信頼区間（confidence interval） は、ゆるく言えば、介入効果の推定にどれだけ不確実性があるかを定量化した区間である。 信頼水準（confidence level） は、その区間が真の介入効果を含む頻度を表す。

p 値と信頼区間には意味の重複がある。コントロール実験で一般的に使う「差はない」という帰無仮説のもとでは、次が成り立つ。

介入効果の 95% 信頼区間がゼロを含まない ことと、 p < 0.05 であることは同値である。

誤解 5：二群それぞれの信頼区間が重なれば、差は有意でない

よくある間違いは、コントロール群と介入群の信頼区間を 別々に 描き、それらが重なっていたら「差は統計的に有意でない」と結論することである。これは不正確である（van Belle 2008, 2.6 節）。

正確には次のとおりである。

二群の信頼区間が 重なっていても 、差は p < 0.05 で有意になり得る。実際、有意な差が生じている場合でも、各群の信頼区間は 約 29% まで重なる ことがある。
逆方向は安全に言える。二群の 95% 信頼区間が まったく重ならない なら、差は p < 0.05 で有意とみなしてよい。

要するに、判断すべきは「各群の区間の重なり」ではなく、 差そのものの信頼区間がゼロを含むか である。

各群の信頼区間（上）は重なっているが、差（Treatment − Control）の信頼区間（下）はゼロを含まず有意である。判定に使うべきは下の区間である。

Hulu での具体例 ：ダッシュボードに Control と Treatment の「再生開始率」を、それぞれエラーバー付きで並べて描くことは多い。両者のバーが少し重なっていても、「だから差はない」と早合点してはならない。正しくは、 差（または相対リフト）の信頼区間 を別途計算し、それがゼロをまたぐかどうかで判定する。

ワークド例：各群の区間は重なるのに、差は有意になる

「区間が重なる＝有意でない」が誤りであることを、実数で確かめる。1 週間の「profile あたり平均視聴分数」を見たとし、各群の標本平均と標準誤差（SE）が次だったとする。

群	平均視聴分数 $\bar{Y}$	標準誤差 $\text{SE}$	各群の 95% 信頼区間（ $\bar{Y} \pm 1.96\,\text{SE}$ ）
Control	$100.0$	$3.5$	$[93.1,\ 106.9]$
Treatment	$110.0$	$3.5$	$[103.1,\ 116.9]$

各群の区間を見比べると、 $[103.1,\ 106.9]$ の範囲で 重なっている 。素朴な目安に従えば、ここで「差は有意でない」と結論してしまいそうである。しかし、判定に使うべきは差そのものの信頼区間である。差は $\bar{Y}_T - \bar{Y}_C = 110.0 - 100.0 = 10.0$ 分であり、その標準誤差は二群の SE を合成して求める。

\text{SE}_{\text{diff}} = \sqrt{\text{SE}_C^2 + \text{SE}_T^2} = \sqrt{3.5^2 + 3.5^2} = \sqrt{24.5} \approx 4.95

したがって差の 95% 信頼区間は次になる。

10.0 \pm 1.96 \times 4.95 = 10.0 \pm 9.7 = [0.3,\ 19.7]

この区間は ゼロを含まない 。対応する検定統計量は $z = 10.0 / 4.95 \approx 2.02$ で、両側 p 値は約 $0.043$ となり、 $p < 0.05$ で有意である。すなわち、 各群の信頼区間が重なっていても、差は統計的に有意 という、本文で述べた状況がそのまま再現される。各群の区間の重なりだけを見て「差なし」と判断すると、本物の改善を取り逃がしてしまうのである。

誤解 6：提示された 95% 信頼区間は、95% の確率で真の効果を含む

もう一つの典型的な誤解は、 目の前にある特定の 95% 信頼区間 について「この区間が真の介入効果を含む確率は 95% だ」と言うことである。これは厳密には誤りである。

理由はこうである。真の介入効果は（私たちは知らないが）一つの固定値である。そして計算済みの特定の区間も固定された区間である。固定値が固定区間の中にあるか否かは、 すでに決まっている 。つまり、その確率は 100%（含む）か 0%（含まない）のどちらかであって、95% という中間の値にはならない。

では「95%」とは何を指すのか。それは 手続きの性質 である。すなわち、「同じやり方で実験と区間計算を何度も繰り返したとき、計算される区間のうち約 95% が真の効果を含む」という、 長期的な頻度 を表す（Greenland et al. 2016）。言い換えれば、信頼水準は 個々の区間 の性質ではなく、 区間を作る手続き の性質である。詳細は第 17 章を参照する。

Hulu での具体例 ：あるリフトの 95% 信頼区間が「+2% から +5%」と出たとき、「真のリフトがこの範囲にある確率は 95%」と社内資料に書くのは不正確である。正しくは「このような区間の作り方を繰り返せば、95% の割合で真のリフトを捉える」である。実務的には「真のリフトはおおむね +2% から +5% の範囲にあると見込まれる」という穏当な表現にとどめ、確率の主張を区間そのものに帰属させないのが安全である。

まとめ

この節の要点は、 「面白い結果ほど疑い、統計は定義どおりに読む」 という一点に集約できる。

トワイマンの法則：驚くほど良い／異常な結果は、まず計測・データ・計算の誤りを疑う。良い結果ほど検算する。
assert の発想：正しく実験できていれば必ず成り立つ条件（割当の排他性、群比、A/A での無差）を事前に列挙し自動検査する。
検出力：「有意でない」は「効果がない」ではない。事前に実質的有意性を定め、十分な検出力を確保する。効果が局所的なら対象セグメントを絞る。
p 値：帰無仮説が真と仮定したときの「観測値以上に極端な裾」の確率である。帰無仮説が真の確率でも、偽陽性率でもない。偽陽性を語るには事前確率（ベイズ）が要る。
ピーキングと多重比較：覗き見・多指標・多セグメント・反復は偽陽性を量産する。期間を固定するか逐次／ベイズ手法を使い、主要 OEC を事前に絞り、FDR を制御する。
信頼区間：判定は「差の区間がゼロを含むか」で行う。各群の区間の重なりでは判断しない。95% は個々の区間ではなく手続きの性質である。