- すべて
- 画像・動画
並べ替え:新着順
#統計 p-hackingの類を完全に防ぎ、手順を尽くして仮説検定を完璧に遂行しても、P値<5%という条件によって棄却された帰無仮説達の中での実際には十分に正しいものの割合が数十%と高い値になることがある。 不正と誤用が一切なくても、P値<5%という条件単体には科学的に信頼できる結論を出す力はない。 x.com/genkuroki/stat…
#統計 書籍の柳川堯『P値』にも同様の誤りがある(p.46より)。 引用【このようにしてサンプルサイズを決定しておけば,(手順(vi))で効いたと判定された場合,効果>δ₀が保証される】 テストする薬の中での効く薬の割合が5%なら、効いたと判定された薬のうち効かないものの割合が37%になる!危険!続き pic.twitter.com/PB4EYRFQ2V x.com/genkuroki/stat…
#統計 有意水準の低さが実効的な危険率(仮説検定で効くと判定された薬の中での効かない薬の割合)の低さを意味しないことは、昔から統計学入門の定番のネタの1つだと思います。 例えば『ダメな統計学』でも解説されています。 x.com/genkuroki/stat…
#統計 P値<αという条件による2値的判断をするときには、帰無仮説が正しくない可能性が十分に高いかどうかを気にする必要があることについては添付画像も参照。このように私が述べていることは有名である。 添付画像は repun-app.fish.hokudai.ac.jp/pluginfile.php… アレックス・ラインハート著『ダメな統計学』 より。 pic.twitter.com/mJt9iBAjnp
#統計 仮にテストする薬のうち効く薬の割合が5%しかないならば、有意水準5%、検出力80%の設定でP値≤5%(有意水準2.5%の片側検定で計算)で効くと判定された薬の中での効かない薬の割合は37%になります。 この割合の高さは患者側にとっては悪夢でしょう。 jstage.jst.go.jp/article/jjb/38… 柳川堯2018 pic.twitter.com/3IMji9WvcB x.com/genkuroki/stat…
#統計 以下のリンク先での 有意水準α=5% (両側検定、実効的にはこの半分)、検出力80%、テストする帰無仮説達の中での正しくないものの割合p の場合での 棄却された帰無仮説の中での正しい帰無仮説の割合 の計算をα=5%, 2%, 1%, 0.5%に拡張。 pic.twitter.com/yZoGcIeE2t x.com/genkuroki/stat…
#統計 有意水準αの仮説検定で「効く」と判定された薬の中での実際には効かない薬の割合は、検定する薬の中での本当に効く薬の割合pに依存します。 仮説検定で「効く」と判定された薬の中での実際には効かない薬の割合をαと同じ程度の大きさに抑えるためには、pを半分程度以上にする必要がある。続く x.com/genkuroki/stat…
#統計 テストする帰無仮説達の中に正しいものと誤りのものが半々で含まれているとき、検出力1-β有意水準αの仮説検定で棄却された帰無仮説達の中での実際には正しいものの割合はα/(1+α-β)≈αになる。 つまり、正しい確率が半々の仮説を扱う場合には、有意水準αはそのまま実効的な危険率とみなせます。 x.com/genkuroki/stat…
#統計 テストする帰無仮説達の中に正しいものと誤りのものが半々で含まれているとき、検出力1-β有意水準αの仮説検定で棄却された帰無仮説達の中での実際には正しいものの割合はα/(1+α-β)≈αになる。 つまり、正しい確率が半々の仮説を扱う場合には、有意水準αはそのまま実効的な危険率とみなせます。 x.com/genkuroki/stat…
#統計 理由2: データの取得法やモデルの妥当性に問題がなくてもダメな場合がある。例えば、テストする薬の中に5%しか効く薬が含まれていない場合には、検出力80%有意水準5%の両側検定(実質有意水準2.5%の片側検定)によって「効く」と判定された薬の中での真に効く薬の割合は63%に過ぎません。 x.com/genkuroki/stat…
#統計 理由2: データの取得法やモデルの妥当性に問題がなくてもダメな場合がある。例えば、テストする薬の中に5%しか効く薬が含まれていない場合には、検出力80%有意水準5%の両側検定(実質有意水準2.5%の片側検定)によって「効く」と判定された薬の中での真に効く薬の割合は63%に過ぎません。
#統計 以下のリンク先での 有意水準α=5% (両側検定、実効的にはこの半分)、検出力80%、テストする帰無仮説達の中での正しくないものの割合p の場合での 棄却された帰無仮説の中での正しい帰無仮説の割合 の計算をα=5%, 2%, 1%, 0.5%に拡張。
#統計 以下のリンク先での 有意水準α=5% (両側検定、実効的にはこの半分)、検出力80%、テストする帰無仮説達の中での正しくないものの割合p の場合での 棄却された帰無仮説の中での正しい帰無仮説の割合 の計算をα=5%, 2%, 1%, 0.5%に拡張。 pic.twitter.com/yZoGcIeE2t
#統計 だから、効くと判定された薬に限定したときの効かない薬であることの条件付き確率は 0.025(1-p) / (0.8p + 0.025(1-p)). p=50%, 10%, 5%, 1%についてこの値を計算すると、それぞれ 3%、22%、37%、76% になります。続く
#統計 テストする薬達の中での効く薬の割合pが50%ならば、有意水準5%(両側)の「危険率」の仮説検定で「効く」と判定された薬達の中での実際には効かない薬の割合は3%と小さめの値になる。 しかし、p=10%、5%、1%ならば同割合は22%、37%、76%と大きくなり、酷いことになります。
#統計 だから、効くと判定された薬に限定したときの効かない薬であることの条件付き確率は 0.025(1-p) / (0.8p + 0.025(1-p)). p=50%, 10%, 5%, 1%についてこの値を計算すると、それぞれ 3%、22%、37%、76% になります。続く
#統計 例えば、仮にすでに相当に吟味した薬達だけをテストするならば、テストする薬達の半分は効き目があるとしてよいでしょう。 その場合に、有意水準5%、検出力80%の両側検定のいつもの設定で、「効く」と判定された薬達の中での実際には効かない薬の割合は3%程度に抑えられます。 しかし~続く
#統計 だから、効くと判定された薬に限定したときの効かない薬であることの条件付き確率は 0.025(1-p) / (0.8p + 0.025(1-p)). p=50%, 10%, 5%, 1%についてこの値を計算すると、それぞれ 3%、22%、37%、76% になります。続く
#統計 しかし現実には、Wilcoconの順位和検定(=Mann-WhitneyのU検定)は非常に安易に使われており、かなりの割合で誤用されているものと思われます。この点は過去の教育の負の遺産です。相当に酷いことになっている。 代わりに非常に頑健なBrunner-Munzel検定を使うべきです。 pic.twitter.com/soU6nP073R
#統計 (連続性補正無し)χ²検定との比較でFisher検定を無条件で勧めることが誤りであることについては、例えば、日本語で書かれたものには 連載 第3回 医学データの統計解析の基本 2つの割合の比較 朝倉こう子・濱﨑俊光 jstage.jst.go.jp/article/dds/30… があります。 pic.twitter.com/w2i26KsNTm
#統計 Fisher検定は検出力の観点から常に勧めることができる検定法ではないという事実は繰り返し指摘されて来たことです。 例えば、日本語で書かれたものには 連載 第3回 医学データの統計解析の基本 2つの割合の比較 朝倉こう子・濱﨑俊光 jstage.jst.go.jp/article/dds/30… があります。
#統計 Fisher検定のP値が無駄に大きめになる傾向については jstage.jst.go.jp/article/dds/30… 連載 第3回 医学データの統計解析の基本 2つの割合の比較 朝倉こう子・濱﨑俊光 【常用的に Fisher の直接確率計算を使用することは避けた ほうがよさそうである】 を見て下さい。 pic.twitter.com/7oMzEaWQ7f