統計の話 BOLERO2について |
最近医療統計の勉強を少ししていることもあり、論文を読むと統計学的事項が結構いい加減に記載されているように見えることに気付く。たとえば、BOLERO-2試験。これは、エキセメスタンにmTOR阻害薬を併用する効果を調べるRCTで、一次評価項目はPFS、二次評価項目はOS。論文化されているのはPFSだけであるためか、NEJMの文中に統計学的事項はPFSに関してしか記載されていない。この試験は予定された中間解析でPFSでの有益性が証明されために早期終了となっているのだけれど、中間解析で止める条件が論文には記載されておらず、appendixを取り寄せないとわからない。 Appendixを読むと、PFSは片側の累積有意水準がp<0.025(これはさすがに本文中にも記載あり)、Lan–DeMetsのα消費関数によるO’Brien–Flemingタイプの有益性による中止限界がp<0.0038(これが記載なし)に設定されていること、全イベントの約60%時に中間解析が予定されていたことがわかる。論文中に記載されているのは、p<0.0001と何とも大雑把。そもそも中間解析で止めるべきp値0.0038が記載されていないとはいえ、こんなんで良いのだろうか。 OSについては、appendix にgate-keeping designでPFSが有意になった時にだけ片側の累積有意水準をp<0.025で検定することが書かれている。これで、全体のαが片側2.5%に保たれることはわかる。しかし、OSは中間解析を含めてどこにどのようにαが分配されているのかがわからない。そればかりか、肝心の最終解析時にαがどれだけ残っているのかもわからない。論文化を待つしかないのかも。プロトコールには中間解析含めて最大3回まで検定することと、中間解析でストップするとしたらこんな場合なんてことが書かれているが、OSは実際には4回検定されているようだ。何でか? アップしたテーブルには、最終解析のp=0.1426と書いてあるので、何となく惜しいみたいにも感じるが、そもそもの有意水準が大きくても0.025なので、どうなんだろう。OSについてはわからないことだらけなので、論文が出てからまたよく考えてみるとしよう。 ![]() |
by aiharatomohiko
| 2014-07-20 23:58
| 日常
|
<< IMELDA どうしてこんな試... | ASCO2014 閉経前でもア... >> |