Хочется рассказать о том, что бывает, когда не все понимают, как проводить АБ-тест и интерпретировать его результаты.
Датские (не Британские) ученые провели эксперимент целью которого было оценить, снижает ли рекомендация использования хирургической маски вне дома риск заражения носителями коронавирусом (SARS-CoV-2) [1].
В общей сложности 3030 участников носили маски, а 2994 не носили. 4862 человек от общего количества дошли до конца в этом исследовании.
Итоги теста:
- 42 из 2333 (1,8%) заболели среди тех, кто носил маску
- 53 из 2529 (2,1%) заболели среди тех, кто не носил маску
Какой вывод сделали ученые? На уровне статистической значимости p=0.05 разницы нет. Что в целом, совершенно, верно.
Это исследование сразу начали репостить все кому не лень, формулирую это примерно так: «Можно не носить маску. Разницы никакой нет». Об это подробно рассказала Медуза [2].
Теперь давайте разберемся с двумя вопросами, связанными с этим АБ-тестом:
- Сколько нужно было бы участников эксперимента, при условии, что сохранятся коэффициенты 1,8% и 2,1%, чтобы исследование было статистически значимым?
Примерно, в 5 раз больше! Т.е. по 11900 в каждую группу дошедших до конца теста. Или с учетом того, что не все доходили до конца теста примерно по 15000 в каждую группу.
- А какую вообще можно было замерить разницу на таком размере выборки, чтобы она была стат. значимой (на уровне p=0.05)?
В Дании на начало эксперимента ношение масок было редкостью и не входило в число рекомендуемых мер общественного здравоохранения [1]. Поэтому логично предположить, что можно было получить хорошую оценку второй группы (2,1%). Следовательно, в первой группе минимальное значение должно было быть 1,45% (вместо 1,8%), чтобы можно было сказать, что есть стат. значимая разница. Но если бы это было верно, то это бы означало, что в среднем вероятность заразиться коронавирусом при ношении маски снижается почти на 30%. Такое предположение выглядит довольно фантастичным, на мой взгляд.
Какие выводы можно сделать? К сожалению, до сих пор не все могут хорошо спланировать АБ-тест. А проведение АБ-теста на маленьких выборках почти гарантированно приводит к результату «На уровне статистической значимости p=0.05 разницы нет.» Что в свою очередь часто означает, что была выборка недостаточного объема, поэтому нельзя принять решение. А не то, что между ними действительно нет разницы.
Для того, чтобы провести АБ-тест нужно, как минимум иметь предположение на возможный эффект и исходя из него вычислять выборку, на которой проводить эксперимент. В противном случае скорее всего проведение АБ-теста не даст никакой новой информации.
Источники