{"id":2175,"url":"\/distributions\/2175\/click?bit=1&hash=803b6e1bcbd9dfc4ba9456fda887a878c80d24df8d3a575913b14876e18923a5","title":"TJ \u0437\u0430\u043a\u0440\u043e\u0435\u0442\u0441\u044f 10 \u0441\u0435\u043d\u0442\u044f\u0431\u0440\u044f \u2014\u00a0\u043f\u0440\u043e\u0447\u0438\u0442\u0430\u0439\u0442\u0435 \u0430\u043d\u043e\u043d\u0441 \u0441 \u0434\u0435\u0442\u0430\u043b\u044f\u043c\u0438","buttonText":"\u0427\u0438\u0442\u0430\u0442\u044c","imageUuid":"d1d355d8-93a3-5140-aeae-14b03046b760","isPaidAndBannersEnabled":false}
камикадзе

Авторский лонгрид-разбор для тех, кто хочет выжить в мире, где ученые постоянно опровергают друг друга.

Disclaimer: математические примеры в статье умышленно упрощенны дабы не перегружать читателя нюансами современной статистики и теории вероятности, но сохранить суть и идею повествования

Каждому из нас знакомо то чувство, когда в СМИ то и дело появляются новости об исследованиях, которые противоречат друг другу. "Красное мясо повышает риск рака" — говорят нам ученые. "Красное мясо не повышает риск развития рака" — отвечают им другие. Глядя на такие заголовки начинаешь думать, что некие мифические ученые только и занимаются тем, что тратят деньги налогоплательщиков на какую-то ерунду. Существует даже байка что якобы на абсолютно любой продукт питания можно найти исследование доказывающее, что оно канцероген, и опровергающее это. На любой кроме бекона — единственный пока еще неоспоримый канцероген из списка продуктов питания (к сожалению, я не вспомнил источник этой забавной истории).

Почему же так происходит? Неужели ученые такие глупые, и не понимают, что выставляют себя посмешищем в глазах общественности? И как научится плавать в этом море противоречивых данных?

Удав съел слона

Представим, что мы — мореплаватели 18-го века, которые причалили к неизвестному доселе острову. Продвигаясь вглубь, мы натыкаемся на неизвестное науке племя, и все люди которые нам встречаются — очень низкие и коренастые, прямо как хоббиты (правда, так как мы в 18-м веке, то хоббитов еще не изобрели). Воодушевленные открытием, и предвкушая зависть коллег из Лондона, мы стремимся узнать как можно больше о новом племени и проверить настолько они ниже обычных европейцев в цифрах.

Для этого мы заманиваем украшениями и побрякушками племя в единую точку, и начинаем замер каждого из его представителей. Закончив с измерениями, мы получаем огромное количество цифр с лейблом пола и возраста человека. Теперь пришло время придать этим цифрам некий смысл и красоту. Для начала мы подсчитаем среднее значение роста представителей племени путем классического среднего арифметического (допустим, 120 см). Но хватит ли нам этой цифры для полного описания племени? Если у нас есть 5 человек ростом в 100 см и 5 ростом в 200, то их среднее арифметическое будет 150 — значение которого нет и близко ни у одного из измеренных нами людей.

Для полного описания племени нужно знать насколько в среднем рост представителя этого племени отличается от среднего значения (простите за тавтологию), или посчитать так называемое среднеквадратичное отклонение. Для этого мы считаем квадрат разницы между каждым представителем племени и средним значением (например, 117 см – 125 см = –8 см, в квадрате 64). Потом суммируем все эти значения, делим на количество измеренных людей, и берем из этого корень.

Для тех, кого не смущают формулы

В результате мы получаем некое число (допустим 5 см), которое говорит нам, что в среднем представитель этого племени обладает ростом, отличным от среднего роста на 5 см. Среднее значение и отклонение — два ключевых числовых параметра любой выборки объектов, из которых можно сделать огромное количество выводов.

Представим, что наши мореплаватели — настоящие эстеты, которые решили в виде простенького графика отобразить распределение плотности роста племени, где ось X это рост, а ось Y — частота повторений. Выглядит этот график так, словно бы питон съел слона:

Цифры по оси Y — процент людей с таким ростом в племени

Ладно, шутка плохая, и питоны и слоны тут совершенно ни при чем. Этот график — по-научному именуемый кривой Гаусса — показывает нам, что рост нашего племени описывается нормальным распределением, со средним значением в 120 см и среднеквадратичным отклонением в 5 см. Это распределение описывает львиную долю натуральных случайных величин в мире, таких как рост, вес, скорость молекулы в газе, и т.д. Нормальное распределение обладает множеством крайне ценных свойств, включая возможность оценить вероятность того, что случайно выбранный нами житель племени будет обладать ростом между 115 и 125 (около 68%), между 110 и 130 (чуть больше 95%) и между 105 и 135 (больше 99%). Эти интервалы называются доверительными интервалами, и обычно кратны среднеквадратичным отклонениям.

Что же, работа сделана и можно пойти спать на корабль? Перед самим уходом мы спрашиваем жестами у вождя племени "это все люди?" и получаем очень неприятный для нас ответ — "Нет, не все. Еще есть охотники, которые добывают пищу по всему острову, и еще одно племя на другом конце острова — наши враги". Черт! И что теперь делать с этими данными? А вдруг охотники окажутся на 15 см выше остальных членов племени? А вдруг второе племя на другом конце острова еще ниже этих малышей? Есть ли у нас способ как-то оценить точность текущего замера и применить её к тем, кого мы еще никогда не видели?

Оказывается, есть.

Ловкость рук и никакого мошенничества

Если бы нам повезло, и мы сумели измерить каждого из жителей племени, то мы бы получили данные о т.н. генеральной совокупности, то есть о полном множестве интересующих нас субъектов. На практике же, такая утопия крайне редко достижима. Ученых чаще всего интересуют те истории, когда мы физически не можем обладать полными данными. Например, по крайней мере, пока, невозможно знать точное давление и уровень гормонов каждого из людей.

Потому ученым приходится иметь дело с выборками — подмножеством генеральной совокупности. И, что самое интересное, делать выводы о всей совокупности на основе одной лишь выборки.

Называется этот трюк "центральная предельная теорема" (ЦПТ) и гласит он, что если мы измерим среднюю величину и отклонение случайной выборки из генеральной совокупности, то мы сможем определить доверительный интервал в котором будет находиться среднее значение всей генеральной совокупности. То есть, мы не сможем точно оценить параметры генеральной совокупности, но мы сможем назвать интервал в котором эти параметры находятся с вероятностью в 95% или 99% (зависит от нашей толерантности к ширине интервала). Ученые пришли к такому выводу методично замеряя средние значения случайных выборок из генеральных совокупностей с нормальным распределением, и после сравнивая их с настоящим числом:

Краткая суть идеи: число 368 встречается почти в любом из интервалов среднего значения случайных выборок

Обладая этим знанием, и измерив рост 100 туземцев со средним значением в 120 см и отклонением в 5 см, мы можем утверждать что с 95% вероятностью, средний рост всего племени находится в интервале между 119 см и 121 см.

Кажется, что особо ничего не изменилось? Цифра де-факто равна 120 см, и где же тут подвох? Что же, у этого здесь есть много нюансов.

Во-первых, "случайной выборки" — чтобы применить ЦПТ корректно и составить картину в целом, нам надо использовать абсолютно случайную выборку, в которой риск искажений будет минимален. И уже тут начинаются рояли в кустах. Как получить полностью случайную выборку? Может, начать ловить людей на улице и завлекать к себе в офис? Или дать объявление в газету? А может, стоит случайно тыкать в телефонный справочник? Нет, увы, все три метода не могут дать случайную выборку. В это время дня в этом районе города под нашим офисом гуляет лишь определённый народ, на объявления откликнутся бедные любители подзаработать, а стационарный телефон дома сейчас есть не у всех. На самом деле, даже банальный факт согласия человека принять участие в исследовании уже говорит о его отклонении от большинства обычных людей. Фактически, обеспечить полную случайность выборки бывает невозможно.

Кроме того, признание факта случайности выборки означает, что нам известна мощность нашего искомого множества, а это не всегда верно. К примеру, мы хотим провести исследование о неком сердечно-сосудистом заболевании. Очевидно, что мы можем привлечь только тех людей, кто имеет зарегистрированный в больнице диагноз и состоит на учете. Однако это далеко не все люди с таким заболеванием. Очень многие могут годами болеть хронической болезнью и даже умереть от нее, но так и не дойти до клиники, и их отсутствие в поле возможностей для нашей выборки уже не позволяет говорить о полной случайности. Ровно также результат роста туземцев не даёт нам случайную выборку, ведь очевидно, что в охотники ушли самые сильные и выносливые, а дома остались женщины, старики, дети и больные.

Во-вторых, для правильного применения ЦПТ нам необходимо знать какое распределение демонстрирует то или иное множество. Нормальное распределение — лишь верхушка айсберга и самое базовое из всех. Чаще всего оно встречается там, где работает некий ограничительный закон природы, например, в вопросах роста или веса. Мы не ожидаем увидеть 5 метровых людей или 5 килограммовых взрослых людей, и большинство из нас — середняки.

Однако для большого количества "социальных" параметров это распределение не работает. Например, уровень дохода людей, или кассовые сборы фильмов в кинотеатре. Если мы захотим провести исследование об окупаемости кинолент, то полученный нами график будет далек от "нормального":

График окупаемости фильмов в Голливуде

Мало того, что график асимметричен, так еще и его "хвост" крайне неоднородный и имеет аномальный скачок вверх в самом конце. Приблизительно такую же картину мы получим, если попробуем исследовать уровень дохода людей. Из-за этого мы не можем применять стандартный математический аппарат, и исследования на подобных выборках уже требуют немалую долю математического гения и креативного подхода.

В дополнение ко всему, не каждый социальный параметр полноценно измеряем. Взять, к примеру, образованность. Четкого критерия у этого слова нет, так что кто-то считает количество дипломов, кто-то — средний балл в школе, кто-то — уровень IQ. Однако это все ужимки очень широкого понятия в не очень гибкие лекала, и один и тот же человек может попасть или не попасть под критерий двух разных исследований об одной и той же теме, в зависимости от метода фильтрации.

В общем, очень часто получив какие-то данные, ученым еще предстоит понять, а какой закон распределяет их. Может это биноминальное распределение? Или логнормальное? Или асимметрично "хвостатое"? Достаточно ли у нас данных, чтобы понять, что перед нами?

В-третьих, даже если мы получили действительно случайную выборку известного нам распределения, речь все равно идет о доверительных интервалах и вероятностях. Это как в случае с ростом выше. Знание роста 100 туземцев дает нам некую картину и интервал, внутри которого и находится искомое среднее значение роста всего племени с вероятностью в 95%. Если бы у нас было огромное племя и мы 20 раз провели случайный забор 100 людей на измерение, то в одном случае из этих двадцати, мы промахнулись бы. Это частично решается расширением интервала, чем шире он — тем выше вероятность попадания, однако не каждая выборка и исследование позволяет так сильно размывать границы значений.

Проще говоря, пытаясь построить цельную картину о каком-то множестве по анализу его подмножества, у нас есть огромное количество вариантов, как отстрелить себе ногу, начиная от неслучайной выборки (есть такая шутка, что испытуемые исследований по психологии это студенты факультета психологии), и заканчивая ошибочным выбором формул, или же банальным невезением.

Очевидно, что выше изложена крайне простая и упрощенная модель современной статистики, однако общая идея того, что вместо точной и ясной науки мы видим некую систему упрощений, погрешностей и вероятностей остается ясна. Это как настоящее минное поле, в котором крайне легко ошибиться. Достаточно лишь небрежно подойти к любой мелочи и вот уже снежный ком несет нас прочь от желанной истины.

Но что более пугает — иногда эти ошибки допускают умышленно.

Проникаем в лабораторию

Представим, что вы — профессиональный ученый, который занимается, например, разработкой диет для профилактики заболеваний сердечно-сосудистой системы. И представим, что анализируя какую-то травушку-муравушку, вы нашли в ней некий компонент X, который вроде как коррелирует с частотой заболеваний сердца в другом исследовании. Бинго! У вас рождается гипотеза, и как вы думаете она звучит? "Добавление травушки-муравушки в диету людей склонных к сердечно-сосудистым заболеваниям, уменьшает риск болезни"? Не-а.

Ваша "нулевая гипотеза" (так называемая H с индексом ноль) звучит ровно наоборот: "Добавление травушки-муравушки в диету людей склонных к сердечно-сосудистым заболеваниям, не уменьшает риск болезни". То есть, исходя из современной науки, ваша первая гипотеза состоит в том, что вы не правы, и по сути, ваша задача состоит в том, чтобы опровергнуть свою неправоту.

Фальсифицируемость — любая гипотеза или теория не может считаться истинной и научной, если не существует способа ее опровергнуть.

Представим себе, что мы услышали 2 теории в интернете:

1. Коллективизация, Голодомор, и Большой Террор были необходимыми условиями для промышленного рывка СССР
2. Добавление травушки-муравушки в рацион уменьшает риск сердечно-сосудистых заболеваний

С второй теорией мы сейчас разберемся, и у нас есть возможность провести эксперимент, который способен опровергнуть ее. Мы не обязаны опровергнуть эту теорию, но у нас есть такая возможность.

Чего не скажешь о первой теории, которую опровергнуть нельзя. Мы можем сколько угодно проводить дебатов, нам может казаться эта теория абсурдной или очень стройной и логичной, но у нас нет физической возможности ее опровергнуть. Мы не можем создать альтернативную Вселенную в которой Сталин выберет НЭП, провести сбор данных и узнать верна ли наша гипотеза.

Отсутствие способа опровергнуть теорию, с точки зрения научного подхода, запрещает считать ее истинно научной, и именно потому наука так снисходительно смотрит на религию, астрологию, теории заговора, и прочие дебаты из интернета — они не фальсифицируемые, а значит заведомо не научные.

Как это сделать?

В самом простом варианте, вы отбираете 2 случайные выборки людей, у которых средний риск развития сердечно-сосудистых заболеваний приблизительно одинаковый (пусть будет 15% в течении следующих десяти лет). Одна выборка станет вашей контрольной группой, а на второй мы будем ставить эксперименты. После отбора, заполнения всех бумаг и составления регламента, начинается сам эксперимент — первая группа живет и работает как жила и работала до этого, внося в медицинский дневник свои наблюдения и показатели, вторая же группа начинает ежедневно добавлять в свой рацион травушку-муравушку, а так же как и первая вести свой дневник, и отмечаться у врача.

Прошло 10 лет. Вы заканчиваете эксперимент и проводите финальные измерения. По итогам исследования, у 13% людей из первой группы действительно начались проблемы с сердцем и сосудами, в то время как во второй группе процент составил 11,7%. У тех, кто остался здоров, ваши тесты показывают, что риск развития заболеваний составляет 19,5% у первой группы и 17,9% у второй.

Кажется, это успех и пора бежать писать статью, попутно регистрируя новую торговую марку?

Давайте не будем торопиться. Сейчас начинается главное действие всего исследования: проверка гипотезы на статистическую значимость. И вот в чем её суть: зная, что мы выбирали лишь "случайные" выборки, и не могли провести анализ всей генеральной совокупности, какова вероятность, что нам просто повезло? Проще говоря, какова вероятность того, что результат второй группы — случаен?

В упрощенной вариации, мы принимаем контрольную группу за неискаженную случайную выборку, и проводим так называемую "z-оценку" для группы на которой проводился эксперимент. Не вдаваясь в математические расчеты, предположим, что мы получили z оценку равную двум, что означает, что вероятность случайного получения результата во второй группе относительного первой составляет 2.3%.

Это много или мало? Можем ли мы рекомендовать добавление травушки-муравушки в рацион группы риска на основании этой вероятности? Означает ли это, что проведя один и тот же эксперимент 50 раз мы минимум 1 раз получим ошибочный итог, и нет ли гарантий, что он получен сейчас? Какой должна быть вероятность, чтобы считаться статистически значимой?

И тут наступает главный финт ушами: уровень статистической значимости для своего исследования ученые выставляют сами.

Стандартным считается 5%, и самое интересное, что у этой цифры нет никакой чёткой логической подоплеки. Эта цифра — детище Рональда Фишера (её так и называют "порог Фишера") — отца основателя современной статистики, которому просто нравилось это число. Научного обоснования у этого порога не существует (зато существует много критики). И сейчас этот порог используют повсеместно, практически всегда и везде (хотя формально ученый волен поменять этот порог и указать его в своем исследовании сам).

То есть, еще раз: ученые отбирают две "случайные" выборки испытуемых, потом на одной из них ставят эксперимент, а вторую принимают за истинную контрольную группу, в конце оценивают вероятность того, что разница в результатах групп не более 5% чисто случайна, и если да — исследование идет на печать и рецензии.

Но что, если вдруг мы получим вероятность в 7%? Означает ли это что результат 10-летнего труда должен смирено отправится в мусорку? В идеальном мире — да, но так как мы не живем во Вселенной розовых пони, реальность оказывается куда более причудливой.

Ни одна серьезная статья не может обойтись без вырвиглазного стокового фото 

Мам, я хочу стать ученым, когда вырасту!

Перед тем как перейти к окончательному избиению невинных ученых, стоит поговорить о еще двух важных вещах, не связанных с математическим аппаратом: что такое наука сейчас и как устроен карьерный путь внутри.

Во-первых, современная наука это настоящие джунгли со своими законами, и очень жесткой иерархией. Выбирая путь науки, ты обрекаешь себя на долгие годы кропотливой работы, где в начале, скорей всего, будешь работать в команде у какого-нибудь профессора, помогая ему с расчетами, просиживая штаны в лаборатории, и подготавливая 95% материала, которые потом будут представлены профессором, как его работа, и с твоим именем мелким шрифтом на предпоследней странице, если повезет.

Хочешь расти и развиваться? Дерзай, проводи свои исследования, и пиши свои научные публикации, в свободное от основной работы время по ночам за 15-й кружкой кофе. И здесь появляется первый важный вопрос — откуда взять деньги?

Во многих отраслях более или менее крупный эксперимент и проверка гипотезы стоит много денег. Помимо почасовой оплаты вспомогательному персоналу, который помогает вести бумаги, обзванивает и объезжает испытуемых, собирая данные, и тд, тебе еще необходимо оборудование, материалы, и прочее-прочее-прочее. Мало кто согласится проводить такие эксперименты бесплатно, а своих денег не хватает даже на новую рубашку, так что без внешнего финансирование чаще всего совсем никак.

И вот наш молодой ученый заполняет заявку на грант, и ждет своего решения. И, как бы нам не хотелось верить в мир розовых пони, но шансы на грант намного выше, если потенциальное исследование будет "актуальным", "интересным", а в идеале — сулить какую-нибудь прибыль тем, кто выдает чек. Потому, если ученый попытается узнать механизмы привлечения внимания самок у каких-то насекомых из Южной Америки, денег дадут явно с меньшей охотой, чем на исследование о том, как наличие вещества X в воздухе влияет на уровень концентрации и сонливости офисных работников (не очень актуально в период COVID, согласен). Просто потому что второе может принести миллиарды долларов прямой прибыли повышая уровень работоспособности офисного планктона.

В идеале, исследование должно занять определенное место в цепочке ведущих к прибыли, и уже тут рождается конфликт интересов — чем дальше это место, тем меньше интереса. Даже если это исследование насекомых в Южной Америке может намного позже привести к новому спрею от комаров, "играть в долгую" хватит терпения не каждому.

В дополнение ко всему, относительная организационная сложность исследований проводит естественный отбор среди ученых, оставляя шанс выжить тем, у кого лучше развиты коммуникативные, и управленческие навыки, и потому вероятно самые светлые умы, не умеющие продать свою идею, сейчас прозябают в пыльных кабинетах.

По этой же причине в математике, и молодых дисциплинах вроде поведенческой экономики, так много одиночек гениев — физические затраты на исследования в этих областях стремятся к нулю, что позволяет работать "чистым" ученым без каких-либо претензий на навыки менеджера или продавца.

После того как ученый получает грант, проводит исследование, и получает результат, ему необходимо оформить все это в научную статью, и отправить на рецензию. Публикация для ученого это как релиз продукта с открытым кодом для программиста — веха в карьере до конца жизни, отдельная строка в резюме. У ученых также есть свой аналог "форка" — цитируемость (то есть, сколько других исследований в будущем сослались на твоё). Одна хорошая публикация с большой цитируемостью, и твоя карьера может измениться навсегда.

Для достижения цитируемости лучше всего подойдет публикация в крупном и авторитетном журнале, главными из которых является Nature и Science. И мало того, что публикация в этих журналах стоит 3500 долларов (нет денег? давай до свидания!), так еще и сумасшедший конкурс отсеивает большую часть претендентов до этапа ревью. Крупные журналы очень чтят свою историю, и выбирают то, что поможет продвигать их репутацию светил науки. Становится важным не только смысл исследования, но и стилистика повествования, затрагиваемые в нем темы, их актуальность и возможный отклик в научной среде. Среди ученых выживает сильнейший.

Тут важно понимать, что нездоровый рынок академических позиций в основном базируется на количестве статей в высокоцитируемых журналах. Хочешь иметь шансы на постоянную позицию в хорошем институте — публикуйся в Science, Nature и журналах около. И никуда от этого не деться, увы.

Михаил Коробко, статья опубликованная на Хабре

И это еще сильней усиливает тот самый конфликт интересов: даже если ты раздобыл денег на "скучное" исследование, крайне маловероятно ты сможешь его удачно опубликовать и получить галочку в своей карьере. Потому ученые, как самые настоящие дети эволюции выживают и приспосабливаются, массово атакуя "актуальные" темы вроде рака, нейро-биологии, генной инженерии, квантовых вычислений и прочее-прочее. Очень часто идея получить публикацию становится навязчивой (а кому хочется прозябать работая по 80 часов в неделю за зарплату официанта), что плачевно сказывается на качестве подготовки и других сайд-эффектах, о которых мы поговорим позже.

Самое удивительное, что вся эта система активно поддерживается самими же учеными-победителями. Все как в армии — отслужив "дедовщину" и получив свой статус и славу, многие ученые очень часто отстаивают эту систему, считая что все кто против — просто неинтересные и скучные неудачники, которые завидуют успеху "настоящей" науки.

В последнее время все больше и больше голосов раздается в сторону реорганизации современной науки, подходов к её финансированию и оценке результатов. Появляются проекты вроде sci-hub, или arxiv.org, которые упрощают возможность ученых публиковаться и читать чужие публикации (подписка на Science/Nature тоже стоит немало).

Но пока что эти процессы в состоянии зародыша, и нам приходится наблюдать одни и те же сайд-эффекты текущей системы.

Современная наука заражена вирусом «publish or perish». Вместо публикации результатов ученые вынуждены изощряться, представляя результаты в наиболее выгодном свете, чтобы «продать» их в «крутые» журналы. Это все идет в ущерб объективности представления результатов, и в процессе написания статьи я прочувствовал это в полной мере. Иногда кажется, что маленькая неточность не сыграет никакой роли, зато поможет пропихнуть статью повыше. Надеюсь, мне удалось подавить эти желания, и такие неточности в текст не пролезли. Но сам процесс развращает неимоверно.

Все тот же автор

Где безошибочные исследования, Лебовски?

Как следствие всех предыдущих пунктов этой статьи, можно смело выделить 2 типа ошибок: случайные и преднамеренные.

К первому типу можно отнести работу с данными, и статистикой. Была ли выборка действительно случайной? Не упустили ли мы некое отклонение в данных? Сравнивая результаты контрольной группы с испытуемой, учитываем ли мы результаты других исследований? К примеру, изучая влияние травушки-муравушки, изучили ли мы другие исследования на эту же тему? Какие показатели заболеваемости были у контрольных групп для других исследований? Может в остальных исследованиях показатели контрольной группы равны показателям нашей испытуемой, и у нас есть явное отклонение?

Как в целом мы определяем наши критерии? Каким методом находим людей с "повышенным риском сердечно-сосудистых заболеваний"? Как мы оцениваем образование? Уровень дохода? Учитываем ли мы активы во владении, пассивные доходы, или только заработную плату?

Во время исследования многое может пойти не так. Половина участников контрольной группы может потерять близких во время эксперимента и из-за переживаний ухудшить свое состояние, в то время как 75% испытуемой группы получат повышение на работе и улучшат своё финансовое благосостояние. Учитываем ли мы эти факторы? Оцениваем ли разницу в диетах, месте проживания и экологии? Как отделить фактор влияния нашей травушки от других факторов?

В конце концов, даже если мы сделали все корректно и учли все возможные способы отстрелить себе ногу, проверка гипотезы на статистическую значимость с p-значением в 5% означает, что нам все еще может повезти. 5% это немного, но при ежегодных десятках тысяч исследований, банальная статистика говорит, что минимум сотни из них получены случайным образом. И, конечно же, каждый уверен, что это случилось не с его исследованием.

Все эти особенности исследований оставляют огромное пространство для второго типа ошибок — умышленного.

Как-то раз математики собрали в кучу огромное количество исследований и проанализировали полученные в их результате p-value. Предположение было следующим: если нет манипуляций с данными, то и распределение p-value должно быть равнораспределенным без аномалий вокруг порога Фишера. Однако реальные данные сильно разошлись с этой гипотезой. Математики обнаружили что практически не существует исследований с p-значением чуть больше 5% (5.2%, 5.5%, и тд). Однако сразу ниже отметки в 5% наблюдался настоящий аномальный всплеск.

This analysis suggests that statistical tests published in medical journals are not a random sample of null and alternative hypotheses but that selective reporting is prevalent. In particular, significant results are about twice as likely to be reported as nonsignificant results.

Или ученые — гении, и постоянно подбирают для проверки такие гипотезы, которые преодолевают статистический порог Фишера (крайне сомнительно), или ученые,получая в своих исследованиях результат, близкий к порогу (от 5%), но его не преодолевающий, "нормализировали" данные и получали его в итоге. Вот как это работает:

Представим, мы начали некое исследование с двумя группами по 90 человек в каждой. Проставив "лейблы" каждому из участников (пол, возрастная группа, количество дипломов, ежегодный доход, семейное положение и прочее), мы можем относительно легко менять направление исследования, и исключить какую-нибудь группу, если она мешает нашему исследованию пройти проверку. К примеру, мы можем обнаружить, что если исключить людей старше 55 лет, и исключить не рожавших женщин старше 30, то мы получим исследование, преодолевающее порог. А еще вот этот парень кажется аномальным, что там у него? Родилось двое детей, и он выиграл в лотерею? Хм, убираем. Парочка легких манипуляций — у нас уже 2 группы по 72 человека вместо 90, исследование готово!

Олдскулы свело когда искал этот шаблон

Зачем это делать? Ответ кроется в предыдущем обсуждении состояния науки и влияния научных журналов. Увы, но абсолютно никому не интересны исследования, которые получили отрицательный результат. Представим, что наше исследование травушки-муравушки не обнаружило статистически значимого эффекта на здоровье испытуемых. С точки зрения научной теории это знание также ценно как если бы мы обнаружили эффект, однако с точки зрения научных журналов и тех, кто выдает гранты, это исследование неинтересно. "Об этом не напишут в газете", и ученый который не может подтвердить свои гипотезы с меньшей вероятностью получит следующий грант, его карьера замедлится.

Фильм с открытой концовкой

Текущее положение науки и качества исследований — результат систематических проблем, которые не решаются в мгновение ока. А потому лучшее, что мы можем сделать, это помнить о сути научного метода, и стремится его применять там, где его не всегда применяют даже сами исследователи.

Для начала, стоит запомнить, что исследование, построенное на проверке статистической значимости, лишь обнаруживает присутствие достаточно неслучайного эффекта. Оно не объясняет причины, не устанавливает причинно-следственные связи, а лишь обнаруживает некую корреляцию достаточно явную, чтобы о ней можно было написать статью.

Потому читая очередную новость "травушка-муравушка предотвращает развитие сердечно-сосудистых заболеваний" стоит поинтересоваться, было ли исследование на обнаружение эффекта или на его объяснение? Исследований первого типа бесчисленное множество, исследований второго — единицы, но они ценней всего.

Корреляция не транзитивна.

Еще одной распространенной ошибкой журналистов и СМИ являются попытки увязать между собой различные исследования путем транзитивности. Приведу пример:

Уже несколько десятилетий исследования подтверждают положительный статистический эффект наличия в крови т.н. "хорошего холестерина" (ЛПВП) на состояние сердечно-сосудистой системы. Также известно, что один из витаминов В — ниацин — повышает концентрацию ЛПВП в крови. Исходя из этих 2-х результатов кажется вполне разумным предписать ниацин пациентам с повышенным риском заболеваний сердца, и именно так поступают очень многие врачи. Однако многочисленные исследования о влиянии ниацина на состояние сердечно-сосудистой системы не нашли никакого эффекта.

ЛПВП действительно уменьшает риски, и ниацин действительно повышает уровень ЛПВП, однако прием ниацина не понижает риски заболеваний. Видимо, у пациентов с ЛПВП задействован другой механизм его выработки, который и является причиной хорошего здоровья, и прямая стимуляция тут не работает.

И, самое главное, хорошее исследование, обнаружившее новый статистически значимый эффект, является лишь начальной, а не конечной точкой. В мире идеального научного подхода, после публикации в журнале другие ученые должны провести аналогичные исследования для проверки и более глубокого изучения механизмов работы обнаруженного эффекта.

Воспроизводимость — ключевое свойство хорошего исследования, но также как никто не даст денег/публикацию в журнале на скучное или неудавшееся исследование, также нет поддержки на воспроизведение уже проведенных исследований. Из-за этого в мире научной среды в последние несколько лет развернулся самый настоящий replication crisis — в психологии, медицине, диетологии и экономике около 70% исследований не удалось воспроизвести. По сути, большая часть современных исследований — одноразовая пустышка.

Научная теория предполагает, что полученный статистический эффект это детектив, а не судья. Его цель — обнаружить эффект для дальнейшего разбирательства, а не вынести вердикт. Увы, об этом не так часто помнят СМИ, и те, кто выдают деньги на исследования. Несмотря на повальные махинации с p-value (так называемый p-hacking), и кризис воспроизводимости, сейчас сразу после обнаружения эффекта, СМИ начинают массово тиражировать новость, неверно интерпретируя как начальную выборку, так и результат исследования, и его значение. Травушка-муравушка статистически себя проявила в группе риска сердечно-сосудистых заболеваний? Жди завтра диетологов и маркетологов со всего мира, продающих тебе эту дрянь под видом полезности, и не жди новых исследований для перепроверки результатов.

Именно потому сейчас появляются так называемые "мета-исследования", когда ученые собирают в единое место результаты множества других исследований на определенную тему, и хоть и не воспроизводят их, но проверяют не предвзято и взвешенно на удовлетворение математическим принципам. Была ли выборка действительно случайна, заметна ли некая аномалия в данных, указывающая на ручную коррекцию полученного результата, и прочее-прочее. В результате получается некая огромная выборка на которой можно делать уже более корректные выводы о том, действительно ли некое допущение является статистически значимым (заметьте, о механизмах работы допущения, речи все еще нет). Проблема правда в том, что мета-исследование физически не может охватить весь массив данных, так что им также приходится иметь дело с некими выборками и допущениями, и уже сейчас можно найти 2 разных мета-исследования которые привели к разным результатам. Ждем появлений мета исследований мета исследований.

Вместо титров: как и обещал, оставляю эту статью с открытым финалом. Современная наука все больше представляет собой некий хаос, и какофонию, благо, она также начала осознавать свои проблемы. Надеюсь этот материал пролил немного света на эту вакханалию, и был хоть капельку полезен и интересен. Фидбек в комментариях в крайней степени приветствуется!

null