В двадцатом веке величайший вклад в развитие статистики внес не академический ученый, а скромный пивовар из компании «Гиннесс» (Guinness). Именно он, Уильям Сили Госсет (William Sealy Gosset), ввел в эту научную дисциплину понятие статистической значимости (statistical significance), разработал систему промышленного контроля качества и метод эффективного планирования экспериментов, а также изобрел метод последовательной проверки качества пива.
Имя Госсета, однако, не стало нарицательным. Книги и статьи о нем малочисленны, он редко упоминается в перечне величайших статистиков в истории. Поскольку Госсет публиковал свои работы под псевдонимом, его настоящее имя незнакомо большинству из тех, кто часто пользуется его самым известным открытием: Госсет был тем самым «Студентом», чье имя (точнее, псевдоним) носит метод корректной экстраполяции числовых значений, взятых из небольшой выборки данных - t-тест Стьюдента (Student’s T-Test).
Как пивовар, чьим основным занятием был выбор сырья для варки стаута, произвел революцию в статистике? И почему Госсет столь мало извесстен даже в среде профессиональных статистиков?
Госсет совершил все свои открытия во время работы на компанию «Гиннесс» в 1899-1937 гг.
Согласно дошедшим до нас историческим сведениям, Уильям С. Госсет был настоящим, что называется, «хорошим парнем».
Его современники, знаменитые статистики, такие как Уильям Эдвардс Деминг (William Edwards Deming) и Джордж Удни Юл (George Udny Yule), называли его, соответственно «очень скромной и обаятельной личностью» и «очень приятным человеком». Двое выдающихся ученых, заложивших основы современной статистики - сэр Рональд Эйлмер Фишер (Sir Ronald Aylmer Fisher) и Карл Пирсон (Karl (Carl) Pearson) - известных, помимо всего прочего, глубокой и неподдельной взаимной неприязнью, приходили к согласию только в одном вопросе: они оба испытывали искреннюю симпатию к Госсету.
Про таких, как родившийся в 1876 году в Кентербери (Canterbury, England) Госсет, англичане говорят «родился с серебряной ложкой во рту». Появление Госсета на свет в семье полковника Королевского инженерного корпуса (Corps of Royal Engineers) гарантировало будущему великому статистику значительные привилегии, недоступные большинству современников. Молодой Уильям намеревался последовать по стопам отца, но оказался непригоден к военной службе из-за плохого зрения. Смирившись с мыслью о невозможности военной карьеры, Госсет заканчивает престижный Винчестерский колледж (Winchester College), а затем поступает в Оксфорд (Oxford), где изучает математику и химию. После окончания университетского курса в 1899 году Госсет поступает на работу на пивоваренный завод компании «Гиннесс» в Дублине.
В замечательной ретроспекции достижений Госсета экономист Стивен Зиляк (Stephen Ziliak) красочно описывает молодого выпускника Оксфорда:
«В 1899 году Госсет был энергичным - если не слегка помешанным - 23-летним джентльменом-ученым. Он обладал излишне богатым воображением и был более энергичным и внимательным, чем сенбернар в снежную бурю. Одержимый наблюдатель, счетовод, велосипедист и фанатичный поклонник крикета, новоявленный пивовар приходил в восторг от изобретений, экспериментов и пребывания на свежем воздухе».
Госсет до конца жизни работал в компании Guinness, и все выдающиеся инновации, привнесенные им в статистику, напрямую связаны с его основной профессиональной деятельностью - пивоварением.
Госсет пришел в науку через лабораторию пивоваренной компании
Когда Госсет начинал работать в «Гиннесс», эта пивоваренная компания была уже крупнейшей в мире. Даже в сравнении с работой современных корпораций тогдашняя производственная практика Guinness выглядит радикально ориентированной на использование новейших достижений науки для улучшения выпускаемой продукции. Топ-менеджеры ирландской компании нанимали на работу самых ярких молодых ученых, каких только могли найти, и давали им полную свободу в применении инноваций в производственных процессах и проведении самых смелых экспериментов.
Инновационная политика Guinness создавала замечательные условия для самореализации любознательного и практически мыслящего Госсета - равнозначные шансы на воплощение своих идей позже получал непризнанный компьютерный гений, устраиваясь на работу в исследовательский центр корпорации Bell Labs в 1970-х, или ученый, работающий в области исследований искусственного интеллекта, приглашенный в команду Google сегодня.
На рубеже девятнадцатого и двадцатого веков Guinness уделяла свое основное внимание поддержанию высокого качества продукции при одновременном увеличении масштабов и снижении себестоимости производства пива. За период между 1887 и 1914 выпуск продукции вырос в 2 раза, достигнув почти миллиарда пинт (568 261 250 литров). Резонно поинтересоваться: как компания может увеличить производство пива, сохранив ожидаемое потребителями привычно хорошее качество пенного напитка? Госсет был назначен в состав команды исследователей, искавших ответ на этот вопрос.
При изготовлении «Гиннесса» - как и большинства других сортов пива - используются соплодия («шишки) хмеля обыкновенного (Humulus lupulus), придающие пенному напитку специфический вкус и аромат. В 1898 году, например, ирландские пивовары использовали почти 5 млн фунтов (2 268 тонн) этого сырья. Хмель для пивоварения они выбирали на основе качественных критериев - внешнего вида и аромата.
В производственных масштабах Guinness этот метод оказался неэкономным и неточным. Команда «ученых-пивоваров», частью которой стал Госсет, сумела усовершенствовать процесс отбора сырья для пивоварения.
Первый босс Госсета, Томас Кейс (Thomas Case), что лучший способ определить качество хмеля - это рассчитать количественное соотношение мягких смол к жестким (хмелевые смолы - полутвердые вещества, выделяющиеся из «шишек» растения).
Кейс решил взять небольшое количество образцов, взятых из различных партий хмеля, и вычислить процентное соотношение мягких смол к жестким. Он обнаружил среднее значение содержания мягких смол 8,1% для выборки из 11 образцов, а для выборки из 14 образцов это значение составило 8,4%. Но как интерпретировать полученный значения на совокупность образцов, на порядки превышающую маленькие выборки? Этого Кейс на самом деле не знал: он просматривал данные и не мог прийти к какому-либо определенному выводу, хотя и понимал, что эту проблему необходимо решить для того, чтобы в будущем уметь анализировать результаты проведенных тестов. Поэтому он обратился к Госсету.
Историк Джоан Фишер Бокс (Joan Fisher Box) объясняет привлечение Госсета к решению задачи тем, что он изучал математику в Оксфорде, а значит, «меньше боялся цифр», чем другие пивовары.
Современному исследователю, работающему с количественными значениями (например, маркетологу, проводящему сплит-тесты), трудно представить, что в то время теории, позволявшей делать выводы по результатам тестирования небольшой выборки образцов, не существовало.
Конечно, ученые периодически использовали небольшие выборки в качестве доказательства выводов, но они не имели никакой возможности измерить вероятную точность своих оценок. Все методы экстраполяции по выборке опирались на идею, что нужно взять большую выборку - больше 30 наблюдений - и использовать понятие стандартного нормального распределения. Этот подход был верен для большинства неторопливых академических исследований, но в условиях промышленного производства возможности рассмотреть большую выборку образцов зачастую просто не было.
Даже «научно мыслящие» компании - такие как «Гиннесс» - были ограничены в количестве продукта, который они могли подвергнуть тестированию: в конце концов, все они работали ради поставки товаров конечному потребителю и получения прибыли.
Распределение Стьюдента: кривые на графике отображают Z-распределение (стандартное нормальное распределение; количество образцов в выборке принимается за бесконечно большое), t-распределение с количеством степеней свободы (образцов в выборке) n ~ 30, t-распределение с количеством степеней свободы (образцов в выборке) n < 30
Итак, Госсет приступил к работе. Его цель - понять, насколько снижается репрезентативность полученных результатов при уменьшении размера выборки. В чуть более академических терминах задача формулируется так: насколько увеличивается погрешность измерения в случае, когда у вас есть маленькая выборка из 2 или 10 образцов по сравнению с выборкой в 1000 образцов?
Первая проблема, которую стал решать Госсет: точное выяснение количества измерений уровня сахаридов в солодовом экстракте, необходимое для того, чтобы быть уверенным, что их содержание соответствует эталонному значению в 133 единицы с точностью 0,5 единицы.
Первоначальный подход Госсета был прост и сводился к сравнению погрешности измерений, полученных по минимальной выборке (2 образца) и по максимально большой группе данных (результаты измерений последней считались по умолчанию образцово точными). В случае очень большой выборки образцов достаточно вычисления среднего значения измеренных уровней сахаридов - оно будет вполне достоверным, но чтобы получить корректные значения измерений по минимальным выборкам, Госсету пришлось исследовать огромное количество таковых. Он пришел к выводу, что 80% от общего числа измерений, полученных по «2 точкам», совпадают с точностью в 0,5 единицы с образцовым результатом.
Затем Госсет повторил аналогичный опыт с группами из 3 измерений. На этот раз совпадение с точностью в 0,5 единицы наблюдалось в 87,5% от всех сравнений результатов. При использовании выборок, содержащих 4 измерения, количество совпадений с эталонным результатом превысило 92%. При использовании групп из 82 результатов вероятность получить точное значение с погрешностью 0,5 единицы стала практически бесконечной.
Начальство Госсета было в восторге от полученных им результатов: они позволяли принимать решение о выборе сырья для пивоварения, опираясь на числовые данные, полученные в ходе тестов, а не на интуицию и «показания» органов чувств. Ни один из конкурентов Guinness в то время ничего подобного делать не умел.
Однако самого Госсета собственный метод аппроксимации (приближения) устраивал не полностью: он хотел знать, как с точки зрения математики можно обосновать достоверность выводов, полученных при исследовании малой выборки, и правомерность применения этих выводов к выборке большой. Госсет сообщил руководству «Гиннесса» о своем желании проконсультироваться по данному вопросу с «каким-нибудь профессиональным математиком». Обязанная Госсету компания оплатила ему творческий отпуск и отправила его в лабораторию Карла Пирсона в Университетском колледже Лондона (University College London). Пирсон являлся одним из ведущих научных деятелей своего времени и, как стали считать позже, «отцом-основателем» современной статистики.
Оригинальная таблица t-распределения из работы Госсета «Вероятная ошибка среднего» (англ. The probable error of a mean)
Как Госсет стал «Студентом»
За год, проведенный в лаборатории Пирсона, Госсет разработал математическое обоснование «закона ошибок» («law of errors») для малых статистических выборок. Сегодня его открытие известно как «t-распределение Стьюдента» (Student’s t-distribution). Распределение Стьюдента -основной способ определения вероятной ошибки оценки в зависимости от размера выборки, и по сей день широко применяемый в науке и промышленности. Student’s t-distribution является одним из столпов современной статистики и фундаментом концепции статистической значимости.
Но почему t-распределение исторически приписывается какому-то «Студенту», а не Госсету?
После завершения работы над математическим аппаратом t-распределения Госсет решил сделать свою работу доступной широкой общественности. Он получил важные результаты, которыми хотел поделиться со всем миром. Однако менеджеры «Гиннеса» противодействовали намерениям Госсета: они понимали, какое преимущество над конкурентами обеспечивает им метод контроля качества, и были далеко не в восторге от перспективы утратить свои передовые позиции. Если Госсет опубликует свои труды, то другие пивоваренные компании тоже смогут применить его открытие на практике.
Но в конце концов стороны достигли компромисса: «Гиннесс» позволил публиковать Госсету свои работы при использовании последним псевдонима. Таким образом, конкуренты не смогут установить, что некие исследования проведены на деньги ирландских пивоваров, и связать успех «Гиннесса» с промышленным применением метода Госсета.
Вот почему статья, в которой впервые применяется понятие t-распределения - «Вероятная ошибка среднего» (The probable error of a mean) - была опубликована Госсетом под псевдонимом Стьюдент («Студент»). «Вероятная ошибка среднего» была сравнительно скучным фрагментом из большой работы Госсета и содержала в основном математические подтверждения точности его метода.
Хотя публикация «The probable error of a mean» поначалу игнорировалась учеными, работающими в области статистики, молодой математик Рональд Эйлмер Фишер по прочтении этой статьи вдохновился результатами и подходом Госсета. Фишера особенно захватила идея Госсета об использовании таблицы распределений для получения заведомого достоверного результата, отличимого от случайного.
Минимизировав влияние случайности, мы приходим к определению значимого результата, и далее - к фундаментальному для современной науки понятию статистической значимости. Вот такие серьезные последствия имело восхищение Фишера статьей «Студента».
Рональд Эйлмер Фишер, «отец современной статистики», вдохновленный статьей «Вероятная ошибка среднего», принял идеи Госсета за некую догму, что нанесло ущерб науке в целом
Развитие Фишером идей Госсета и «освящение пяти сотых»
Британский ученый и популяризатор науки Ричард Докинз (Richard Dawkins) назвал Р. А. Фишера «гением, практически в одиночку заложившим основы современной статистической науки». К наиболее важным работам Фишера относятся его теория экспериментального проектирования, разработка основ дисперсионного анализа и внедрение концепции точечной оценки в прикладную математическую статистику. Также Фишер был известен как авторитетный биолог.
Фишер начал изучать математику в Кембриджском университете год спустя после публикации «Студентом» его революционной статьи и был одним из немногих, кто сразу оценил величину вклада Госсета в науку.
T-распределение и концепция статистической значимости, истолковываемые в терминах, слегка отличающихся от употребляемых Госсетом, были положены Фишером в основу его идеи статистических методов. В 1925 году он публикует «Статистические методы для научных работников» (Statistical Methods for Research Workers), возможно, самую влиятельную книгу в истории статистики, представившую научные труды Госсета и Фишера широкой публике.
Расширение Фишером применения идей Госсета на некоторые области статистики было и остается спорным. Сам Госсет часто критиковал подобное развитие его разработок.
Наиболее спорный тезис Фишера: результат, который имеет вероятность быть полученным менее 5%, является случайным (эта вероятность - англ. Probability - обозначается как р-значение или P). Например, если пивоваренная компания опрашивает потребителей, какой из двух сортов пива те предпочитают, то может обнаружиться, что 20 из 25 опрошенных определенный сорт. Но как решить, является ли такой результат достаточно убедительным для констатации преимущества этого сорта?
Фишер полагает, что поскольку при выборе 20 респондентами из 25 одного пива вероятность такого предпочтения составляет менее 5% (100% / 25 = 4%), то выбор происходит наугад при условии, что опрошенным оба сорта нравятся одинаково, и нам просто удобно использовать подобные результаты в качестве доказательства правоты того или иного утверждения.
Он писал в «Статистических методах»:
«Значение P = 0.05 или 1 к 20 - удобно брать этот параметр как предел для оценки отклонения, позволяющий рассматривать его как значимое или нет. Таким образом, отклонения, превышающие стандартные величины отклонений в 2 раза, формально считаются значимыми».
В публикации «Guinnessometrics: The Economic Foundation of “Student’s” t» уже упоминавшийся Стивен Зиляк доказывает, что Госсет считал порог 0.05 (5%) выбранным произвольно.
Госсета всегда больше волновало, окажется ли результат значимым практически, а не статистически. Госсет полагал, что сама по себе концепция статистической значимости «почти бесполезна». Он думал, что доказательство должно оцениваться в зависимости от «важности вопроса, поставленного на карту», а не «какого-то постороннего математического обоснования». Зиляк предполагает, что Госсет в своих работах руководствовался байесовской теорией, определяющей вероятность как степень уверенности в истинности суждения, что диаметрально противоположно «фишерианскому» подходу, сводящемуся к принятию или отклонению гипотезы на основе порогового р-значения.
В наши дни многие статистики признают, что «освящение» Фишером порога значимости, равного 0,05, нанесло серьезный ущерб науке. Врач и исследователь Джон Иоаннидис (John Ioannidis) демонстрирует, что по большей части результаты исследований, опубликованных в научных журналах, являются ложными, что в значительной степени обусловлено пороговым значением 0, 05. Учитывая огромное количество проводимых ежегодно исследований и тот факт, что в выборке из двадцати исследований одно будет соответствовать пороговому значению случайности (1 / 20 = 0, 05), то «значимые» выводы, обнаруженные в ходе многих из этих исследований, будут ложными.
Госсет был скептиком, всегда учитывавшим контекст проводимых измерений. В течение всей своей жизни он никогда не использовал «правило пяти сотых», разработанное Фишером на основе работ «Студента». Однажды Госсет назвал «довольно хорошо подходящим» р-значение, равное 0,13; в другой раз он посчитал р-значение 0, 02 недостаточным для получения точного результата, потому что «можно ли довольствоваться достигнутым или потребуется дальнейшая работа, зависит от важности заключения и трудности получения дополнительных данных».
Идеи Госсета легли в основу систем контроля качества промышленной продукции
Первоисточник методологии «Шесть сигм»
Своей сегодняшней скромной славой Госсет в первую очередь обязан студентам, изучающим статистику. Но возможно, что самое большое влияние он оказал как основоположник методологии промышленного контроля качества.
Промышленная революция и современные фабричные методы производства привели к созданию продукции в прежде невиданных масштабах. До наступления эпохи крупномасштабных производств существовала возможность проверки товаров с использованием качественных методов контроля. Пекари, кораблестроители и пивовары производили так мало продукции, что не представляло трудности проверить качество вообще каждой единицы товара.
Промышленное производство принесло множество выгод и производителям, и потребителям, но его масштабы поставили задачу контроля качества: как брендам уберечь свою репутацию ущерба, наносимого попаданием в торговлю бракованных товаров или продукции низкого качества?
На помощь промышленникам пришел Госсет, продемонстрировавший, насколько им необходимы случайные выборки единиц продукции, проверка которых может дать представление о качестве в целом. Его методы в настоящее время стали стандартной частью промышленных протоколов контроля качества. Работы Госсета увидели свет много раньше, чем Уильям Эдвардс Деминг разработал свой цикл контроля качества или в корпорации Motorola стала применяться знаменитая концепция управления качеством «Шесть сигм» (Six Sigma), причем обе методики в значительной степени базировались на идеях «джентльмена-ученого».
Математик Джон Д. Кук (John D. Cook) считает совсем неудивительным, что «отцом» промышленного контроля качества стал именно пивовар: «В отличие от виноделов, которые ценят вариации вкуса, пивовары гордятся его неизменностью».
Идеи Госсета оказали огромное влияние на сельскохозяйственное производство, особенно экспериментальное
Вместо заключения
Замечательные достижения Госсета по-прежнему остаются малоизвестными за пределом узкого круга специалистов. Частично эту несправедливость можно объяснить тем, что он работал в бизнесе, а не академической науке. Будь Госсет университетским профессором как Фишер или Пирсон, он бы имел возможность подписывать работы своим собственным именем; возможно, он бы издал учебники с подробным изложением своих методов и идей.
Но если бы Госсет не работал в пивоваренной индустрии, то может быть, что ему никогда бы не довелось решать практические проблемы, которые, казалось, стимулировали его больше всего. Как практик, Госсет никогда не придерживался какого-либо предпочитаемого конкретного метода, а количественные исследования никогда не были для него самоцелью: он был просто заинтересован в скорейшем достижении цели всеми возможными способами.