Интересно, что в Cognitive Style of PowerPoint у Тафта на графике, который он считает образцовым - про продолжительность жизни при раковых заболеваниях, - серьёзная ошибка. Попробуйте найдите её. На мой взгляд, ошибка вызвана тем, что он график вручную рисовал. Я как-нибудь перерисую этот график в pstricks БЕЗ ошибки, чтобы продемонстрировать мощь инструмента.
Пишу здесь, чтобы не засорять дневник filinу, мы там и так уклонились от основной темы.
Вы ведь имели в виду графики на странице 18? Я не смог найти ошибку, но теперь заинтригован. Подскажите, пожалуйста, в чем, по-Вашему, ошибка?
У меня есть претензия к этой таблице более общего порядка. В исходной таблице на странице 16 данные о выживаемости приведены вместе со стандартной ошибкой. На странице 18 эти данные округлены до ближайшего целого числа процентов. Величина округления в некоторых случаях сравнима со стандарной ошибкой, а кое-где и превосходит ее, взгляните, например, на строчку с данными о раке легких и бронхов. В некоторых случаях такое округление преувеличивало наклон соответствующего отрезка на графике, а в некоторых -- преуменьшало. Например, в графике выживаемости от рака тироидной железы (это, кажется, щитовидка?) доли выживших через 10 лет и 20 лет отличаются на 0.4%, а на графике -- на 1%. Признаю, что эта придирка мелочная, потому что все эти расхождения поглощаются стандартными ошибками в данном случае, но на некий изъян в подходе, как мне кажется, они указывают, потому что указание на изменение в 1% создает впечатление точности измерения, которая на самом деле не была достигнута.
Мне кажется, что в этом случае было бы предпочтительнее рисовать не ломаную, соединяющую округленные средние из таблицы, а "расширяющиеся и сужающиеся" коридиры, соединяющие доверительные интервалы для параметров.
Re: Ошибка у Тафтаscholar_vitMay 28 2006, 15:19:31 UTC
Это, конечно, серьёзная претензия. Но на мой взгляд, моя серьёзнее.
На рисунке ломаным запрещено пересекаться. В результате в последней колонке уже первые два числа расположены неправильно: выживаемость от рака простаты через 20 лет (81%) расположена ВЫШЕ выживаемости от рака щитовидной железы (95%). Точно так же неправильно расположены многие другие числа.
Re: Ошибка у Тафтаkdv2005May 28 2006, 18:07:33 UTC
Да, этот факт я тоже довольно долгое время считал той самой, упомянутой Вами, ошибкой. Рад, что не ошибся. И письмо я Вам написал вначале именно о ней. Но потом засомневался, и сумел убедить себя в том. что это не ошибка Тафта, а недоразумение с моей стороны.
Тафт уложил данные на странице 18 в форме, которую он называет таблицей-графиком. Я на его замечание внимания не обратил и подсознательно воспринимал его таблицу как двумерный массив данных, нечто вроде графика на плоскости. За что и поплатился, потому что сразу появились нестыковки -- ломаные, которые должны были пересекаться, не пересекались. Порядок чисел в (воображаемых мною) второй, третьей и четвертой колонках был нарушен. Да и к первой колонке у меня были претензии -- в ней, хоть и порядок чисел сохранен, но расстояния между ними непропорциональны их разности, что сильно искажало мое восприятие.
Однако все встало на свои места, когда до меня дошло, что таблица-график, приведенная Тафтом -- это одномерная(!) таблица. В каждой строке элементом ее единственной колонки является двумерный график, и графики упорядочены в таблице по высоте первой точки. Каждый график можно представлять себе нанесеным на прямоугольный кусок плоскости с координатной сеткой. Стремясь повысить плотность информации, Тафт отбрасывает неинформативную координатную сетку (все числа уже есть в вершинах ломаных), и подрезает края прямоугольников так, чтобы подогнать графики поближе друг к другу. Заметим однако, что эти фигурные окна, сквозь которые видны графики, по-прежнемы не накладываются друг на друга, а изображаются друг под другом, поэтому графики при таком способе изложения данных они просто не могут пересекаться. Кстати, мне кажется, что изображение ломаных непересекающимися является достоинством выбранного метода изложения данных, ведь звенья ломаных не содержат информации об истинной зависимости уровня выживаемости от времени для разных видов рака, они лишь показывают градиент на пятилетнем интервале. Точка пересечения ломаных никакой информации к уже имеющейся не добавит.
Я опущу описание своих эмоций, когда, после того, как я разобрался с графиками, я увидел, что прямо над таблицей на 18-ой странице Тафт пишет:
The best way to show the cancer data is the original table with its good comparative structure and reporting of standard errors... ...Our table-graphic, however, does give something of a visual idea of time gradients for survival for each cancer.
После обсуждения таблицы-графика и анализа эффекта округлений остается только присоединиться к Тафту.
В свое оправдание (если невежество вообще может служить оправданием) добавлю, что до книг Тафта я с таблицей-графиком дела не имел, чем и объясняется моя наивная попытка интерпретировать его как двумерный массив данных. Осознание того, где именно я заблуждался доставило мне немалое удовольствие. Спасибо за предоставленный повод (и Тафту, конечно, тоже, спасибо).
PS. Прошу прощения за повторный ответ, предыдущий ушел анонимно, а я не люблю, когда без подписи.
Re: Ошибка у Тафтаscholar_vitMay 29 2006, 02:37:04 UTC
Ну хорошо, не ошибка - просто неудачный вид представления данных, который легко вводит в заблуждение. Согласитесь, что график, в котором ордината общая для всех ломаных куда информативнее.
Re: Ошибка у Тафтаkdv2005May 29 2006, 02:59:46 UTC
Согласен, я тоже считаю, что выбранная форма представления данных в этом случае сбивает с толку. На мой взгляд обычный двумерный график был бы уместнее, и куда нагляднее. В своем желании создать эталон Тафт сам себя перехитрил. Я, правда, в конце был вынужден с ним согласиться, что, по-видимому, исходная таблица адекватно представляет этот набор.
В связи с этим вспоминается история, расказанная Кнутом в TAOCP о том, как он пытался сделать "самый случайный" генератор случайных чисел.
Конечно, не против. Я потому и расскринил (слово ужасное, но лучше не подберу - раскрыл? рассекретил? распечатал?) этот диалог, что он, на мой взгляд, не секретен.
Я тоже иногда говорю "раскрыл", "открыл" или "сделал доступной всем". Я вдруг забеспокоился, что этот диалог торчит у Вас как заноза в вечноверхней записи, и, может быть Вам захочется когда-нибудь его убрать с глаз подальше. А я запасливый: http://kdv2005.livejournal.com/141757.html
http://filin.livejournal.com/428375.html?replyto=2532183
Интересно, что в Cognitive Style of PowerPoint у Тафта на графике, который он считает образцовым - про продолжительность жизни при раковых заболеваниях, - серьёзная ошибка. Попробуйте найдите её. На мой взгляд, ошибка вызвана тем, что он график вручную рисовал. Я как-нибудь перерисую этот график в pstricks БЕЗ ошибки, чтобы продемонстрировать мощь инструмента.
Пишу здесь, чтобы не засорять дневник filinу, мы там и так уклонились от основной темы.
Вы ведь имели в виду графики на странице 18? Я не смог найти ошибку, но теперь заинтригован. Подскажите, пожалуйста, в чем, по-Вашему, ошибка?
У меня есть претензия к этой таблице более общего порядка. В исходной таблице на странице 16 данные о выживаемости приведены вместе со стандартной ошибкой. На странице 18 эти данные округлены до ближайшего целого числа процентов. Величина округления в некоторых случаях сравнима со стандарной ошибкой, а кое-где и превосходит ее, взгляните, например, на строчку с данными о раке легких и бронхов. В некоторых случаях такое округление преувеличивало наклон соответствующего отрезка на графике, а в некоторых -- преуменьшало. Например, в графике выживаемости от рака тироидной железы (это, кажется, щитовидка?) доли выживших через 10 лет и 20 лет отличаются на 0.4%, а на графике -- на 1%. Признаю, что эта придирка мелочная, потому что все эти расхождения поглощаются стандартными ошибками в данном случае, но на некий изъян в подходе, как мне кажется, они указывают, потому что указание на изменение в 1% создает впечатление точности измерения, которая на самом деле не была достигнута.
Мне кажется, что в этом случае было бы предпочтительнее рисовать не ломаную, соединяющую округленные средние из таблицы, а "расширяющиеся и сужающиеся" коридиры, соединяющие доверительные интервалы для параметров.
Reply
На рисунке ломаным запрещено пересекаться. В результате в последней колонке уже первые два числа расположены неправильно: выживаемость от рака простаты через 20 лет (81%) расположена ВЫШЕ выживаемости от рака щитовидной железы (95%). Точно так же неправильно расположены многие другие числа.
Reply
Тафт уложил данные на странице 18 в форме, которую он называет таблицей-графиком. Я на его замечание внимания не обратил и подсознательно воспринимал его таблицу как двумерный массив данных, нечто вроде графика на плоскости. За что и поплатился, потому что сразу появились нестыковки -- ломаные, которые должны были пересекаться, не пересекались. Порядок чисел в (воображаемых мною) второй, третьей и четвертой колонках был нарушен. Да и к первой колонке у меня были претензии -- в ней, хоть и порядок чисел сохранен, но расстояния между ними непропорциональны их разности, что сильно искажало мое восприятие.
Однако все встало на свои места, когда до меня дошло, что таблица-график, приведенная Тафтом -- это одномерная(!) таблица. В каждой строке элементом ее единственной колонки является двумерный график, и графики упорядочены в таблице по высоте первой точки. Каждый график можно представлять себе нанесеным на прямоугольный кусок плоскости с координатной сеткой. Стремясь повысить плотность информации, Тафт отбрасывает неинформативную координатную сетку (все числа уже есть в вершинах ломаных), и подрезает края прямоугольников так, чтобы подогнать графики поближе друг к другу. Заметим однако, что эти фигурные окна, сквозь которые видны графики, по-прежнемы не накладываются друг на друга, а изображаются друг под другом, поэтому графики при таком способе изложения данных они просто не могут пересекаться. Кстати, мне кажется, что изображение ломаных непересекающимися является достоинством выбранного метода изложения данных, ведь звенья ломаных не содержат информации об истинной зависимости уровня выживаемости от времени для разных видов рака, они лишь показывают градиент на пятилетнем интервале. Точка пересечения ломаных никакой информации к уже имеющейся не добавит.
Я опущу описание своих эмоций, когда, после того, как я разобрался с графиками, я увидел, что прямо над таблицей на 18-ой странице Тафт пишет:
The best way to show the cancer data is the original table with its good comparative structure and reporting of standard errors...
...Our table-graphic, however, does give something of a visual idea of time gradients for survival for each cancer.
После обсуждения таблицы-графика и анализа эффекта округлений остается только присоединиться к Тафту.
В свое оправдание (если невежество вообще может служить оправданием) добавлю, что до книг Тафта я с таблицей-графиком дела не имел, чем и объясняется моя наивная попытка интерпретировать его как двумерный массив данных. Осознание того, где именно я заблуждался доставило мне немалое удовольствие. Спасибо за предоставленный повод (и Тафту, конечно, тоже, спасибо).
PS. Прошу прощения за повторный ответ, предыдущий ушел анонимно, а я не люблю, когда без подписи.
Reply
Reply
В связи с этим вспоминается история, расказанная Кнутом в TAOCP о том, как он пытался сделать "самый случайный" генератор случайных чисел.
Reply
Reply
Reply
Reply
Leave a comment