Re: Ошибка у Тафтаkdv2005May 28 2006, 18:07:33 UTC
Да, этот факт я тоже довольно долгое время считал той самой, упомянутой Вами, ошибкой. Рад, что не ошибся. И письмо я Вам написал вначале именно о ней. Но потом засомневался, и сумел убедить себя в том. что это не ошибка Тафта, а недоразумение с моей стороны.
Тафт уложил данные на странице 18 в форме, которую он называет таблицей-графиком. Я на его замечание внимания не обратил и подсознательно воспринимал его таблицу как двумерный массив данных, нечто вроде графика на плоскости. За что и поплатился, потому что сразу появились нестыковки -- ломаные, которые должны были пересекаться, не пересекались. Порядок чисел в (воображаемых мною) второй, третьей и четвертой колонках был нарушен. Да и к первой колонке у меня были претензии -- в ней, хоть и порядок чисел сохранен, но расстояния между ними непропорциональны их разности, что сильно искажало мое восприятие.
Однако все встало на свои места, когда до меня дошло, что таблица-график, приведенная Тафтом -- это одномерная(!) таблица. В каждой строке элементом ее единственной колонки является двумерный график, и графики упорядочены в таблице по высоте первой точки. Каждый график можно представлять себе нанесеным на прямоугольный кусок плоскости с координатной сеткой. Стремясь повысить плотность информации, Тафт отбрасывает неинформативную координатную сетку (все числа уже есть в вершинах ломаных), и подрезает края прямоугольников так, чтобы подогнать графики поближе друг к другу. Заметим однако, что эти фигурные окна, сквозь которые видны графики, по-прежнемы не накладываются друг на друга, а изображаются друг под другом, поэтому графики при таком способе изложения данных они просто не могут пересекаться. Кстати, мне кажется, что изображение ломаных непересекающимися является достоинством выбранного метода изложения данных, ведь звенья ломаных не содержат информации об истинной зависимости уровня выживаемости от времени для разных видов рака, они лишь показывают градиент на пятилетнем интервале. Точка пересечения ломаных никакой информации к уже имеющейся не добавит.
Я опущу описание своих эмоций, когда, после того, как я разобрался с графиками, я увидел, что прямо над таблицей на 18-ой странице Тафт пишет:
The best way to show the cancer data is the original table with its good comparative structure and reporting of standard errors... ...Our table-graphic, however, does give something of a visual idea of time gradients for survival for each cancer.
После обсуждения таблицы-графика и анализа эффекта округлений остается только присоединиться к Тафту.
В свое оправдание (если невежество вообще может служить оправданием) добавлю, что до книг Тафта я с таблицей-графиком дела не имел, чем и объясняется моя наивная попытка интерпретировать его как двумерный массив данных. Осознание того, где именно я заблуждался доставило мне немалое удовольствие. Спасибо за предоставленный повод (и Тафту, конечно, тоже, спасибо).
PS. Прошу прощения за повторный ответ, предыдущий ушел анонимно, а я не люблю, когда без подписи.
Re: Ошибка у Тафтаscholar_vitMay 29 2006, 02:37:04 UTC
Ну хорошо, не ошибка - просто неудачный вид представления данных, который легко вводит в заблуждение. Согласитесь, что график, в котором ордината общая для всех ломаных куда информативнее.
Re: Ошибка у Тафтаkdv2005May 29 2006, 02:59:46 UTC
Согласен, я тоже считаю, что выбранная форма представления данных в этом случае сбивает с толку. На мой взгляд обычный двумерный график был бы уместнее, и куда нагляднее. В своем желании создать эталон Тафт сам себя перехитрил. Я, правда, в конце был вынужден с ним согласиться, что, по-видимому, исходная таблица адекватно представляет этот набор.
В связи с этим вспоминается история, расказанная Кнутом в TAOCP о том, как он пытался сделать "самый случайный" генератор случайных чисел.
Конечно, не против. Я потому и расскринил (слово ужасное, но лучше не подберу - раскрыл? рассекретил? распечатал?) этот диалог, что он, на мой взгляд, не секретен.
Я тоже иногда говорю "раскрыл", "открыл" или "сделал доступной всем". Я вдруг забеспокоился, что этот диалог торчит у Вас как заноза в вечноверхней записи, и, может быть Вам захочется когда-нибудь его убрать с глаз подальше. А я запасливый: http://kdv2005.livejournal.com/141757.html
Тафт уложил данные на странице 18 в форме, которую он называет таблицей-графиком. Я на его замечание внимания не обратил и подсознательно воспринимал его таблицу как двумерный массив данных, нечто вроде графика на плоскости. За что и поплатился, потому что сразу появились нестыковки -- ломаные, которые должны были пересекаться, не пересекались. Порядок чисел в (воображаемых мною) второй, третьей и четвертой колонках был нарушен. Да и к первой колонке у меня были претензии -- в ней, хоть и порядок чисел сохранен, но расстояния между ними непропорциональны их разности, что сильно искажало мое восприятие.
Однако все встало на свои места, когда до меня дошло, что таблица-график, приведенная Тафтом -- это одномерная(!) таблица. В каждой строке элементом ее единственной колонки является двумерный график, и графики упорядочены в таблице по высоте первой точки. Каждый график можно представлять себе нанесеным на прямоугольный кусок плоскости с координатной сеткой. Стремясь повысить плотность информации, Тафт отбрасывает неинформативную координатную сетку (все числа уже есть в вершинах ломаных), и подрезает края прямоугольников так, чтобы подогнать графики поближе друг к другу. Заметим однако, что эти фигурные окна, сквозь которые видны графики, по-прежнемы не накладываются друг на друга, а изображаются друг под другом, поэтому графики при таком способе изложения данных они просто не могут пересекаться. Кстати, мне кажется, что изображение ломаных непересекающимися является достоинством выбранного метода изложения данных, ведь звенья ломаных не содержат информации об истинной зависимости уровня выживаемости от времени для разных видов рака, они лишь показывают градиент на пятилетнем интервале. Точка пересечения ломаных никакой информации к уже имеющейся не добавит.
Я опущу описание своих эмоций, когда, после того, как я разобрался с графиками, я увидел, что прямо над таблицей на 18-ой странице Тафт пишет:
The best way to show the cancer data is the original table with its good comparative structure and reporting of standard errors...
...Our table-graphic, however, does give something of a visual idea of time gradients for survival for each cancer.
После обсуждения таблицы-графика и анализа эффекта округлений остается только присоединиться к Тафту.
В свое оправдание (если невежество вообще может служить оправданием) добавлю, что до книг Тафта я с таблицей-графиком дела не имел, чем и объясняется моя наивная попытка интерпретировать его как двумерный массив данных. Осознание того, где именно я заблуждался доставило мне немалое удовольствие. Спасибо за предоставленный повод (и Тафту, конечно, тоже, спасибо).
PS. Прошу прощения за повторный ответ, предыдущий ушел анонимно, а я не люблю, когда без подписи.
Reply
Reply
В связи с этим вспоминается история, расказанная Кнутом в TAOCP о том, как он пытался сделать "самый случайный" генератор случайных чисел.
Reply
Reply
Reply
Reply
Leave a comment