спасибо. мне почему-то видно и в моем комментарии, особенности кеширования наверное. как бы то ни было, вот вполне объективное определение расы, более-менее совпадающее с одним из стандартных. или PCA и t-SNE тоже социальные конструкты ? :)
Хорошо, я опишу что тут вижу я. Мы взяли данные, сделали PCA, спроектировали на плоскость первых двух компонент, обвели кружочками предполагаемые кластеры, либо же прогнали k-means. Назвали кластеры расами. Чего мне не хватает, чтобы сделать вывод об объективности результатов этого дата майнинга? Устойчивости. 1. Почему спроектировали на 2мерную плоскость, а не на 3,4,...N-мерную? Ну, понятно, для наглядности, но будут ли результаты такими же, если мы увеличим количество используемых principal components? 2. Почему кластеры именно такие? Число кластеров задавалось изначально? Потому что как они пошли дробить верхне-левое скопление, точно так же можно начать дробить нижнее - африканское. Так сколько же тут кластеров «объективно»? 3. Это решение мы получили на сегодняшних данных. Будет ли оно устойчивым, если взять данные К * 100 лет назад/вперёд?
1. рисовать в 4 мерном пространстве непросто. с какой-то компоненты кластеры перестанут быть линейно разделимы, но это просто свойство PCA.
2. вопрос бессмысленный. PCA не искажает расстояний, как локальные техники. так что точки уж расположены как расположены. никакого задания кластеров изначально в PCA быть не может технически. забудьте про кружочки - их авторы рисовали не чтобы расы обозначить. без кружочков видны три сильно разделенных кластера. есть более изощренные техники для разделения по происхождению, типа t-SNE здесь https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2680-1 но это уже тонкости. здесь же просто первые две компоненты, без ухищрений. вы правы, что каждый из этих трех кластеров можно дробить дальше но это будет требовать гораздо больших ухищрений. это просто значит, что расы - три кластера - гораздо четче разделены объективно, чем этничности внутри рас. Это аргумент в пользу объективности существования рас, а не против.
3. 100 или 3000 лет назад картинка такая же, потому что геномы такой давности не сильно отличаются от современных. в какой-то более ранний момент картинка была бы существенно другой, в частности, из тонких аргументов выводится наличие четвертого кластера 20000, кажется, лет назад. ну и что? сейчас и на исторической памяти картинка именно такая. если посмотреть очень давно, то и предки человека от предков мыши в какой-то момент не слишком отличались. из этого не следует, что наши отличия от мышей сейчас - социальный конструкт.
1. Ну ладно. Я бы сказал, что объективность существования должна отражаться в разделимость на полной размерности, но хорошо, пусть мы ограничимся двумя и скажем, что остальное это шум. 2. Вопрос как раз в числе кластеров. Вы говорите, что их три, а на картинке их больше. Так сколько же их «объективно»? Мое мнение - нисколько, любая кластеризация это абстракция и их может быть много, нет «единственно правильного» ответа. Посмотрел t-SNE - это же про генетику предков. Там да, все так. Но вопрос не в зависимости от генетики предков - она как раз сильная - а в кластеризации этих предков на расы, которая нечеткая. 3. Да, это логично. 4. Возник ещё вопрос: а классификация на картинке африканцев, японцев итд - она откуда взялась? Они заранее распределили кто есть кто? Вообще, антропологи говорят, что вариативность генов внутри наивных рас больше чем между расами. https://www.americananthro.org/ConnectWithAAA/Content.aspx?ItemNumber=2583 А здесь они рисуют их кучками, что как бы противоречит этому. Может быть, у них проблема с сэмплированием?
1. ого! Вот у нас есть множество всех материальных предметов в радиусе 100 км вокруг вас, описанных по 1000 признакам. Подмножество "ворон" не отделимо линейно от подмножества " столов" по полной размерности, потому что по признаку "количество ног" бывают столы с одной ногой и с 4, а вороны с 2. Следовательно, отличая "ворон" от "столов" - социальный конструкт и объективно они не отличаются :) по полной, наверное, все таки отделимо :)
2. Ломать копья о том, сколько тут кластеров, не слишком интересно. Можно увидеть и больше трех - это просто значит, что раса - не единственная наблюдаемая по двум компонентам классификация. Так этого никто вроде и не утверждал. Но что она одна из логичных из этой картинки видно. t-SNE не про генетику предков, а про низкоразмерное погружение (embedding), сохраняющее локальную близость, а не глобальную как PCA.
4. Да, этническое происхождение записывали до дешифровки.
5. Что вариативность внутри рас (по какой-то метрике) больше, чем между расами, этой картинке не противоречит. В визуальной метрике на этой картинке (евклидова по первым двум компонентам) диаметр Sub-Saharan кластера меньше расстояния от него до европейского кластера и примерно такой же, как расстояние до азиатского кластера. То есть, это утверждение верно для этого кластера и этой метрики. Оно неверно для этой метрики и других кластеров, но я уверен, что можно подбрать вполне осмысленную метрику, по которой оно будет верно для всех кластеров. Это следует из дoвольно простых чисто математических соображений (в большой размерности в единичный куб влезает очень много единичных шаров).
то есть ответ "отличаются генами в целом"
Reply
Нужно убрать все после вопросительного знака чтобы картинка показалась.
Reply
Reply
Хорошо, я опишу что тут вижу я.
Мы взяли данные, сделали PCA, спроектировали на плоскость первых двух компонент, обвели кружочками предполагаемые кластеры, либо же прогнали k-means. Назвали кластеры расами.
Чего мне не хватает, чтобы сделать вывод об объективности результатов этого дата майнинга?
Устойчивости.
1. Почему спроектировали на 2мерную плоскость, а не на 3,4,...N-мерную? Ну, понятно, для наглядности, но будут ли результаты такими же, если мы увеличим количество используемых principal components?
2. Почему кластеры именно такие? Число кластеров задавалось изначально? Потому что как они пошли дробить верхне-левое скопление, точно так же можно начать дробить нижнее - африканское. Так сколько же тут кластеров «объективно»?
3. Это решение мы получили на сегодняшних данных. Будет ли оно устойчивым, если взять данные К * 100 лет назад/вперёд?
Reply
2. вопрос бессмысленный. PCA не искажает расстояний, как локальные техники. так что точки уж расположены как расположены. никакого задания кластеров изначально в PCA быть не может технически. забудьте про кружочки - их авторы рисовали не чтобы расы обозначить. без кружочков видны три сильно разделенных кластера. есть более изощренные техники для разделения по происхождению, типа t-SNE здесь https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2680-1 но это уже тонкости. здесь же просто первые две компоненты, без ухищрений. вы правы, что каждый из этих трех кластеров можно дробить дальше но это будет требовать гораздо больших ухищрений. это просто значит, что расы - три кластера - гораздо четче разделены объективно, чем этничности внутри рас. Это аргумент в пользу объективности существования рас, а не против.
3. 100 или 3000 лет назад картинка такая же, потому что геномы такой давности не сильно отличаются от современных. в какой-то более ранний момент картинка была бы существенно другой, в частности, из тонких аргументов выводится наличие четвертого кластера 20000, кажется, лет назад. ну и что? сейчас и на исторической памяти картинка именно такая. если посмотреть очень давно, то и предки человека от предков мыши в какой-то момент не слишком отличались. из этого не следует, что наши отличия от мышей сейчас - социальный конструкт.
Reply
1. Ну ладно. Я бы сказал, что объективность существования должна отражаться в разделимость на полной размерности, но хорошо, пусть мы ограничимся двумя и скажем, что остальное это шум.
2. Вопрос как раз в числе кластеров. Вы говорите, что их три, а на картинке их больше. Так сколько же их «объективно»? Мое мнение - нисколько, любая кластеризация это абстракция и их может быть много, нет «единственно правильного» ответа.
Посмотрел t-SNE - это же про генетику предков. Там да, все так. Но вопрос не в зависимости от генетики предков - она как раз сильная - а в кластеризации этих предков на расы, которая нечеткая.
3. Да, это логично.
4. Возник ещё вопрос: а классификация на картинке африканцев, японцев итд - она откуда взялась? Они заранее распределили кто есть кто?
Вообще, антропологи говорят, что вариативность генов внутри наивных рас больше чем между расами. https://www.americananthro.org/ConnectWithAAA/Content.aspx?ItemNumber=2583
А здесь они рисуют их кучками, что как бы противоречит этому. Может быть, у них проблема с сэмплированием?
Reply
2. Ломать копья о том, сколько тут кластеров, не слишком интересно. Можно увидеть и больше трех - это просто значит, что раса - не единственная наблюдаемая по двум компонентам классификация. Так этого никто вроде и не утверждал. Но что она одна из логичных из этой картинки видно. t-SNE не про генетику предков, а про низкоразмерное погружение (embedding), сохраняющее локальную близость, а не глобальную как PCA.
4. Да, этническое происхождение записывали до дешифровки.
5. Что вариативность внутри рас (по какой-то метрике) больше, чем между расами, этой картинке не противоречит. В визуальной метрике на этой картинке (евклидова по первым двум компонентам) диаметр Sub-Saharan кластера меньше расстояния от него до европейского кластера и примерно такой же, как расстояние до азиатского кластера. То есть, это утверждение верно для этого кластера и этой метрики. Оно неверно для этой метрики и других кластеров, но я уверен, что можно подбрать вполне осмысленную метрику, по которой оно будет верно для всех кластеров. Это следует из дoвольно простых чисто математических соображений (в большой размерности в единичный куб влезает очень много единичных шаров).
Reply
Leave a comment