Как же далеко до ИИ. Нцикл статей 2 Каменты: serg70p

serg70p

Как же далеко до ИИ. Нцикл статей 2 Каменты

Dec 04, 2012 10:01

Оригинал взят у serg70p в Как же далеко до ИИ. Начинаю цикл статей
Предупреждение. Много постов. Они спрятаны. Попасть можно через этот. внизу ссылки

-----------------------------

комментарии (14) отслеживать новые: в почте в трекере
0 Kalobok, 4 июля 2012 в 05:02#
Маленькое замечание не по делу:
Но увы, такие нынешние нравы людей, которые получили диплом биолога (биофизика, биохимика ...) и немного начали разбираться в программировании и теперь работают в солидном месте.
Не «диплом биолога», а кфмн (да, по биофизике, но с уклоном в мат. моделирование). Опыт в программировании у меня к моменту получения работы в NCBI был больше 10 лет. Теперь, стало быть, больше 20. :)
Ну и не могу не придраться к мелочи, сказанной матерым программистом:
Уже после длины > 10 случайность совпадения приближается к нулю
Давайте посчитаем вместе. В каждой позиции у нас 4 варианта. 10 позиций подряд - 4^10 = 1 мегавариант. Длина бактериального генома вполне сопоставима. Так что вероятность случайного совпадения отнюдь не приближается к нулю. Скорее, к единице.
Удачи.
ответить
0 tac, 4 июля 2012 в 05:16#↵↑
> Давайте посчитаем вместе.
Сделайте проще. Возьмите строку из 10 случайных нуклеотидов и проверьте сколько совпадений вы получите в геноме. Число будет крайне малым.
ответить
0 Kalobok, 4 июля 2012 в 05:47#↵↑
А теорвер и не говорит, что совпадений должно быть много. Но вероятность найти хотя бы одно случайное совпадение в двух произвольных геномах достаточно высока.
Я вот взял первую попавшуюся бактерию, поискал несколько случайных последовательностей из 10 баз. Из 5-6 проб не нашлась только одна (возможно, она тоже нашлась бы, если бы файл не был порезан на строки). Некоторые нашлись по 2-3 раза. Увы.
ответить
0 tac, 4 июля 2012 в 05:57#↵↑
Ну, так вы просто слишком буквально трактуете мою фразу, не замечая знака больше десяти и слова «приближается».
То что вы нашли по 2-3 раза - это мало. И заметьте, что это не случайно - посмотрите, что это за участки ДНК - наверняка речь идет о дубликате одного и того же белка или РНК. А одно совпадение - это уже отсутствие случайности совпадения.
ответить
0 Kalobok, 4 июля 2012 в 06:17#↵↑
Давайте вернемся к вашему начальному утверждению. Вы говорили, что вероятность совпадение даже 10 баз между разными геномами близка к 0. Не очень понятно, имелось ли в виду совпадение между двумя геномами, или присутствие одинаковой строки во всех 2000, но это не принципиально.
Я взял первые попавшиеся последовательности из 10 баз (руками набрал белиберду) и нашел практически все в конкретном геноме. А все потому, что при размере генома в несколько мегабаз там с достаточно большой вероятностью найдется любая строка из 10 букв.
Даже если вы возьмете 2000 геномов, вероятность, что они все пересекутся хотя бы по одной 10-символьной строке достаточно велика и уж точно не стремится к 0.
С более длинными строками, конечно, будет получше. Но тоже без гарантии.
Кстати, не забудьте, что, строго говоря, надо проверять и комплементарные строки. Это еще повышает вероятность «успеха».
ответить
0 tac, 4 июля 2012 в 06:33#↵↑
Ладно, с 10-ю убедили. Но с 70 там гарантии 100% :) Иначе бы ошибался сам генный аппарат. Да, и не натыкался я никогда на такой случай, чтобы искал тРНК, а получил бы кусок какого-то белка.
Но, я говорил, все-таки немного другое, вероятность того, что последовательности, большие 10 баз является частью другого гена достаточно мала. Т.е. встретится она может в геноме, но того, что это будут участки разных генов - это редкость.
Возможно оценки 10, которая конечна взята с потолка, мало - при желании можно задаться цель и выяснить сколько же 20 или 30… но не суть.
ответить
+1 Kalobok, 4 июля 2012 в 06:38#↵↑
100% гарантии нет нигде. :) И генный аппарат вполне может ошибаться. Просто эти ошибки попадают в мусор и никому не видны. Хотя, вероятность, конечно, не так велика, как для 10-11 баз.
И я, все-таки, думаю, что 10 - маловато. Лучше брать побольше - там вероятность ошибки падает достаточно быстро.
ответить
0 tac, 4 июля 2012 в 06:45#↵↑
Согласен. Но на практике я и взял побольше - от 70.
ответить
0 Kalobok, 4 июля 2012 в 06:18#↵↑
А, да, 2-3 раза в одном геноме, в разном окружении (проверил, ага) - нет, это точно не копии одного гена. Это именно случайность.
ответить
+2 lany, 4 июля 2012 в 08:51#
Я правильно понял, что UML по сути только для визуализации графа? Почему бы не воспользоваться более абстрактными средствами (тот же Graphviz) и рассуждать в терминах вершин и рёбер графа? Сравнение с классами кажется несколько натянутым…
ответить
0 tac, 4 июля 2012 в 15:03#↵↑
Можно и так, возможно так даже проще будет, но не столь выразительно как на UML.
ответить
0 tac, 4 июля 2012 в 15:21#↵↑
Впрочем отобразить то можно. Но тут главное начать группировать, а в Graphviz вершины не Drag&Drop, поэтому тягать не представляется возможным :(
ответить
0 stalkerg,14 августа 2012 в 17:55#
Мир учёных жесток… но это не значит, что нужно быть «борзым». ИМХО наилучшая стратегия пробивания в этот мир - занудство и результаты.
ответить

Гены, Наука, Жизнь, it, ОнтоЛог, ИИ