В этой же статье профессор Гельфанд отвечает на вопрос «Хочу стать биоинформатиком. С чего начать?»
Кем нужно быть, чтобы стать биоинформатиком?
Биоинформатика, за что я ее люблю, абсолютно эластична по усилиям. Основное необходимое креативное свойство - это задница крепкая, усидчивость, работоспособность. Озарения типа легли спать, а утром приснился периодический закон или формула бензола - в биоинформатике такого не бывает. Ну, наверно, бывает, но я не видел.
Биоинформатика - это вообще изначально была наука для неудачников. Чаще всего биоинформатиками становились либо неудавшиеся математики, либо неудавшиеся биологи, у которых пробирки из рук выскальзывали. Когда я, будучи математиком по образованию, обнаружил, что не умею теоремы доказывать, мне очень повезло, потому что в это время появилась биоинформатика.
Еще пример: у меня в лаборатории есть совершенно замечательная девушка, которая закончила экономический факультет, три года работала в какой-то компании аналитиком, два года училась в нашей школе биоинформатики, потом взяла задачку по аннотации бактериального генома и в процессе аннотации нашла новый фермент, а потом и вовсе - новый метаболический путь. Это превращение заняло три года.
С чего начать изучение биоинформатики?
Когда я начинал заниматься биоинформатикой, там ничего учить не надо было - надо было брать и делать. Это такие были романтические времена, когда никакой науки не было, кроме той, которую ты делал сам. Сейчас не так. Сейчас это такая уже область, в которую нужно входить, там уже достаточно много сделано.
Во-первых, нужно хорошо знать молекулярную биологию. Дальше, есть приличные учебники по биоинформатике, причем они есть разные. Есть более биологические, а есть более алгоритмические. Например, «Биоинформатика для чайников» - по ней учиться не надо, потому что это просто сборник рецептов, когда нужно что-то конкретное сделать.
Во-вторых, минимальное программирование и, в-третьих, минимальная статистика. Причем, есть как общая статистика, так и, если, например, если изучать транскриптомику, то там есть свои специфические методы, приспособленные под задачу (по этому поводу есть хорошие обзоры).
Дальше надо примерно выбрать область и надо читать самые последние обзоры в этой области, просто чтобы придумать задачку.
Что сначала - научиться программировать или найти задачку?
Бывает как угодно, потому что есть задачки, которые делаются без всякого программирования, а просто уже имеющимися средствами, которые доступны в интернете. Есть много задач, которые требуют программирования, но самого минимального - скажем, файл переписать в другом формате, грубо говоря - подать результаты одной программы на вход другой. Открою страшную тайну, что последнюю строчку кода я написал лет 15 назад, что не мешает мне быть более-менее успешным биоинформатиком.
Как же выбрать область и придумать хорошую задачку?
Сейчас такая ситуация, что самому придумать задачку трудно, вернее, легко, но довольно велика вероятность, что ее уже придумали. Тогда будет обидно. По-хорошему, полезно с кем-то разговаривать.
Можно взять журналы, в названии которых есть «биоинформатика» или «вычислительная биология», «геномика», дюжину лучших по импакт-фактору, и просто посмотреть названия статей и прикинуть, что из этого Вам показалось бы интересным. Приблизительно определив область, почитать обзоры и понять, чем люди занимаются в этой области.
Много читать и в это время много думать и прикидывать, а что в статье не доделано, что сделано плохо, где просто наврано, где что-то заметено под ковер. Хорошее упражнение - взять статью из Nature по системной биологии, аккуратно ее прочитать со всеми приложениями, просто с красным карандашом, и пометить все недоговоренности. Если это внимательно сделать несколько раз, их будет много.
А после того, как много почитать хороших статей и подумать, появляются проблемы достаточно нетривиальные.
Ну, например, в системной биологии у тебя есть куча данных, но очень разнородных. В принципе, хорошее упражнение - написать на бумажке разные варианты данных и попробовать взять все возможные пары и подумать, какую задачку можно было бы решить с их помощью. Следующее упражнение - взять три типа данных и придумать под них задачку. Скорее всего, если Вы это придумали, то кто-то это тоже уже придумал - но бывает по-разному.
Еще хорошее упражнение. Я ненавижу принимать экзамены, поэтому у меня стандартное задание, которое я задаю на экзамене, это я спрашиваю тему научной работы, а потом говорю: «Представьте себе, что у Вас был бы секвенатор. Что бы Вы с ним делали для Вашего диплома?»
Также полезно придумать задачку, а потом посмотреть, есть ли под нее данные. С большой вероятностью может оказаться, что уже есть.
Можно, конечно, людям, которые имеют хорошие статьи в интересующей Вас области, письмо написать, но это имеет очень низкий отклик. Правильный вариант - посмотреть, где эти люди тусуются, попробовать поездить по хорошим конференциям и школам. Там увидеть, что вам нравится, взять человека за пуговицу и попросить изолированную задачку, которую можно было бы отдать на сторону, а затем минимально консультироваться - в принципе, биоинформатикой можно заниматься и по Skype.
Каким областям биоинформатики стоит отдать предпочтение новичку?
Можно попробовать взять какую-то не слишком модную область биоинформатики. Потому что, если Вы изучаете изменения транскриптома при раке, то там пасется миллион народу, там явно ловить нечего. Хотя там можно делать очень интересные работы, очень красивые вещи, но, чтобы их придумать, надо там лет пять покрутиться.
А вот какая-то бактериальная эволюция, там народу меньше. Она не такая модная и Вы там сразу в Nature не опубликуетесь, но войти в область с этим вполне можно.
По-моему, очень интересная и недооцененная тематика - это геномика простейших. Она такая экзотическая, немодная, хорошая. Недооценена геномика архей, потому что мечта всего этого «архейного» сообщества - найти наконец-то хоть одну патогенную архею и хоть немного денег получить.
Очень хорошо, когда рядом есть биологи, у которых есть свежие данные, но можно придумать задачи и под публично доступные данные.
Типичная задача, которую я даю, когда человек приходит с нуля: есть всякие экзотические бактериальные геномы, последовательность которых определили, на автомате кое-как аннотировали, а много и вовсе неаннотированных. Просто аккуратная аннотация генома - это с точки зрения техники и привыкания к области вполне адекватное задание. Микробиологические группы, в которых геномы есть, а аннотации нет - это просто, а по каким-то деталям советоваться - ну, вот хотя бы с нами.
Это все такие чуть-чуть боковые входы в область «через подвал». Потому что, если сразу начать лечить человечество от рака, это безнадежно.
Как подойти к выполнению своего первого исследования в биоинформатике?
Если Вам изначально не с кем проконсультироваться, Вы берете хорошую статью, которая Вам понравилась, и повторяете ее на другом материале. Допустим, кто-то смотрел отбор у млекопитающих, а Вы посмотрите на птичках. Это звучит не так уж весело, но, когда Вы повторяете какую-то хорошую статью, Вы, с одной стороны, понимаете, что она не такая уж хорошая, как казалось, а с другой - Вы осваиваете отрасль. Да и никто не сказал, что эволюция у птиц устроена также, как и у млекопитающих. В самом плохом случае Вы просто научитесь, в хорошем - увидите что-то нетривиальное. Так вполне может быть.
Ключевое слово в том, что я сказал, - это хорошая статья. А чтобы понять, какая статья хорошая, а какая плохая, их надо много прочитать. Более того, я считаю, что любая работа в биоинформатике, сделанная более пяти лет назад, должна быть переделана, потому что мир достаточно сильно меняется. Когда новые данные приходят, можно делать более тонкие вещи, а может, что-то пересматривать, что было сделано на маленьких данных. Вот еще хороший способ: взять хорошую статью по сравнительной геномике пяти-десятилетней давности и сделать ее не на десяти геномах, а на тысяче. Но десять геномов обрабатывались вручную, а тут надо будет придумать или посмотреть, какие средства использовать. Тут вполне можно придумать что-то забавное.
Можно ли заниматься биоинформатикой самому или нужна группа?
По уставу израильской армии, боевой единицей является солдат - не рота, не взвод. Так и боевой единицей в биоинформатике является один человек. Но заниматься биоинформатикой одному теоретически можно, но практически - тяжелее, потому что очень полезно разговаривать. Когда я начинал, был один довольно долго и задачки сам себе придумывал и сам чего-то делал. Сейчас это, наверное, труднее. Опять же потому что наша наука из романтического возраста вышла и стала наукой-наукой.
Мой стиль вообще состоит в том, что я постоянно разговариваю. Я летом работаю намного эффективнее, чем зимой, потому что я могу со своими аспирантами гулять во дворике, курить трубку и разговаривать, а зимой холодно - разговаривать приходится в комнате, а это не так располагает. При этом часто во время разговора возникают хорошие идеи.
Хотя есть множество прекрасных примеров биоинформатиков в Австралии, Новой Зеландии. Да и в Штатах, если посмотреть, у них какой-то особой community нет, а общаются они в основном на конференциях.
Вот, что действительно полезно, что для постсоветских людей практически невозможно принять - это то, что если ты приехал на конференцию, то надо не в музеи ходить, а просто угрюмо сидеть на всех докладах, а в перерыве надо не жрать пирожок, забившись в угол, а ходить, со всеми знакомиться и разговаривать. Это мало кто умеет, это и психологически трудно, но тем не менее. Поэтому если есть какие-то деньги, то надо выбирать хорошие конференции, слать туда постер, жить где-то в хостеле ради экономии и, приехав туда, во-первых, все слушать, а во-вторых, не стесняться тусоваться. Это у них принято. Нормально, если Вы подходите к профессору N и говорите: «Я аспирант оттуда-то и мне было очень интересно, о чем Вы рассказывали, не могли бы Вы подробнее рассказать о том-то?». Или наоборот, рассказать, чем Вы занимаетесь и спросить о чем-то. Только не надо 15 минут рассказывать, чем Вы занимаетесь, потому что он просто от Вас сбежит, то есть нужно уметь быстро объяснить, что Вы делаете, и задать конкретный вопрос. Это абсолютно принято, так полагается и конференции затем и организовывают.
«Три кита» биоинформатики:
- Хорошее знание и понимание биологии
- Хотя бы минимальное программирование
- Базисная, а затем и специализированная статистика
Подведем итог и составим план действий начинающего биоинформатика
- Много читать и думать! (читать надо хорошие статьи, а думать - всегда)
- Ездить на школы/конференции и разговаривать (конференции должны быть хорошие)
- Развивать мышление (см. пункт 1)
- Выбрать интересное направление
- Искать и придумывать хорошие задачки
Может, соберемся вместе?
Для быстрого мощного старта необходима команда, чтобы разговаривать, рассказывать, критиковать, оттачивать идеи и умения, а также просто не давать лениться. Поэтому давайте те, кто действительно видит в биоинформатике, системной биологии, синтетической биологии важную для себя науку, организовывать для начала - семинар! Все предложения и пожелания - жду в комментариях или по эл. почте nika.biph@gmail.com. А пока мы собираемся с мыслями, давайте много читать и много думать! Здесь Вы найдете литминимум для биоинформатиков, который рекомендует Михаил Гельфанд.
http://www.vechnayamolodost.ru/pages/drugienaukiozhizni/hochstbischena6a.html