Leave a comment

Comments 23

alazor January 21 2016, 08:41:48 UTC
"Вроде подход работает" - в смысле, вы его уже пробовали? Мне вот из опыта работы со звуками кажется очень сомнительно, что это может сработать.
С другой стороны, есть же сейчас всякие автоматические распознавалки звуков - вы их не пробовали?

Reply

vlad_kosarev January 21 2016, 08:56:02 UTC
Да, я попробовал на двух видах, работает.
Там еще нужно некоторые вопросы решить, но в целом это позволяет распознать сигналы.
Обычные распознавалки не очень точны, и они мне не нравятся тем, что в них не учитывается внутренняя структура сигнала, только общие параметры типа длительности и частоты.
А в условиях зашумленности, особенно на частоте сигнала, структура самого сигнала начинает играть важную роль.

Reply

alazor January 21 2016, 09:17:44 UTC
А как вы их "нарезаете на узкие полоски"? Вообще, если это работает лучше, чем традиционные распознавалки, то можно поподробнее про метод?

Reply

vlad_kosarev January 21 2016, 09:33:35 UTC
Сонограмма - это рисунок, постоенный по матрице быстрого преобразования Фурье (FFT), эту матрицу можно разбить на колонки ("нарезать полосками сонограмму") и их состыковать одна за другой.
Можете поподробнее посмотреть на R библиотеку {seewave}. Сонограммы строятся с помощью функции spectro, результат можно не только вывести на печать, но и сохранить в виде матрицы.
Я как раз сейчас отлаживаю и тестирую метод, так что окончательное решение о его безусловной пригодности или непригодности я бы пока поостерегся высказывать, но результаты выглядят неплохо. Когда приду к какому-нибудь рабочему заключению, то дам знать.

Reply


ultraohr February 2 2016, 21:40:55 UTC
И - да. Почему нужно ограничиваться всего двумя уровнями? Можно использовать все четыре основания (сохранится больше информации), записать файлы в формате fasta и скармливать их стандартным пакетам, используемым для выравнивания. Вроде, должно работать. Не спец в этой области, только раз в учебных целях геном E.Coli собирал.

Reply

vlad_kosarev February 2 2016, 22:38:39 UTC
Другие два основания заняты для отметки начала и конца каждого отрезка (колонки) сонограммы.
Я пока пробовал FASTA, теперь перешел на FASTQ, потому что можно отобразить силу сигнала в виде вероятности определения основания в каждой позиции.
Еще можно использовать аминокислотные последовательности, там еще больше вариантов получается, но я для начала проверю ДНКовые.

Reply


Leave a comment

Up