"Вроде подход работает" - в смысле, вы его уже пробовали? Мне вот из опыта работы со звуками кажется очень сомнительно, что это может сработать. С другой стороны, есть же сейчас всякие автоматические распознавалки звуков - вы их не пробовали?
Да, я попробовал на двух видах, работает. Там еще нужно некоторые вопросы решить, но в целом это позволяет распознать сигналы. Обычные распознавалки не очень точны, и они мне не нравятся тем, что в них не учитывается внутренняя структура сигнала, только общие параметры типа длительности и частоты. А в условиях зашумленности, особенно на частоте сигнала, структура самого сигнала начинает играть важную роль.
Сонограмма - это рисунок, постоенный по матрице быстрого преобразования Фурье (FFT), эту матрицу можно разбить на колонки ("нарезать полосками сонограмму") и их состыковать одна за другой. Можете поподробнее посмотреть на R библиотеку {seewave}. Сонограммы строятся с помощью функции spectro, результат можно не только вывести на печать, но и сохранить в виде матрицы. Я как раз сейчас отлаживаю и тестирую метод, так что окончательное решение о его безусловной пригодности или непригодности я бы пока поостерегся высказывать, но результаты выглядят неплохо. Когда приду к какому-нибудь рабочему заключению, то дам знать.
И - да. Почему нужно ограничиваться всего двумя уровнями? Можно использовать все четыре основания (сохранится больше информации), записать файлы в формате fasta и скармливать их стандартным пакетам, используемым для выравнивания. Вроде, должно работать. Не спец в этой области, только раз в учебных целях геном E.Coli собирал.
Другие два основания заняты для отметки начала и конца каждого отрезка (колонки) сонограммы. Я пока пробовал FASTA, теперь перешел на FASTQ, потому что можно отобразить силу сигнала в виде вероятности определения основания в каждой позиции. Еще можно использовать аминокислотные последовательности, там еще больше вариантов получается, но я для начала проверю ДНКовые.
Comments 23
С другой стороны, есть же сейчас всякие автоматические распознавалки звуков - вы их не пробовали?
Reply
Там еще нужно некоторые вопросы решить, но в целом это позволяет распознать сигналы.
Обычные распознавалки не очень точны, и они мне не нравятся тем, что в них не учитывается внутренняя структура сигнала, только общие параметры типа длительности и частоты.
А в условиях зашумленности, особенно на частоте сигнала, структура самого сигнала начинает играть важную роль.
Reply
Reply
Можете поподробнее посмотреть на R библиотеку {seewave}. Сонограммы строятся с помощью функции spectro, результат можно не только вывести на печать, но и сохранить в виде матрицы.
Я как раз сейчас отлаживаю и тестирую метод, так что окончательное решение о его безусловной пригодности или непригодности я бы пока поостерегся высказывать, но результаты выглядят неплохо. Когда приду к какому-нибудь рабочему заключению, то дам знать.
Reply
Reply
Я пока пробовал FASTA, теперь перешел на FASTQ, потому что можно отобразить силу сигнала в виде вероятности определения основания в каждой позиции.
Еще можно использовать аминокислотные последовательности, там еще больше вариантов получается, но я для начала проверю ДНКовые.
Reply
Leave a comment