Оригинал взят у
digestlj в
Нейросеть сочинила рождественскую песню по фотографииКанадские разработчики создали нейросеть, которая умеет сочинять песню про предметы, показанные на фотографиях.
Авторы использовали сеть, предназначенную для генерации поп-песен и научили ее понимать, как слова могут быть связаны с изображенными на снимках предметами.
Работу программы проверили, показав ей фотографию рождественской елки.
Авторы работы использовали созданную ими ранее рекуррентную нейросеть, которая изначально предназначалась для генерации поп-песен. С помощью базы данных, состоящей из 100 часов музыки, исследователи предварительно обучили программу сочинять простые мелодии с темпом 120 bpm (ударов в минуту). Причем искусственный интеллект учитывал типичные для поп-музыки последовательности аккордов, а также добавлял в композицию ударные. Затем программа была обучена подбирать слова к своей мелодии. Для того, чтобы создать словарь для нейросети, ученые использовали 51 час аудиозаписей текстов песен (без музыки) и композицию Just Dance. Исследователи оставляли только те слова, которые встречались чаще четырех раз, поэтому словарный запас искусственного интеллекта оказался небольшим - всего 3390 слов. С их помощью он научился сочинять собственные поп-хиты и петь их со скоростью 1 удар на слово (1 beat per word).
Сейчас авторы работы обучили нейросеть понимать, как определенные слова могут быть связаны с изображенными на снимках предметами. Для этого они использовали фотографии с метками, подсказывающими искусственному интеллекту, что именно перед ним находится.