Уважаемый Козя, мои причины запредельной задержки с ответом выглядят настолько неприлично, что даже не пытаюсь оправдаться.
Спасибо за подробный ответ!
Как я понял, случайно отобранные стихи реальных авторов оказались оцененными как "средние" среди стихов АМ - это кажется неудивительным, потому что большинство того, что пишут не только у нас, но, подозреваю, и в Японии, находится на уровне плинтуса или чуть выше (хотя можно допустить, что японский плинтус заметно превосходит наш).
Обсуждалось ли в статье, как именно "на корпусе хайку ... тренировали три автоматические модели" (АМ) - предлагались какие-то комменты к каждому из 160 текстов или? И ещё две непонятки.
Тренировали ли их - каждую - по-разному или методика была одна, но различались некие хард-софтовые возможности этих АМ?
Различалась ли ширина разброса оценок произведений каждой из АМ и человечьих хайку, т.е. попались ли среди продуктов АМ (и авторов) действительно выдающиеся тексты или кучковались они тесно вокруг своих средних значений?
Разумеется, вопросы эти не столь насущны, поэтому, если ответы на них потребуют слишком времени, я не буду в претензии, не получив их.
Это произведения худ. лит., у которых истекли сроки авторских прав, с древности до современности, 16 тыс. произведений, 220 млн. печатных знаков. Вся эта мвсса была поделена в пропорции 8:1:1 для обучения, валидации и тестирования.
Затем языковую модель "доводили" на полученных из интернета 500 тыс. хайку, 65 млн. печатных знаков. Этот корпус был сперва отфильтрован неким морфологическим анализатором MeCab (выбрано 300 тыс. хайку фиксированной формы 5-7-5 с сезонным словом), затем поделён 32:8:10 для обучения, валидации и тестирования.
После тренировки каждая модель сгенерировала по 1000 строк, из которых организаторы эксперимента выбрали случайным образом по 40 произведений со слогами 5-7-5 и с одним сезонным словом (если произведение не удовлятворяло этому критерию, выбор повторялся).
Корпус человеческих стихов был изначально отфильтрован по формуле "5-7-5 + киго", так что из него просто выбрали 40 случайных.
Хотя в статье об этом не сказано, могу уверенно предположить, что отбор и там, и там проводил автомат, потому что некоторые отобранные произведения содержали бессмыслицу или грамматические ошибки (об этом - в п.4).
2) предлагались какие-то комменты к каждому из 160 текстов или?
Были представлены только тексты, без каких-то комментариев и указаний на авторство.
Каждый член жюри для каждого из 160 текстов должен был оценить его качество по трём показателям:
- осмысленность: хайку имеет смысл как японское стихотворение.
- пригодность киго: сезонное слово использовано в соответствии с изначальным смыслом, назначением и порождаемым чувством.
- кукай: отметил бы я это хайку как хорошее на кукае.
Оценка ставилась по одному из трёх допустимых вариантов:
1 не применимо
2 применимо в малой степени
3 применимо в большой степени
Усреднённые результаты такие:
смысл киго кукай
AWD-LSTM 1.5 1.4 1.1
GPT-2 2.2 1.8 1.5
BART 2.1 1.6 1.3
люди 2.0 1.7 1.4
3) Тренировали ли их - каждую - по-разному или методика была одна, но различались некие хард-софтовые возможности этих АМ?
Методика была одинаковая, компьютер использовался для всех один и тот же, разница была в программном обеспечении (с научной точки зрения - в алгоритмах).
4) Различалась ли ширина разброса оценок произведений каждой из АМ и человечьих хайку, т.е. попались ли среди продуктов АМ (и авторов) действительно выдающиеся тексты или кучковались они тесно вокруг своих средних значений?
В статье об этом прямо не сказано. Дисперсия вокруг средних значений не приводится. Упомянуто, что у AWD-LSTM многие хайку не имели связи между частями, а у GPT-2, напротив, хорошо выстраивались сцены. Также сказано, что у людей практически не было бессмысленных фраз и грамматических ошибок, а у автоматов были. В другом месте сказано, что 75% человеческих (30 из 40) были достаточно связными, чтобы быть посланными на кукай, хотя шансы получить приз на кукае в основном были низкими.
"Также сказано, что у людей практически не было бессмысленных фраз"
- тем не менее, по "смыслу" люди оказались только на 3 месте!
Но по киго и кукаю выбрались аж на 2-е:
смысл киго кукай
GPT2 2.2 1.8 1.5
BART 2.1 1.6 1.3
люди 2.0 1.7 1.4
LSTM 1.5 1.4 1.1
Вообще, результаты кажутся интересными, но недостаток инфы затрудняет увидеть общую картину, точнее, сделать из нее какие-то связные выводы общего порядка. А кто-то из исполнителей или свидетелей попытались? Или пока ничего больше не опубликовано в связи с этим?
Жаль, не было про дисперсию. По представленным параметрам, как я понял, человечьи хайку не выпали ни в какую сторону - держатся середки. А вот по разбросу рукотворность могла бы оказаться заметна.
Интересно, а японцы на своих конкурсах уже начали ощущать засилье этого праздника жизни или там народ таким не занимается в массе?
А известно ли - корпус хайку для «обучения» наполнялся текстами с добасёшной эпохи (с «момента» зарождения жанра) или только ХХ веком?
1) "Также сказано, что у людей практически не было бессмысленных фраз" - тем не менее, по "смыслу" люди оказались только на 3 месте!
Не могу ничего сказать.2) ...сделать из нее какие-то связные выводы общего порядка. А кто-то из исполнителей или свидетелей попытались? Их интересовала только методика подготовки машины, которая позволяет точно моделировать свойства языка (например, для машинного перевода). Они сделали вывод, что модель с бОльшим количеством очков в таблице более адекватная.3) Или пока ничего больше не опубликовано в связи с этим?Не знаю, не слежу за этим, на статью наткнулся случайно.
4) Интересно, а японцы на своих конкурсах уже начали ощущать засилье этого праздника жизни или там народ таким не занимается в массе?Собственно эксперимент проводился в лабораторных условиях, доступа к машинам и результатам у широкой публики нет.
5) А известно ли - корпус хайку для «обучения» наполнялся текстами с добасёшной эпохи (с «момента» зарождения жанра) или только ХХ веком?
Уважаемый Козя, мои причины запредельной задержки с ответом выглядят настолько неприлично, что даже не пытаюсь оправдаться.
Спасибо за подробный ответ!
Как я понял, случайно отобранные стихи реальных авторов оказались оцененными как "средние" среди стихов АМ - это кажется неудивительным, потому что большинство того, что пишут не только у нас, но, подозреваю, и в Японии, находится на уровне плинтуса или чуть выше (хотя можно допустить, что японский плинтус заметно превосходит наш).
Обсуждалось ли в статье, как именно "на корпусе хайку ... тренировали три автоматические модели" (АМ) - предлагались какие-то комменты к каждому из 160 текстов или? И ещё две непонятки.
Тренировали ли их - каждую - по-разному или методика была одна, но различались некие хард-софтовые возможности этих АМ?
Различалась ли ширина разброса оценок произведений каждой из АМ и человечьих хайку, т.е. попались ли среди продуктов АМ (и авторов) действительно выдающиеся тексты или кучковались они тесно вокруг своих средних значений?
Разумеется, вопросы эти не столь насущны, поэтому, если ответы на них потребуют слишком времени, я не буду в претензии, не получив их.
Тем не менее, заранее благодарен!
Reply
1) как именно "на корпусе хайку ... тренировали три автоматические модели"?
Сведения довольно скупые.
Каждую из трёх моделей (соответственно, GPT-2, AWD-LSTM, BART) тренировали одинаково, в два этапа.
Сперва была построена языковая модель на основе публичной интернет-библиотеки Аодзора Бунко ("Библиотека Синее Небо") https://github.com/aozorabunko/aozorabunko
Это произведения худ. лит., у которых истекли сроки авторских прав, с древности до современности, 16 тыс. произведений, 220 млн. печатных знаков. Вся эта мвсса была поделена в пропорции 8:1:1 для обучения, валидации и тестирования.
Затем языковую модель "доводили" на полученных из интернета 500 тыс. хайку, 65 млн. печатных знаков. Этот корпус был сперва отфильтрован неким морфологическим анализатором MeCab (выбрано 300 тыс. хайку фиксированной формы 5-7-5 с сезонным словом), затем поделён 32:8:10 для обучения, валидации и тестирования.
После тренировки каждая модель сгенерировала по 1000 строк, из которых организаторы эксперимента выбрали случайным образом по 40 произведений со слогами 5-7-5 и с одним сезонным словом (если произведение не удовлятворяло этому критерию, выбор повторялся).
Корпус человеческих стихов был изначально отфильтрован по формуле "5-7-5 + киго", так что из него просто выбрали 40 случайных.
Хотя в статье об этом не сказано, могу уверенно предположить, что отбор и там, и там проводил автомат, потому что некоторые отобранные произведения содержали бессмыслицу или грамматические ошибки (об этом - в п.4).
2) предлагались какие-то комменты к каждому из 160 текстов или?
Были представлены только тексты, без каких-то комментариев и указаний на авторство.
Каждый член жюри для каждого из 160 текстов должен был оценить его качество по трём показателям:
- осмысленность: хайку имеет смысл как японское стихотворение.
- пригодность киго: сезонное слово использовано в соответствии с изначальным смыслом, назначением и порождаемым чувством.
- кукай: отметил бы я это хайку как хорошее на кукае.
Оценка ставилась по одному из трёх допустимых вариантов:
1 не применимо
2 применимо в малой степени
3 применимо в большой степени
Усреднённые результаты такие:
смысл киго кукай
AWD-LSTM 1.5 1.4 1.1
GPT-2 2.2 1.8 1.5
BART 2.1 1.6 1.3
люди 2.0 1.7 1.4
3) Тренировали ли их - каждую - по-разному или методика была одна, но различались некие хард-софтовые возможности этих АМ?
Методика была одинаковая, компьютер использовался для всех один и тот же, разница была в программном обеспечении (с научной точки зрения - в алгоритмах).
4) Различалась ли ширина разброса оценок произведений каждой из АМ и человечьих хайку, т.е. попались ли среди продуктов АМ (и авторов) действительно выдающиеся тексты или кучковались они тесно вокруг своих средних значений?
В статье об этом прямо не сказано. Дисперсия вокруг средних значений не приводится. Упомянуто, что у AWD-LSTM многие хайку не имели связи между частями, а у GPT-2, напротив, хорошо выстраивались сцены. Также сказано, что у людей практически не было бессмысленных фраз и грамматических ошибок, а у автоматов были. В другом месте сказано, что 75% человеческих (30 из 40) были достаточно связными, чтобы быть посланными на кукай, хотя шансы получить приз на кукае в основном были низкими.
Reply
"Также сказано, что у людей практически не было бессмысленных фраз"
- тем не менее, по "смыслу" люди оказались только на 3 месте!
Но по киго и кукаю выбрались аж на 2-е:
смысл киго кукай
GPT2 2.2 1.8 1.5
BART 2.1 1.6 1.3
люди 2.0 1.7 1.4
LSTM 1.5 1.4 1.1
Вообще, результаты кажутся интересными, но недостаток инфы затрудняет увидеть общую картину, точнее, сделать из нее какие-то связные выводы общего порядка. А кто-то из исполнителей или свидетелей попытались? Или пока ничего больше не опубликовано в связи с этим?
Жаль, не было про дисперсию. По представленным параметрам, как я понял, человечьи хайку не выпали ни в какую сторону - держатся середки. А вот по разбросу рукотворность могла бы оказаться заметна.
Интересно, а японцы на своих конкурсах уже начали ощущать засилье этого праздника жизни или там народ таким не занимается в массе?
А известно ли - корпус хайку для «обучения» наполнялся текстами с добасёшной эпохи (с «момента» зарождения жанра) или только ХХ веком?
Reply
1) "Также сказано, что у людей практически не было бессмысленных
фраз" - тем не менее, по "смыслу" люди оказались только на 3 месте!
Не могу ничего сказать.2) ...сделать из нее какие-то связные выводы общего порядка. А кто-то из исполнителей или свидетелей попытались? Их
интересовала только методика подготовки машины, которая позволяет точно
моделировать свойства языка (например, для машинного перевода). Они
сделали вывод, что модель с бОльшим количеством очков в таблице более
адекватная.3) Или пока ничего больше не опубликовано в связи с этим?Не знаю, не слежу за этим, на статью наткнулся случайно.
4) Интересно, а японцы на своих конкурсах уже начали ощущать засилье этого праздника жизни или там народ таким не занимается в массе?Собственно эксперимент проводился в лабораторных условиях, доступа к машинам и результатам у широкой публики нет.
5) А известно ли - корпус хайку для «обучения» наполнялся текстами с
добасёшной эпохи (с «момента» зарождения жанра) или только ХХ веком?
Неизвестно.
Reply
"Они сделали вывод, что модель с бОльшим количеством очков в таблице более адекватная".
- Ну что ж, вывод могучий. Будем ждать продолжения.
Спасибо за столь подробный комментарий.
И прошу прощения за. возможно, излишнее буквоедство в расспросах. Тема показалась потенциально актуальной (хотя и в каком-то негативном смысле).
Reply
Leave a comment