Когда-то, ещё в прошлой жизни почти, писала для развлечения и в попытках роста совсем простую программку для игры/прохождения теста Тьюринга. Идея была проста как утюг: должно быть похоже на реальную речь, предложения могут быть любой длины, какой они обычно могут быть, и должно быть немножко смешно, т.е. немного абсурда должно быть, но абсурд не должен зашкаливать (иногда зашкаливал, однако).
Программка могла «общаться» сама с собой и погонять её было иногда весело.
Чего-то надысь вспомнилось, потыкала её в очередной раз и «дитятко» в какой-то подходящий момент выдало:
Просто мне было страшно ни с того ни с сего сдвинуть труп.
Аж бросилась проверять - нету ли где сбоя из-за которого случайно выдался готовый паттерн. Не, это она «сама». И тогда подумалось, что записи диалогов подозреваемый-следователь, в частности, интервью и пр. допросы вообще, предоставили бы богатую базу, включая все оттенки эмоций, юмора, двойных смыслов и т.п.. Обычно же чатботы строят на светской болтовне и известных/избитых предметах обсуждения (спорт, мода, еда, сплетни и т.п.), а в этом мало базы, мало эмоций и нет столь частого в человечесом общении подспудного выяснения кто умнее/сильнее, нет иерархических суперпозиций и т.п. шняг.
Теперь такие системы создаются в основном на обучалках (робота предварительно «учат» прикидываться человеком). У меня, конечно, база была довольно простая и даже обучалки как таковой, в современном понимании, не было.
У реально практикующих чатботов выходит иногда тоже забавно, но там на самом деле много подделок - т.е. выдача действительно готовых паттернов, т.е. заумей на какие-то ключевые слова/фразы, обычно обозначающих ощущения или суждения, а не предметы/объекты («мне хочется», «мне приснилось», «это лишь мечта» и т.п. - по чему специалисты в теме обычно быстро выводят автомат «на чистую воду».
Помнится, какое-то время назад двигали идею обучалки с помощью классификатора в лице добровольцев, которые должны были фильтровать неудачные ответы/алгоритмы путём выставления суждения - робот или человек его собеседник, не зная априори кто это. Выяснили, что такая обучалка дико предвзята и работает из рук вон плохо в основном из-за предвзятости по половому признаку: мужики разговаривая с женщинами (и думая, что говорят с мужиком), характеризовали оппонента как робот в основном за внезапное торможение и ответы «я не знаю», «не могу сказать» в темах, которые женщин реально не интересуют - например, игроки какой команды чаще забивают голы в этом сезоне.
Аналогично женщины отбраковывали мужиков как тупых роботов за однообразную реакцию в темах, далёких для мужиков. Тогда как программы с готовыми паттернами из заумей (т.е., подделки) отлично проходили тест на «человечность».