Leave a comment

ext_3443800 September 20 2023, 21:35:18 UTC
Да никто там ничего не выбирал. Как вы себе вообще представляете отбор, когда там терабайты текста на десятки тысяч человеко-лет чтения? Соскрейпили всё, до чего дотянулись, причём не только русскоязычное, а даже и буржунет типа Реддита. Английский текст потом перегнали в русский автопереводчиком, потому что одного только русского текста слишком мало для обучения приличной нейронки, там чудовищные объёмы данных нужны.
Если у вас есть ссылка на качественный датасет для тюнинга такой нейронки или способ его добыть - поделитесь с ними, проект-то полностью открыт, все коды выложены, и веса нейронки выложены, и сберовцы даже принимают пулл-реквесты.

ЧатГПТ поначалу тоже не мог в нейтральность. Это теперь там такие гладкие формулировки, потому что они затюнили нейронку на огромном количестве ранжированных диалогов с нею, причём оценивали сами же пользователи (да ещё сами за это и деньги платили). А раньше там у негров с геями знатно пригорало от его ответов, и у демократов пригорало от ответов по поводу Трампа...
Думаю, и Гигачат от Сбера года через полтора наберёт нужную базу диалогов, чтобы его тоже смогли выкрутить в нейтральность, когда на любую чувствительную тему он старательно уклоняется от любой конкретики, выдавая вместо ответов бессмысленные фразы ни о чём.

П.С.: Последняя тестовая версия сберовской модели ruGPT3.5 очень даже в российскую сторону выкручена. Если дружите с английским, можете зайти к ним на huggingface и знатно поржать с истерики укродебилов, комментирующих ответы этой последней модели, что мол они под видом нейронки суют путинскую пропаганду и надо их на HF и Гитхабе забанить, чтоб не распространяли:
https://huggingface.co/ai-forever/ruGPT-3.5-13B/discussions/2
Думаю, скоро эту модель и собственно к чату прикрутят - проблемы с тем же Роскомнадзором им точно не нужны, да там и посерьёзнее дяди возбудиться могут.

Reply

ddem1979 September 21 2023, 05:19:28 UTC

Ну так об этом и говорим: тюнинг нейронки в интересах государства/имиджа компании.

Reply

shoksha58 September 21 2023, 16:43:46 UTC
огромные датасеты? Конечно. Но если делать вид, что данные в них сваливаются с потолка, то почему бы не подтянуть идеи из "Майн кампфа", например? Или их ПОЧЕМУ-ТО отсеяли?
Сеть выдает ответы в коннотации истины. Если бы она указывала, что "решение/мнение ТОГО-ТО представляет собой ВОТ ЭТО", то вопросов бы не было. Плюс должны быть альтернативные сведения, если только это не определено как бесспорное положение вещей.
Даже тема плоской Земли должна быть раскрыта ;)
Можно сеть научить вот такому: https://colonelcassad.livejournal.com/8646612.html
Или такому: https://www.kp.ru/daily/26980.4/4038886/
?
Да легко ) И прикрыться огромностью датасетов.
Вот с этого момента и начинаются вопросы о продвижении идеологии...

Reply


Leave a comment

Up