А вы какой-то другой источник знаний можете предложить кроме интернета? Какие ресурсы СберТех использовал, не знаю. чатГПТ начинали обучать на архиве reddit'а. Сеть Кандинский для картинок обучали именно что на помойках, об этом в интервью говорил один из разрабов. Отчего имели какие-то проблемы - точно не помню, но кажется, робот натащил в выборку море демотиваторов, и сеть слегка опошлилась, да и юридические претензии были.
Проверить обучающую выборку глазами физически невозможно. Все равно, что весь итернет перечитать
== Если сеть на вопрос выдает все известные ей версии - это одно. == Нейросеть работает не так, не нужно ей приписывать разумность, это ни разу не интеллект, только по названию. Ее цель не политическим балабольством заниматься, а составить оптимально сочетающиеся буквы в слова, слова в предложения, предложения в абзацы. Оптимальным будет наиболее частов встречающиеся сочетания. Всё!
Смиритесь с тем, что вы читаете самую ходовую в мире по смыслу - то есть оптимальную с тз нейросети - версию. Нейросеть не имеет никакой возможности угадать, что вы хотели бы видеть другое.
Обучать ее на рунете и в пределах страны - будет глуповатой. Нет, похоже единственный вариант - как в старые добрые времена вводить ручками правила, ограничивать самообучение. ЧатГПТ давно так учат и доучивают, кстати.
Что до идеологии, то это и есть идеология. Вот прямо здесь она сталинская (в представлении 21 века). С этим тоже миритесь: либо вы вырабатываете свою точку зрения трудами и слезами, либо "выбираете" из готовенького. На нейросеть, которая скажет как правильно надеяться не стоит.
для того, чтобы обучать сеть на иноязычных источниках, нужен переводчик. А это будет трансформер, который не факт, что переведет как надо. В приведенном примере сеть ничего не синтезировала, а просто воспроизвела некий набор данных, семантически связанных с вопросом. Это похоже на переобученную сеть, которая тупо воспроизводит зазубренные обучающие данные. Это как раз и выглядит как продвижение ЧЕГО-ТО. Если сеть (или специальный внешний механизм) автоматически формирует обучающие наборы, то должны существовать критерии пригодности данных для этих целей. Этому тоже нужно обучать или более жестко реализовывать в алгоритмах. Иначе никакого обучения не получится, разве что накопление и/или частичное уничтожение ранее сформированных параметров сети (весов и т.п.). В случае обучение без учителя должна выполняться какая-то классификация входящих данных. Если вопрос соответствует некоему узлу в дереве классификации, то я бы ожидал от сети выдачу информации хотя бы о нижележащем уровне классификации для предоставления альтернативных версий и т.п. Если речь идет просто о способности составлять из букв комбинации, выглядящие как осмысленный текст (на что интернет-помойки явно не тянут), то есть необъятные литературные ресурсы. И это не вяжется с бодрым, отчетливо идеологически окрашенным, рапортом сети по далеко неоднозначному вопросу.
Проверить обучающую выборку глазами физически невозможно. Все равно, что весь итернет перечитать
== Если сеть на вопрос выдает все известные ей версии - это одно. ==
Нейросеть работает не так, не нужно ей приписывать разумность, это ни разу не интеллект, только по названию. Ее цель не политическим балабольством заниматься, а составить оптимально сочетающиеся буквы в слова, слова в предложения, предложения в абзацы. Оптимальным будет наиболее частов встречающиеся сочетания. Всё!
Смиритесь с тем, что вы читаете самую ходовую в мире по смыслу - то есть оптимальную с тз нейросети - версию. Нейросеть не имеет никакой возможности угадать, что вы хотели бы видеть другое.
Обучать ее на рунете и в пределах страны - будет глуповатой. Нет, похоже единственный вариант - как в старые добрые времена вводить ручками правила, ограничивать самообучение. ЧатГПТ давно так учат и доучивают, кстати.
Что до идеологии, то это и есть идеология. Вот прямо здесь она сталинская (в представлении 21 века). С этим тоже миритесь: либо вы вырабатываете свою точку зрения трудами и слезами, либо "выбираете" из готовенького. На нейросеть, которая скажет как правильно надеяться не стоит.
Reply
В приведенном примере сеть ничего не синтезировала, а просто воспроизвела некий набор данных, семантически связанных с вопросом. Это похоже на переобученную сеть, которая тупо воспроизводит зазубренные обучающие данные. Это как раз и выглядит как продвижение ЧЕГО-ТО.
Если сеть (или специальный внешний механизм) автоматически формирует обучающие наборы, то должны существовать критерии пригодности данных для этих целей. Этому тоже нужно обучать или более жестко реализовывать в алгоритмах.
Иначе никакого обучения не получится, разве что накопление и/или частичное уничтожение ранее сформированных параметров сети (весов и т.п.).
В случае обучение без учителя должна выполняться какая-то классификация входящих данных. Если вопрос соответствует некоему узлу в дереве классификации, то я бы ожидал от сети выдачу информации хотя бы о нижележащем уровне классификации для предоставления альтернативных версий и т.п.
Если речь идет просто о способности составлять из букв комбинации, выглядящие как осмысленный текст (на что интернет-помойки явно не тянут), то есть необъятные литературные ресурсы.
И это не вяжется с бодрым, отчетливо идеологически окрашенным, рапортом сети по далеко неоднозначному вопросу.
Reply
Leave a comment