Немного новостей от гражданина начальника OpenAI, Сэма Альтмана. Альтман написал пост в личном блоге под названием "Размышления" (о последних 2 годах OpenAI, со времени запуска ChatGPT
( Read more... )
Elon Musk agrees that we’ve exhausted AI training data https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/ Indeed, Musk suggested that synthetic data - data generated by AI models themselves - is the path forward. “The only way to supplement [real-world data] is with synthetic data, where the AI creates [training data],” he said. “With synthetic data … [AI] will sort of grade itself and go through this process of self-learning.”
Я это приблизительно знаю. И даже могу объяснить, откуда такая разница: человек живёт в реальной, практической жизни и вынужденно пишет цифры так, чтобы их понимали другие люди (например, банковские или налоговые клерки). Generative AI практической деятельностью не занят, он может свободно фантазировать, и за эти фантазии его не лишат ни денег, ни электричества, ни компьютерных мощностей. Поэтому модель становится не "less creative" (как говорит Маск), а наоборот - more creative, more distant from reality.
Вопрос: зачем же Маск излучает оптимизм про training on synthetic data? Пытается надуть AI-bubble? Или это кокаин?
У синтетических данных есть два преимущества - 1) их можно нагенерить потенциально в любых нужных количествах и 2) на них точно нет копирайта. Строго говоря все текущие системы ИИ находятся в повешенном состоянии поскольку вопрос о легальности тренировки на хоть в чем-то копирайтных данных(то есть по факту любых) никак не решен. И его очевидно что специально не торопятся решать. Кончились не данные, кончились как бы некопирайтные данные. И далее либо мы позволяем учить системы на любом копирайте как fair use либо они переходят на синтетику, качество которой растет медленнее потребностей.
Нет, не так. Меня изумляет почему люди не могут сравнить две простые цифры: объем тренировочных сетов самых крупных текущих моделей 1-10Т токенов с объемом этого самого всего интернета 500-2000Т. Сравнение этих цифр показывает что в утверждениях что моделям не хватает данных явно есть какой-то изъян. Также эти модели сплошь и рядом демонстрируют незнание каких то базовых текстов с точки зрения наблюдателя. Ну, типа, ну странно жаловаться на недостаток данных если модель не читала Золотого теленка например. А что они еще не читали? Мутная тема, получается, на самом деле эти жалобы на якобы недостаток данных. И в чем там прикол я честно и сам очень хочу узнать.
А в чём меряли объём этого самого интернета? Это посчитали именно уникальные человеческие тексты, выкинув дубликаты, генерацию SEO-спамерских ботов (ещё предыдущего поколения) и листинги программ(*)? А на каких языках?
(*) Точнее, тексты - налево, в Chat-GPT, листинги программ - направо, в github copilot. Кстати, вопросы по авторским правам уже агрессивно задают с обеих сторон.
Маск ничего не говорит про копирайт на входные данные. Хотя вполне мог бы поднять этот вопрос, если бы дело было в нём.
Не уверен про американские LLM, но их российские аналоги вполне знают копирайтные произведения. Мне кажется, что американские тоже - иначе бы ChatGPT разговаривал языком XIX века.
Elon Musk agrees that we’ve exhausted AI training data
https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/
Indeed, Musk suggested that synthetic data - data generated by AI models themselves - is the path forward. “The only way to supplement [real-world data] is with synthetic data, where the AI creates [training data],” he said. “With synthetic data … [AI] will sort of grade itself and go through this process of self-learning.”
Reply
На этом направлении возникают другие проблемы:
Reply
Generative AI практической деятельностью не занят, он может свободно фантазировать, и за эти фантазии его не лишат ни денег, ни электричества, ни компьютерных мощностей.
Поэтому модель становится не "less creative" (как говорит Маск), а наоборот - more creative, more distant from reality.
Вопрос: зачем же Маск излучает оптимизм про training on synthetic data?
Пытается надуть AI-bubble? Или это кокаин?
Reply
Или не всё так однозначно. Может быть, если это делать как-то по-умному, то всё срастется.
Reply
Reply
Reply
Мутная тема, получается, на самом деле эти жалобы на якобы недостаток данных. И в чем там прикол я честно и сам очень хочу узнать.
Reply
(*) Точнее, тексты - налево, в Chat-GPT, листинги программ - направо, в github copilot. Кстати, вопросы по авторским правам уже агрессивно задают с обеих сторон.
Reply
Подозреваю, что 99.9% интернета это видосики на ютубчике и иже с ним + котики на ФБ и т.д.
Reply
Хотя вполне мог бы поднять этот вопрос, если бы дело было в нём.
Не уверен про американские LLM, но их российские аналоги вполне знают копирайтные произведения. Мне кажется, что американские тоже - иначе бы ChatGPT разговаривал языком XIX века.
Reply
Leave a comment