Comments | avva: новости от сэма

avva

новости от сэма

Jan 09, 2025 13:48

Немного новостей от гражданина начальника OpenAI, Сэма Альтмана. Альтман написал пост в личном блоге под названием "Размышления" (о последних 2 годах OpenAI, со времени запуска ChatGPT ( Read more... )

искусственный интеллект

Leave a comment

Back to all threads

_iga January 9 2025, 15:25:16 UTC

Прокомментируйте заявление Маска?

Elon Musk agrees that we’ve exhausted AI training data
https://techcrunch.com/2025/01/08/elon-musk-agrees-that-weve-exhausted-ai-training-data/
Indeed, Musk suggested that synthetic data - data generated by AI models themselves - is the path forward. “The only way to supplement [real-world data] is with synthetic data, where the AI creates [training data],” he said. “With synthetic data … [AI] will sort of grade itself and go through this process of self-learning.”

ny_quant January 9 2025, 16:27:10 UTC

На этом направлении возникают другие проблемы:

_iga January 9 2025, 21:04:16 UTC

Я это приблизительно знаю. И даже могу объяснить, откуда такая разница: человек живёт в реальной, практической жизни и вынужденно пишет цифры так, чтобы их понимали другие люди (например, банковские или налоговые клерки).
Generative AI практической деятельностью не занят, он может свободно фантазировать, и за эти фантазии его не лишат ни денег, ни электричества, ни компьютерных мощностей.
Поэтому модель становится не "less creative" (как говорит Маск), а наоборот - more creative, more distant from reality.

Вопрос: зачем же Маск излучает оптимизм про training on synthetic data?
Пытается надуть AI-bubble? Или это кокаин?

ny_quant January 9 2025, 21:08:18 UTC

Или не всё так однозначно. Может быть, если это делать как-то по-умному, то всё срастется.

akor168 January 10 2025, 06:22:57 UTC

У синтетических данных есть два преимущества - 1) их можно нагенерить потенциально в любых нужных количествах и 2) на них точно нет копирайта. Строго говоря все текущие системы ИИ находятся в повешенном состоянии поскольку вопрос о легальности тренировки на хоть в чем-то копирайтных данных(то есть по факту любых) никак не решен. И его очевидно что специально не торопятся решать. Кончились не данные, кончились как бы некопирайтные данные. И далее либо мы позволяем учить системы на любом копирайте как fair use либо они переходят на синтетику, качество которой растет медленнее потребностей.

livelight January 10 2025, 07:14:06 UTC

Я так понял, кончились все данные, до которых смогли дотянуться. Копирайтные ему уже тоже все скормили.

akor168 January 10 2025, 08:40:57 UTC

Нет, не так. Меня изумляет почему люди не могут сравнить две простые цифры: объем тренировочных сетов самых крупных текущих моделей 1-10Т токенов с объемом этого самого всего интернета 500-2000Т. Сравнение этих цифр показывает что в утверждениях что моделям не хватает данных явно есть какой-то изъян. Также эти модели сплошь и рядом демонстрируют незнание каких то базовых текстов с точки зрения наблюдателя. Ну, типа, ну странно жаловаться на недостаток данных если модель не читала Золотого теленка например. А что они еще не читали?
Мутная тема, получается, на самом деле эти жалобы на якобы недостаток данных. И в чем там прикол я честно и сам очень хочу узнать.

livelight January 10 2025, 08:50:29 UTC

А в чём меряли объём этого самого интернета? Это посчитали именно уникальные человеческие тексты, выкинув дубликаты, генерацию SEO-спамерских ботов (ещё предыдущего поколения) и листинги программ(*)? А на каких языках?

(*) Точнее, тексты - налево, в Chat-GPT, листинги программ - направо, в github copilot. Кстати, вопросы по авторским правам уже агрессивно задают с обеих сторон.

ny_quant January 10 2025, 15:01:55 UTC

Подозреваю, что 99.9% интернета это видосики на ютубчике и иже с ним + котики на ФБ и т.д.

_iga January 11 2025, 06:48:41 UTC

Маск ничего не говорит про копирайт на входные данные.
Хотя вполне мог бы поднять этот вопрос, если бы дело было в нём.

Не уверен про американские LLM, но их российские аналоги вполне знают копирайтные произведения. Мне кажется, что американские тоже - иначе бы ChatGPT разговаривал языком XIX века.

Back to all threads