Новый этап науки

Jan 03, 2025 15:39


Не про якута и не про датчан. :)

«Каждый раз, когда мы увольняем лингвиста, качество работы системы повышается» Фредерик Елинек, руководитель разработок по распознаванию речи в IBM.

ABBYY, одна из крупнейших языковых систем распознавания и перевода текстов, построенная на научной лингвистической модели признала свою неэффективность по сравнению с ИИ ( Read more... )

Мысли

Leave a comment

Comments 293

uhum_buheev January 4 2025, 00:30:03 UTC
Нелингвисты совершенно не осознают мощности языка как механизма, а именно, количества и степени сложности правил, которые надо соблюсти, чтобы получить правильный текст. Легкость, с которой человек производит устные и письменные тексты на родном языке, лишает его возможности поверить в истинные масштабы той информации, которой он при этом бессознательно оперирует (Зализняк). Уже в 80-х годах было понимание, что язык - возможно самая сложная система из известных, включая заумные физические теории. 60 или 80 тысяч правил, которые использовали ABBYY, вероятно на порядок или два меньше, чем нужно. К тому же - и это важный момент - язык (и многие правила) обычно меняются быстрее, чем лингвисты успевают их идентифицировать и протестировать.

Это, собственно, давно известно в области моделирования динамических систем - пока ты составляешь грандиозную и подробную модель, она устаревает.

Нейронки не убьют лингвистику, они ее обогатят.

Reply

john_jack January 4 2025, 15:43:06 UTC
Я бы возразил: "правильный текст" получить вообще невозможно, потому что любой достаточно *красивый* текст сам создаёт правила. Никакой информацией человек не оперирует, он складывает слова в крайне приблизительную конструкцию, и предсказуемо получает весьма расплывчатый результат. Где требуется результат чёткий, там всегда приходится вводить искусственные и прямо прописанные правила, естественному человеку противные (яркий пример - задачи на формальную логику). А десятки и сотни тысяч правил - это больше, чем в языке есть слов, яркое признание что никаких закономерностей нет и каждая отдельная конструкция ведёт себя по-своему ( ... )

Reply

jambojet January 4 2025, 23:35:09 UTC

А я сразу вспомнил "юридический" язык и канцелярит.

Reply

alexartukov January 6 2025, 05:14:22 UTC
> Вон выражения вроде "не может в" и "не только лишь все". Они нарушают правила, они поменяли язык

Это сленговые выражения. Приходят и уходят, чаще всего в конечном счёте не изменяя язык. Думаю, ваши два примера уйдут вместе с поколением.

Но бывает что и закрепляются, так блатной жаргон проник в русский язык.

Reply


nestoklon January 4 2025, 00:30:54 UTC
В криптономиконе этого как раз одна из основных тем цикла.

Но если серьезно, то стоит учитывать что все эти биг даты это практический выхлоп того что было разработано чтобы данные с коллайдера разгребать.
Хотя, если о "результативности" полученной физики судить будут например лингвисты то может науку и спишут в утиль. Лет на 500, до следующего цикла цивилизации.

Reply

beaver_cherokee January 4 2025, 01:12:37 UTC

О, вот и человек, прочитавший "Криптономикон"!

(я его ниасилил дальше полусотни страниц, и вообще читал этого вашего Стивенсона в таком состоянии ума, в которое категорически не хочу возвращаться)

Reply

far_far_north January 4 2025, 06:23:31 UTC
Это вы ещё "Анафем" не пробовали. "Криптономикон" - детский сад.

Reply

beaver_cherokee January 4 2025, 12:17:01 UTC


Пробовал, весьма понравилось. Даже перечитывал пару раз. :)

(но, конечно, заклинатели в открытом космосе - это нечто)

Reply


areshayev January 4 2025, 00:31:23 UTC
Я задал этот вопрос профессору математики и ответ был: "в геометрии это не работает. Каждая задача - уникальна"

В комбинаторике, линейной алгебре - да, в геометрии - нет...

У кожаных мешков есть шанс ;)

Reply

dragon_ru January 4 2025, 00:49:54 UTC
Одна беда - в геометрии это как раз сработало очень хорошо. Причем для разнообразия нейронка выполняла чисто вспомогательную роль.

Reply

areshayev January 4 2025, 10:07:39 UTC
Ссылку на нейросеть которая умеет в геометрию можете привести? Не срача ради, а интересно посмотреть

Reply

dragon_ru January 4 2025, 11:26:05 UTC
Сходу не могу - читал об этом в каком-то блоге. Если очень надо - то поищу.

Ну, и нейросеть там играла чисто вспомогательную роль - предлагала варианты дополнительных построений в тех случаях, когда без них решить задачу не получалось. (Что требовалось реже, чем это представлялось авторам задач) А так основная работа шла в обычной программе, не в LLM.

Reply


beaver_cherokee January 4 2025, 01:09:02 UTC

Кто сказал "советская математическая школа Колмогорова", как никто?

Reply

lampopus January 4 2025, 12:15:50 UTC

Тоположество.

Reply

beaver_cherokee January 4 2025, 12:27:31 UTC

Фоменко!!

Reply

lampopus January 4 2025, 12:43:45 UTC

Кстати, вот к Фоменко - норм отношусь. Не в плане, что вот прям по новой хронологии буду историю изучать, а в плане того, как девальвировал историю (и, вместе с ней - всю гуманитарщину). Не хватает таких пацанов на новую социологию-экономику, но, надеюсь, подтянутся.

Reply


vit_r January 4 2025, 01:25:04 UTC

Кстати, для совсем простой задачи - надиктовать текст в специфической области - надо покупать не систему "натренированную на неразмеченных данных", а вполне специфически допиленную надстройку. Потому как иначе будет вместо текста с терминами опять сказки про котят.

Reply

ext_5860418 January 4 2025, 02:56:02 UTC

это вообще конечно. я считал зеленского умнее. не гений конечно но такое уж. после этого будь я украинцем в принципе бы занего не проголосовал.

Reply

phoenix2200 January 4 2025, 08:27:50 UTC

Leave a comment

Up