Наткнулся на свой текст десятилетней давности "Эскиз образовательного проекта" --
https://ailev.livejournal.com/961237.html (и было ещё небольшое к нему приложение пять лет назад,
https://ailev.livejournal.com/1277589.html). Там и комменты рулят. Удивительно, но проект каким-то образом реализовался. Единственное что, так это нужно тогдашние мысли о DSL, который нужен был для вполне традиционного формального моделирования, заменить на сегодняшнее менее формальное табличное и текстовое моделирование: принцип "мышления моделированием" был понятен уже тогда, но не очень была понятна форма реализации. Сейчас с ней много ясней. Ещё оказалось неожиданностью, что настолько всё плохо с curriculum -- делать его пришлось практически с нуля, до сих пор в методологическую работу уходит львиная часть времени, а вот методике время уделяется, но явно не в том масштабе, в котором предполагалось это делать в тех древних текстах. Было понятно, что "шикарно учить случайно подобранному набору предметов" нельзя, но вот обнаружить, что по факту нет самих предметов -- это было неожиданностью. Ну ничего, проект ещё далеко не закончен, десяток лет в таких делах -- не срок.
По какой линии я бы обсуждал предлагаемые Пинкером идеи противоядий против tribalism/трайбализма (это когда ключевое слово из какой-то политической повестки вызывает отключку разума, переключая на трансляцию верований своего племени и критику верований другого племени)? Я понимаю это так, что человек тренирует-тренирует S2 -- но когда встречается слово-триггер (даже не идея, а именно слово!), то S2 отключается и дальше мы видим мощную нейронную сетку типа GPT-3 и даже мощнее, выучившую несколько несложных тезисов и круто из воспроизводящих. Внешне это выглядит, как отключка разума при полностью сохранённых лингвистических способностях. Главное, что каждое порождённое слово статистически предполагает следующее слово из какого-то манифеста, и так пока не кончатся буквы, а они не кончатся. Рассуждений нет, есть поток метафор и ассоциаций, анекдотические свидетельства, напор на эмоции и всё прочее, что умеет делать S1 без контроля S2. Как лечить других и себя от такой напасти? Пинкер говорит о том, что все идеи разных людей нужно обсуждать без классификации их каким-то общим лейблом (у него главным образом лейблы республиканцев и демократов, иногда либертарианцев), а обсуждать содержательно по одному -- не относя к искусственно созданному классу. То есть игнорировать якобы связную картину мира в голове собеседника (она ни разу не связная, это морок -- там ведь мешанина из самых разных идей), а разбираться с ней по частям и без навешивания ярлыков на целое. Если зацеплены аборты, то обсуждать аборты, но не обсуждать свободу торговли, и наоборот. Эта идея напоминает мне разные аналогичные, и можно как-то думать в этом направлении:
-- освободить практики от власти методологий, деконструировать монстрообразные методы и работать с отдельными практиками (продвигается Ivar Jacobsen, OMG Essence как раз воплощение этой идеи). Парное программирование тут -- это парное программирование, и не нужно обязательно связывать его с планирующей игрой (хотя впервые они появились в рамках методологии eXtreme programming, но можно просто забыть про общее происхождение и думать про эти практики независимо, оценивать и модифицировать их независимо друг от друга).
-- не считать, что мир обязательно должен быть логически связным, ибо это онтологически невозможно (формальные онтологии несовместимы). Переходить к микротеориям.
-- не считать, что все идеи идут через запятую на одном системном уровне. Не делать винегрета из рассуждений на разных системных уровнях, ибо там разные практики, разные микротеории на каждом системном уровне.
-- главное, это научить мыслить о мышлении, чтобы все эти объекты внимания хоть как-то обсуждать. Если ты не знаешь о различиях S1 и S2, не знаешь понятия аргумента, не знаешь о предвзятостях, анекдотические свидетельства считаешь чем-то с вебсайта анекдоты.ру, то дальше бесполезно обсуждать мыслительные проблемы -- трайбализм-шмайбализм, логика-шлогика, всё это будет пропущено мимо ушей, будет невидимо, вне внимания. То есть таки нужно учиться мышлению о мышлении, постигать методологические дисциплины, чтобы хоть как-то нормально обсуждать околополитические темы.
Выяснил вдруг, сколько евреев среди нобелевских лауреатов: The strong representation of Jews in science and academia is evidenced by the fact that 193 persons known to be Jews or of Jewish ancestry have been awarded the Nobel Prize, accounting for 22% of all individual recipients worldwide between 1901 and 2014. Of whom, 26% in physics, 22% in chemistry and 27% in Physiology or Medicine. In the fields of mathematics and computer science, 31% of Turing Award recipients and 27% of Fields Medal in mathematics were or are Jewish (
https://en.wikipedia.org/wiki/Jewish_culture). У меня, конечно, были смутные подозрения, но я таких больших цифр не ожидал. При этом цифры могут быть и больше, ибо еврейское происхождение в силу повсеместного антисемитизма могло и скрываться. Культурная ли это линия ("давние образовательные традиции", но их ведь давно уже нет!), или таки что-то в генетике связано с усилением S2 (вся эта наука в целом и особенно физика-математика-логика как раз про проявленность S2) -- это даже боюсь копать, ибо там и протоколы сионских мудрецов сразу всплывут, и особая одарённость белой расы, и много чего ещё помоечного. Но статистика, конечно, удивительная. "Избранный народ", ага.
В самых разных тусовках обсуждаю сейчас вопрос выбора языка для рассказа о каком-то предмете: удивительно, но при коммуникации пытаются сюсюкать -- как с детьми, машину обзывать бибикой. Это, замечу, другая тема, нежели химию давать на алхимическом языке (то есть игнорировать понятия предметной области, а просто "делать хоть что-нибудь, объяснять хоть как-то уже неважно что и неважно как"), я писал об этом в
https://ailev.livejournal.com/1509956.html. В сюсюкании есть множество проблем: возникает "язык близнецов", то есть участники сюсюканья понимают друг друга, но общение становится строго ограниченным. Ни погуглить, ни привести в проект кого-то грамотного без дополнительных ему объяснений, ничего этого нельзя. И хорошо бы ещё машину называли бибикой, "как все"! Нет, машину назовут бижукой, матиной, ездилом и прочим таким, чем внешнему человеку и не догадаться. При этом будут знать, что это "машина"! Откуда-то появляется вот это общение с сотрудниками как с детьми, твёрдое убеждение, что они нормальных слов без сюсюканья не понимают. В принципе, сотрудники тоже обычно этому способствуют, на любое новое слово реагируют нервно -- и в ответ на их нервы получают сюсюканье. При этом идеи, почему нельзя произносить термины бытуют самые разные -- примерно такие же, какие появляются у взрослых, сюсюкающих с детьми. Вот хоть бери литературу по общению с детьми от года до трёх и цитируй её взрослым. Конечно, хорошие термины (особенно, если речь идёт о переводах иностранных слов, которые не хочется давать как кальки) нужно придумывать, я и сам постоянно этим занимаюсь. Но придумывать такие слова вот прямо в каждом проекте для каждой новой команды -- быстро теряешь связь с мировой культурой и сам, и отрубаешь от мировой культуры команду. Язык на то и язык, чтобы служить коммуникации! Канбан надо таки называть канбаном, а не "работой по чуть-чуть"! А ещё бывает, когда со стороны кажущийся сюсюкающим не сюсюкает, а просто не знает оригинальных терминов (нет кругозора), и перезобрёл (или откуда-то услышал в плохом пересказе) известную давно идею. Это я вообще не рассматриваю.
Прогресс в AI продолжается со скоростью два прорыва в неделю. Например, из последнего:
-- Вышла работа по нейронным причинным моделям (NCM) по образу и подобию структурных причинных моделей (SCM) с участием Bengio и Barenboim --
https://arxiv.org/abs/2107.00793. An important property of many kinds of neural networks is universal approximability: the ability to approximate any function to arbitrary precision. Given this property, one may be tempted to surmise that a collection of neural nets is capable of learning any SCM by training on data generated by that SCM. In this paper, we show this is not the case by disentangling the notions of expressivity and learnability. Specifically, we show that the causal hierarchy theorem (Thm. 1, Bareinboim et al., 2020), which describes the limits of what can be learned from data, still holds for neural models. For instance, an arbitrarily complex and expressive neural net is unable to predict the effects of interventions given observational data alone. Given this result, we introduce a special type of SCM called a neural causal model (NCM), and formalize a new type of inductive bias to encode structural constraints necessary for performing causal inferences. Building on this new class of models, we focus on solving two canonical tasks found in the literature known as causal identification and estimation. Leveraging the neural toolbox, we develop an algorithm that is both sufficient and necessary to determine whether a causal effect can be learned from data (i.e., causal identifiability); it then estimates the effect whenever identifiability holds (causal estimation). Это всё особенно пикантно с учётом твита Pearl про невозможность для нейронных сеток быть хоть как-то разумными, ибо они не могут подняться до третьего ранга в лестнице контрфактуальности:
https://twitter.com/yudapearl/status/1411842797376659457-- с участием того же Bengio сделали нейронную продукционную систему,
https://arxiv.org/abs/2103.01937 (но это ещё в марте было. Просто иллюстрация тренда "берёшь что-то из старого символьного AI и делаешь то же самое нейронное -- оно ж универсальный аппроксиматор!"). We take inspiration from cognitive science and resurrect a classic approach, production systems, which consist of a set of rule templates that are applied by binding placeholder variables in the rules to specific entities. Rules are scored on their match to entities, and the best fitting rules are applied to update entity properties. In a series of experiments, we demonstrate that this architecture achieves a flexible, dynamic flow of control and serves to factorize entity-specific and rule-based information. This disentangling of knowledge achieves robust future-state prediction in rich visual environments, outperforming state-of-the-art methods using GNNs, and allows for the extrapolation from simple (few object) environments to more complex environments.
-- продолжилась серия побед "нейронная сетка сдаёт экзамен лучше, чем средний студент", в этот раз экзамен по вводному курсу машинного обучения в MIT,
https://arxiv.org/abs/2107.01238. The proposed model achieved an overall accuracy of 96 percent for open-response questions and 97 percent for multiple-choice questions, bettering the average MIT student score of 93 percent.
-- и очередной рекордсмен в SuperGLUE, ERNIE 3.0,
https://arxiv.org/abs/2107.02137. We trained the model with 10 billion parameters on a 4TB corpus consisting of plain texts and a large-scale knowledge graph. Empirical results show that the model outperforms the state-of-the-art models on 54 Chinese NLP tasks, and its English version achieves the first place on the SuperGLUE benchmark (July 3, 2021), surpassing the human performance by +0.8% (90.6% vs. 89.8%). Красота тут в том, что GPT-3 -- это 175 billion parameters, а этот чемпион -- всего 10 billion. Вдобавок . It fuses auto-regressive network and auto-encoding network, so that the trained model can be easily tailored for both natural language understanding and generation tasks with zero-shot learning, few-shot learning or fine-tuning.
-- ... и такого много, чуть ли не каждый день что-то новенькое.
UPDATE: обсуждение в фейсбуке --
https://www.facebook.com/ailevenchuk/posts/10221386545587154