Там многослойная проблема, и она связана с тем, что сотрудник может обучать нейронку внутри себя без полной её замены. Происходит это с помощью положительных и отрицательных стимулов (может быть и сложнее, но для простоты модели положим так). Т.е. работник не может заменить свои физические особенности (пол, цвет кожи, метаболизм), но его можно переобучить под нужную задачу в соответствии с гипотезой чистой доски. Соответственно в разрезе этой концепции нападки на трудноизменяемые особенности бесполезны и даже несут вред (поскольку увеличивают напряжение в системе), а критика легкоизменяемых особенностей (напр. профессиональных знаний) предполагается очень даже продуктивной при соблюдении некоторых правил ментальной гигиены.
Изначально предполагается, что отзыв помогает сотруднику в будущем написать лучший код, и чем дольше этот сотрудник продержится - тем лучше. Поэтому (в разрезе суммы благ) выгодно причинять ему поменьше случайных психотравм поверх уже необходимых для работы. Похоже, что после накопления определённой суммы укусов сотрудник потеряет мотивацию (потому что живым существам обычно несвойственно закреплять стимулы при отрицательном подкреплении).
Соответственно могут быть несколько краевых вариантов управления обучением: 1. Гедонистическая культура, в которой фрустрированный обучающий агент выплёскивает на сотрудника пар, не заботясь общественным благом. 2. Карательная культура, в которой особое внимание уделяется наказаниям ("пряник черствый и им можно тоже бить"). В случае такого обучения мы рискуем получить нейросеть, у которой нет ненаказуемых активностей, любое рабочее возбуждение гасится (кроме узкого круга задач, относительно которых существует консенсус однозначно полезных). На бытовом уровне сотрудник будет восприниматься как лентяй или старательный дуболом, который иногда генерирует неожиданные проблемы (когда он придумывает решения, не заблокированные учителем и в силу этого воспринимаемые как деструктивные). 3. Позитивистская культура, в которой избегают сильных наказаний. Поскольку работнику как-то нужно указывать желаемый путь выполнения задач, он должен получать инструкции в довольно обтекаемой форме, которая избегает блокировок потенциально полезных активностей. Риски такого управления обучением в том, что могут поощряться любые реакции, в том числе карательные в отношении других работников.
Если так рассуждать, то фокус разработки *нового* продукта в том, как чередовать (3) с элементами (2), не скатываясь в бесплодную яму обучения (1) + (2).
Т.е. работник не может заменить свои физические особенности (пол, цвет кожи, метаболизм), но его можно переобучить под нужную задачу в соответствии с гипотезой чистой доски. Соответственно в разрезе этой концепции нападки на трудноизменяемые особенности бесполезны и даже несут вред (поскольку увеличивают напряжение в системе), а критика легкоизменяемых особенностей (напр. профессиональных знаний) предполагается очень даже продуктивной при соблюдении некоторых правил ментальной гигиены.
Изначально предполагается, что отзыв помогает сотруднику в будущем написать лучший код, и чем дольше этот сотрудник продержится - тем лучше. Поэтому (в разрезе суммы благ) выгодно причинять ему поменьше случайных психотравм поверх уже необходимых для работы. Похоже, что после накопления определённой суммы укусов сотрудник потеряет мотивацию (потому что живым существам обычно несвойственно закреплять стимулы при отрицательном подкреплении).
Соответственно могут быть несколько краевых вариантов управления обучением:
1. Гедонистическая культура, в которой фрустрированный обучающий агент выплёскивает на сотрудника пар, не заботясь общественным благом.
2. Карательная культура, в которой особое внимание уделяется наказаниям ("пряник черствый и им можно тоже бить"). В случае такого обучения мы рискуем получить нейросеть, у которой нет ненаказуемых активностей, любое рабочее возбуждение гасится (кроме узкого круга задач, относительно которых существует консенсус однозначно полезных). На бытовом уровне сотрудник будет восприниматься как лентяй или старательный дуболом, который иногда генерирует неожиданные проблемы (когда он придумывает решения, не заблокированные учителем и в силу этого воспринимаемые как деструктивные).
3. Позитивистская культура, в которой избегают сильных наказаний. Поскольку работнику как-то нужно указывать желаемый путь выполнения задач, он должен получать инструкции в довольно обтекаемой форме, которая избегает блокировок потенциально полезных активностей. Риски такого управления обучением в том, что могут поощряться любые реакции, в том числе карательные в отношении других работников.
Если так рассуждать, то фокус разработки *нового* продукта в том, как чередовать (3) с элементами (2), не скатываясь в бесплодную яму обучения (1) + (2).
Reply
Leave a comment