Jun 15, 2024 22:18
Исследователи из некоммерческой организации по исследованию искусственного интеллекта LAION показали, что даже самые сложные большие языковые модели (LLM) можно поставить в тупик простым вопросом, вроде «У Алисы есть N братьев, а также M сестёр. Сколько сестер у брата Алисы?».
Специалисты тестировали модели: GPT-3, GPT-4 и GPT-4o; Anthropic Claude 3 Opus, Gemini от Google и модели Llama от Фэйсбука, а также Mextral от Mistral AI, Dbrx от Mosaic и Command R+ от Coher.
Только одна модель, свежевышедшая GPT-4o, добилась успеха в логическом тесте.
Если это действительно является проблемой для столь масштабных моделей, на которые потрачены миллиарды, без преувеличения, долларов и гигаватты электроэнергии, то это плохие новости для всех адептов ИИ. Программы из пула Wolfram Mathematica решали несравненно более сложные задачи формальной логики ещё в начале текущего века. То есть вы можете оценить разницу в КПД!
И, с другой стороны, если Языковые Модели в ходе своих довольно длинных и сложно сконструированных ответов могут давать откровенно нелогичные ответы, то это должно заставить нас подумать над вопросом, а стоит ли игра свеч? И можно ли их использовать для автоматизированного написания обзоров, например?
--
Источник:
Nezhurina, M., Cipolina-Kun, L., Cherti, M., & Jitsev, J. (2024). Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models. arXiv preprint arXiv:2406.02061.
будущее,
глупость,
страсть к обличениям,
наука,
новости,
странное