Конкурс Automated Essay Scoring

May 04, 2012 21:54

Недавно на каггле завершилось соревнование по автоматической оценке школьных/студенческих сочинений. Задача состояла в том, чтобы по тексту сочинения предсказать его оценку. Кое-что про конкурс:
  • Существует около десятка коммерческих продуктов, специализирующихся на задаче по автоматической оценке сочинений. Разработчики этих продуктов также ( Read more... )

конкурсы, машинное обучение, kaggle

Leave a comment

(The comment has been removed)

anonymous May 9 2012, 09:19:21 UTC
Пока не почитал внимательно, но не думаю, что легко сделать такой набор данных.
Это примерно как написать искусственный текст.
Но студенческие сочинения - по определению - "правильные" тексты с достаточно четкими зависимостями.

Факторы читаемости, поверхностной структуры (по служебным словам), всякие сжатия (как мера структуры), частотка по коллекции (как мера тематичности), language model (как синтаксис ) - достаточно частая "сетка", через которую "плохим" текстам пробиться сложно.

Возможно отклонение "гениальных" текстов (с яркими ассоциациями, метафорами), но уж далеко не "практически нулевая точность".

= bvd =

Reply

(The comment has been removed)

anonymous May 9 2012, 15:37:23 UTC
Яндекс-рефераты - ерунда, элементарно определяются по многим признакам. Там нет общей глобальной связности, что просто определяется. Думаю, даже по элементарному критерию - степени сжатия zip'ом - как простейший способ оценки частотно-рангового распределения ( ... )

Reply

(The comment has been removed)

anonymous May 9 2012, 16:48:01 UTC
Там нет общей глобальной связности, что просто определяется.
Позволю себе усомниться в том, что современные простые методы это могут определять.

Собственно, Антон Павлов это и предложил. Это доказать оказалось возможным для цепей Маркова, а принцип - общий: любое вторжение в реальный текст разрушает естественную структуру, которая вполне устойчива.

На языке Аристотеля, ван Дийка и ГОСТа - главные и второстепенные темы. На языке LDA - нахождение смеси тематик на границе или в "центре" структуры.

Там сотня характеристик + тематическая структура (что как "новое" и защищалось).

Настроено было на цепи Маркова, но тестировалось в том числе по WebSpamUK - та еще коллекция, но предположительно, разнообразная. Работало несколько лучше чем у других - в смысле, есть еще и другие характеристики, приведенные в конкурирующих работах, и тоже работают.

С моей точки зрения, тексты, порожденные на цепях Маркова сложнее определять, т.к. можно варьировать общей тематичностью - говорят, спамеры генерят прямо по сниппетам.

= bvd =

Reply

(The comment has been removed)

anonymous May 9 2012, 19:19:03 UTC
Пробовали брать реальный текст и переставлять параграфы?

Мы решали задачу определения естественности текста. От перестановки параграфов естественность среднего текста не изменится. М.б. текст будет хуже структурирован (а может и нет - см. Кортасар "Игра в классики" :) ).

Но, опять-таки, нет больших проблем.
Во-первых, если разрешить Марковской цепи при обучении проходить через конец предложения.
Во-вторых, есть специальная конференция, наследница DUC'а - Text Analysis Conference (TAC) - там есть дорожка Recognizing Textual Entailment - определение является ли следующий с некоторого момента текст продолжением предыдущего - откуда м.б. понадобится взять еще немного фич.

В общем, остаюсь при своем мнении. Особенных проблем в создании ПО с хорошей степенью уверенности оценки "студенческих сочинений" при наличии достаточной обучающей выборки по "сдаваемому курсу" я не вижу.

= bvd =

Reply

(The comment has been removed)

anonymous May 9 2012, 21:13:04 UTC
Я уверен, что не преувеличиваю...

Не говоря уж о том, что мы и так немного умеем описывать "содержательную"/тематическую "семантику" (ненавижу это слово, употребляю только в рекламе).

Я же сказал - должна быть обучающая коллекция по курсу.
Мы же говорим об учебных курсах - там все факты известны заранее - можно считать, расширение Википедии. То есть никаких Фараонов (с большой буквы, кроме фараонов-городовых) в Октябрьской революции быть не может.

Даже без прописной буквы - статистика сочетаемости все подавит, то есть сочетание Египта и Октябрьской революции невероятно.

Основная причина, по которой это коррелирует с оценками людей для тех же GRE или SAT эссе: люди толком не оценивают эти эссе, затрачивая на каждое пару минут.
Основная причина совсем другая - правильный текст подчиняется достаточно прозрачным законам ясного изложения своих мыслей, которым, собственно, студентов и учат.

Reply

(The comment has been removed)

anonymous May 10 2012, 05:25:20 UTC
Нет тут никаких особенных секретов. Законы эти уже все давно опубликованы, даже в ГОСТе, то ли про индексирование, то ли про реферирование. На работы van Dijk'а, работы по читаемости текстов (это очень популярно в штатах), других по данной теме (DUC, TAC) - достаточное количество ссылок.
Судя по Вашим же словам, пока для решения задачи хватает даже простых факторов учета читаемости. Многие знают еще больший комплект.

Проведенные нами ранее эксперименты по смежным тематикам (определение жанра, даже определение жанра источника, фильтрация массового! веб-спама), показали, что задачи решались с качеством 70-90% простыми средствами.

Конечно, можно специально создать тексты-обманки. Никто не спорит. Но в приведенной постановке задачи, когда никто такого не делает (легко дополнить простыми оргмерами для предотвращения - суровые санкции за попытку обмана машинного проверяльщика при выборочной ручной допроверке) - работать должно.

= bvd =

Reply

alsafr May 9 2012, 13:13:17 UTC
В целом согласен.
Корпус текстов конкурса состоял из 8 подмножеств. Каждое из подмножеств представляло собой отдельную группу сочинений с отдельным заданием для учащихся и отдельной шкалой оценок. Например, в одном из 8-ми заданий учащимся нужно было после прочтения некоего рассказа письменно ответить на вопрос по тексту этого рассказа. При этом ответ должен был быть относительно коротким и прежде всего верным с фактической точки зрения (вопрос состоял в том, почему строители Эмпайр Стейт Билдинг отказались от идеи устроить на крыше площадку для причаливания дирижаблей). Т.е. в этом задании правильный ответ был, и выразить его можно было лишь конечным числом способов. Здесь рамки как для "гениальных", так и для искусственных текстов довольно узкие. Мне представляется проблематичным создание текста, получающего высокую оценку у хорошей автоматической системы, но при этом являющегося с точки зрения человека полной бессмыслицей.
С другой стороны, были и другие задания, в которых предлагалось высказать мнение. "Правильных" ответов там не ( ... )

Reply


Leave a comment

Up