Прочитал Вашу статью на Хабре (NLP: проверка правописания - взгляд изнутри), но т.к. не имею эккаунта на Хабре, хотел бы задать Вам вопрос здесь, в ЖЖ. Не подскажите, какой токенайзер лучше всего использовать для Part of Speech tagging на русском языке? Спасибо.
Об этой теме я ещё напишу :) Так Вас интересует токенизатор или таггер? Это разные вещи. Если таггер -- честно говоря, вопрос так вообще не стоит -- я их ни одного не видел. Несложно написать свой (могу даже подарить исходник), но возникает проблема с dataset'ом, т.е. на чём его тренировать. Для русского есть размеченные корпусы, но как обычно, с лицензированием не всё просто.
токенизатор. скорее даже нормализация, то есть способность привести слово в начальную форму. я думаю, что нормальзация связана с токенизацией, и если вы работали с ними, возможно посоветуете какие-то решения. спасибо.
брр... вы смешиваете разные вещи. Токенизация = определение границ слова; приведение в нормальную форму = морфологический анализ; pos tagging = угадывание части речи слова в тексте.
Морф. анализ (в том числе приведение к начальной форме) делает, напр., хороший анализатор, лежащий на сайте aot.ru
Но он не снимает неоднозначности, т.е., наприер, слову "стекла" будет соответствовать две начальные формы -- "стечь" и "стекло".
Я студент медицинского вуза, с неполным высшим образованием инженера ПО САПР ВС. Интересуюсь возможностью открыть свой стартап в Европе (в частности в Финляндии, т.к. там есть связи) и в процессе поиска попал на вашу публикацию (увы подзамочную) на Хабре.
Не могли ли бы дать мне её прочесть? Если не против некоторого общения, то мой skype - r-scout13.
Здравствуйте, Максим Мозговой! Меня очень заинтересовали Ваши книги, а именно "Занимательное программирование" и "C++ мастер-класс: 85 нетривиальных проектов, решений и задач". Они замечательно написаны и легко читаются. Планируете ли Вы еще выпускать подобные книжки? Спасибо.
Re: Новые книгиrg_softwareJune 22 2012, 13:58:53 UTC
Спасибо :) Планирую! На самом деле сейчас не очень хорошее время для издателей. Планов много, но издатели не готовы всё быстро печатать. Вроде желание есть, но реализация занимает очень много времени.
Comments 29
Подскажите, пожалуйста, не Вы ли случайно автор потрясающих текстов об искусственном интеллекте на Хабрахабре? Заранее спасибо.
С уважением,
Анатолий Ульянов
журналист
Reply
Хотелось бы разделить с Вами одну футуритическую идею.
Reply
Прочитал Вашу статью на Хабре (NLP: проверка правописания - взгляд изнутри), но т.к. не имею эккаунта на Хабре, хотел бы задать Вам вопрос здесь, в ЖЖ.
Не подскажите, какой токенайзер лучше всего использовать для Part of Speech tagging на русском языке?
Спасибо.
Reply
Так Вас интересует токенизатор или таггер? Это разные вещи.
Если таггер -- честно говоря, вопрос так вообще не стоит -- я их ни одного не видел. Несложно написать свой (могу даже подарить исходник), но возникает проблема с dataset'ом, т.е. на чём его тренировать. Для русского есть размеченные корпусы, но как обычно, с лицензированием не всё просто.
Reply
я думаю, что нормальзация связана с токенизацией, и если вы работали с ними, возможно посоветуете какие-то решения. спасибо.
Reply
Морф. анализ (в том числе приведение к начальной форме) делает, напр., хороший анализатор, лежащий на сайте aot.ru
Но он не снимает неоднозначности, т.е., наприер, слову "стекла" будет соответствовать две начальные формы -- "стечь" и "стекло".
Reply
(The comment has been removed)
Странно, что со связью проблемы -- в профиле на Хабре есть адрес сайта, а там на первой же страничке электронная почта :)
Reply
Я студент медицинского вуза, с неполным высшим образованием инженера ПО САПР ВС. Интересуюсь возможностью открыть свой стартап в Европе (в частности в Финляндии, т.к. там есть связи) и в процессе поиска попал на вашу публикацию (увы подзамочную) на Хабре.
Не могли ли бы дать мне её прочесть? Если не против некоторого общения, то мой skype - r-scout13.
Благодарю за внимание.
Reply
http://www.megaupload.com/?d=ZSL02S52
В скайпе я не очень часто, можете попробовать поймать (rg_software) или пишите на почту (адрес указан на сайте mozgovoy.tk)
Reply
Reply
Меня очень заинтересовали Ваши книги, а именно "Занимательное программирование" и "C++ мастер-класс: 85 нетривиальных проектов, решений и задач". Они замечательно написаны и легко читаются.
Планируете ли Вы еще выпускать подобные книжки?
Спасибо.
Reply
Reply
Leave a comment