Яндекс уникод хәрефләре белән сүзләрне эзли башлады!

Jan 16, 2008 09:54

Бер ике көн элек менә шуңа игътибар иттем -  
Яндекс уникод хәрефләре белән сүзләрне эзли башлады!

шул ук вакытта Апорт.ру да, gogo.ru да эзлиләр икән шундый сүзләрне. Элек чит ил эзләү системалары гына эзли иде. бары тик Рамблер шулай ук калган - эзләми.

мин ике ел элек шул проблема турында Яндексның һәм башкаларның да техник хезмәтләренә язган идем. Җаваплар да килгән иде. почта архивымнан шул хатларны таптым. 

Минем хатым:

> Почему то, ни один из крупных российских поисковых систем - Яндекс, Апорт, > Rambler, Mail.ru, не поддерживает поиск слов с буквами уникода расширенной  кириллицы. Результаты поиска - возможно в слове ошибка, искомое слово не  обнаружено, иногда идет поиск слова с пропуском букв, т.е. вовсе не того  слова.
> Тогда как основные общемировые поисковые системы Google, MSM, Yahoo! прекрасно  такой поиск осуществляют.
> Сфера моих интересов - татарские сайты, многие материалы которых - разумеется  на татарском языке. В процессе создания, работы в поисковиках, не говоря уж о  попытках продвижения поисковых запросов, приходится сталкиваться с алфавитными  трудностями. Тут со мной думаю согласятся и другие создатели татарских сайтов,  а также чувашских, башкирских и многих других народов Российской Федерации.
> Если не известно читателю, сообщу, что в данный исторический момент все эти  народы в качестве официальной национальной письменности используют русскую  кириллицу + дополнительные символы, отражающие звуки, которых в русском языке  и соответственно в алфавите нет.
> Так вот, например в настоящее время татарский алфавит состоит из букв русского  алфавита и шести дополнительных букв. Перечислю их  - ? ? ,  ? ? , ? ? , ? ?, ? ? , ? ? . Приведу некоторые их в уникоде (? ? ? ? и  т.д.).(В настоящее время - означает с 40-х годов ХХ века, до этого татары  столетиями пользовались арабской графикой, а также в 30-х годах ХХ века десять  лет - латинской. Несколько лет назад Татарстан принял было закон о переходе  татарской письменности на латиский алфавит, но Государственная Дума  законодательно запретила народам Российской Федерации пользоваться алфавитами,  основанными не на кириллице. Как далее будут развиваться события в данном  вопросе, ответить затрудняюсь).
> Для того чтобы найти какой-то текст на татарском языке, приходится искать на  зарубежных поисковиках.
> Не думаю, что доработка программного обеспечения российских поисковых систем  для поиска дополнительных символов требует больших затрат. И даже если пока  аудитория, которая сейчас воспользуется этой возможностью будет не такая  большая, то в будущем можно же и заработать на этом - той же контекстной  рекламой. Пусть скромные объемы не смущают - курица клюет по зернышку.
> Кроме этого, думаю на данную проблему  можно взглянуть и с идеологической,  культурной точки зрения. Яндекс, Апорт, Rambler, Mail.ru - это русские  поисковые системы, или российские? Сейчас выходит что первое.

Менә бер җаваптан цитат:

"С------й ответил в частном порядке, на форуме это не появится.

- - - -
Во-первых, технически индексировать мультибайтовую кодировку не
проблема, но чтобы не испортить русскоязычный поиск иноязычными
документами, требуется распознавание языка, для которого нужен корпус
текста и т.д. Для одного языка задача решается не так сложно. Но тут
появляется "во-вторых". Индексация первого нерусского языка народов
России -- это отчасти и политический шаг. Почему именно татарский? Как
реагировать на просьбы об индексации остальных языков? Поэтому
предлагать решение нужно для многих языков сразу, а это уже серьезные
усилия, и это далеко не 1-2 месяца работы, а намного больше.

Я не хочу заявлять что-либо сейчас, так как татарский язык -- довольно
болезненная тема для татар. Это неминуемо вызовет дискуссию, в которой
нет времени участвовать. Плюс без раскрытия планов (а мы их не
раскрываем) ответить полноценно на вопрос нельзя. "

Әлбәттә шундый үзгәрешләр минем язган хатларым нәтиҗәсендә килеп чыкты дип әйтәргә җыенмыйм.
әммә барыбер шатландыра бит!!!
Татарча эзләп карагыз!

Татнет

Previous post Next post
Up