Крауднаукинг

Jul 12, 2013 14:12

Originally posted by autumn_flavour at Крауднаукинг


Знаете ли вы, что вы - вот лично вы собственной персоной, - сами того не замечая, помогаете оцифровывать архивы печатных изданий и целые библиотеки на разных языках?

Есть такая многими проклинаемая штука под названием рекапча. Вы хотите скачать файл, допустим, и тут выскакивает окошечко с парой волнообразно изогнутых слов - и вы должны их прочесть и собственноручно напечатать в поле для ответа. Слова вечно исполнены всякими дурацкими шрифтами (особенно часто попадается английский "газетный" шрифт), часто бывают на разных языках, нередко оказываются плохочитаемы - уууу, какая мерзость, почему нельзя поставить обычные цветные циферки, перечеркнутые парой-тройкой разноцветных косых линий?

А оказывается, что к этой капче подсоединена хитрая программа, которая берет слова не из воздуха, а из базы отсканированных, но плохо поддающихся распознанию документов - например, подборок New York Times за тыща девятьсот мохнатый год. (Вот откуда газетный шрифт!) Вырезает слово как картинку, изгибает его слегка, тоже как картинку, вставляет в окошко капчи и предлагает вам.



А дальше интересно. В окне для распознавания у вас всегда не одно, а два слова. Одно - то самое нераспознанное и неоцифрованное morning, зато второе - overlooks - системе уже известно. И человеком она вас засчитывает, если вы правильно напечатали overlooks. Неизвестное ей слово morning вообще можно не вводить, и вас все равно пустят куда вам надо! Но вы не знаете, какое слово система знает, а какое предлагает наугад, поэтому честно перепечатываете оба. И вот тогда, признав вас по одному из них человеком, система берет morning, которое не могла распознать, и складывает предложенное вами его написание в специальную ячейку, где уже лежат варианты, предложенные другими пользователями, которых тоже признали людьми. Капчей пользуются миллиарды людей по всему миру, поэтому ячейка наполняется быстро. Очень скоро уже можно увидеть, что, допустим, 45 человек из 50 увидели в этом слове morning (остальные пять ошиблись, недоглядели, промахнулись мимо клавиши - mornig, morgen, monring). И вот когда в следующий раз при оцифровке той же New York Times компьютер в очередной раз споткнется, он сравнит изображение этого слова с тем, которое нашлепнуто на нашу ячейку и возьмет из этой ячейки правильный ответ morning, который мы с вами вводили с простой и привычной ему клавиатуры. Бинго!

Каждый день ничего не подозревающее население Земли с помощью капчи оцифровывает сто миллионов новых слов. Среди нас живет семьсот пятьдесят миллионов человек, которые помогли оцифровать по меньшей мере одно слово. Посмотрите в зеркало - не исключено, что там вы увидите одного из них.

:)
Previous post Next post
Up