У «Яндекса» появился поиск по историческим документам из архивов

Jan 27, 2023 14:49



У «Яндекса» появился поиск по архивам - рукописным историческим документам из архивов. На данный момент, поиск осуществляется по 2,5 миллионам документов архивов Москвы, Оренбургской и Новгородской областей, включая метрические книги, ревизские сказки и исповедные ведомости.

Конечно, было бы интересно почитать совсем иные архивы, но пока вот так. По большому счёту, на данном этапе, поиск этот больше интересен тем, кто любит искать родственников и строить свои генеалогические деревья.

Нас же больше заинтересовала сама технология. Ведь рукописные книги какого-нибудь 18-го века - это не сегодняшние записи: изменилось и написание, и язык был, мягко сказать, иным. Как говорил Шелдон Купер, вот вам fun fact: в большинстве случаев, когда нас просят ввести капчу на сайтах, нас заставляют обучать нейросеть. И вот когда вас просят ввести два слова, которые написаны какими-то корявыми буквами, это вас просят помочь обучить нейросетку расшифровывать старые тексты.

В «Яндексе» подошли к процессу иначе. Нейросеть обучали внутри компании на массиве рукописных строк из реальных текстов. Размечали и расшифровывали эти материалы эксперты, они же контролировали качество распознавания. Возможно, поэтому проект развивается не так быстро: слишком большое внимание уделяется качеству, а не количеству.

Поискать родственников и других людей в глубоком прошлом можно тут, а в комментариях - ждём вашей оценки: удалось ли кого-то найти. Мы вот, сходу, нашли 82 Козявкиных.

https://seoded.blogspot.com/2023/01/archive.html

яндекс, контент, технологии

Previous post Next post
Up