Частота встречаемости букв алфавита в сир. рукописи Vat. syr. 125, f. 132v-140v, 142v-143r (данные с листов лишь частично в т. ч. из-за повреждения текста водой: даже если буква читалась, но строка в целом выглядела слишком сильно поврежденной, то буква не учитывалась). Общее количество учтенных букв - 13 662.
(
Read more... )
Comments 5
Артикль (бывший) вне конкуренции)
А зачем?
Reply
В т. ч. мне интересно было посмотреть график распределения, а так я делал ground truth для распознавания текста этой рукописи.
Reply
Вы делаете OCR софт для рукописей? Интересная тема и, вероятно, непростая, но я про это мало знаю.
Reply
Я делал раньше часть пайплайна для такого OCR (https://vk.com/id185642551?w=wall185642551_480_r485), т. к. у kraken'а в 2018 г. была неудобная схема по подготовке ground truth и кроме этого его тогдашняя распознавалка строк не работала для такой рукописи. Сейчас уже вроде с этим гораздо лучше, но я пока занимаюсь другим и не проверял на деле.
Reply
Leave a comment