Как известно, у нас, пынгwынОw, всего две "народных" распознавалки текста, tesseract и cuneiform.
Первая хороша тем, что умеет распознавать "мультиязычные" тексты, также для нея существует python-приложение ocrodjvu, берущее на себя всю скучную работу по "сборке-разборке" DjVu-документа. Но очень уж она тормозная!
Вторая -- cuneiform --
(
Read more... )