"Книги - это корабли мысли, странствующие по волнам времени и
  бережно несущие свой драгоценный груз от поколения к поколению"

(Фрэнсис Бэкон)


Распознавание текста

Для распознавания текста используются специальные программы, причем самая последняя версия не всегда является лучшей. Возникают различные проблемы, далеко не всегда очевидные. Часть из этих проблем и их возможные решения будут описаны в этом разделе.

Маркировка неправильно распознанных символов

Если исходный текст полностью на английском или, например, грузинском языке, то проблем в общем-то не возникает. Но как правило мы имеем дело со смешанным текстом - чаще всего англо-русским. И тут начинаются серьезные проблемы. Дело в том что многие символы русского и латинского алфавита, такие как А, О, Р имеют одинаковое начертание. И нет возможности определить на каком языке это написано. Программа распознавания текста определеяет язык текста по первому символу, который отличается от текущего языка. Например:

Читать дальше...


 
Перейти в конец страницы Перейти в начало страницы