"Книги - это корабли мысли, странствующие по волнам времени и
бережно несущие свой драгоценный груз от поколения к поколению"
(Фрэнсис Бэкон)
Для распознавания текста используются специальные программы, причем самая последняя версия не всегда является лучшей. Возникают различные проблемы, далеко не всегда очевидные. Часть из этих проблем и их возможные решения будут описаны в этом разделе.
Если исходный текст полностью на английском или, например, грузинском языке, то проблем в общем-то не возникает. Но как правило мы имеем дело со смешанным текстом - чаще всего англо-русским. И тут начинаются серьезные проблемы. Дело в том что многие символы русского и латинского алфавита, такие как А, О, Р имеют одинаковое начертание. И нет возможности определить на каком языке это написано. Программа распознавания текста определеяет язык текста по первому символу, который отличается от текущего языка. Например: