OCR sont ceux de la reconnaissance optique de caractères ou également connus en espagnol sous le nom de reconnaissance optique de caractères. OCR est un logiciel qui permet la reconnaissance de texte, en produisant une image pour le transformer en une succession de caractères, puis les enregistrer dans un format donné qui peut être utilisé dans ces programmes d'édition de texte. En d'autres termes, grâce à cette nouvelle technologie, tout type de texte ou de document, y compris les fichiers PDF, les papiers numérisés ou encore les images prises à partir d'appareils photo numériques, peut être converti en données afin d'avoir la possibilité d'être édité.
Ce logiciel fonctionne de la manière suivante, il analyse d'abord chaque partie de l'image du document en question; distribuer la page en morceaux tels que des tableaux, des images, des blocs de texte, entre autres; puis les lignes sont distribuées en mots pour devenir plus tard des caractères; et comme les caractères ont déjà été indiqués, le logiciel effectue la comparaison avec un groupe d'images du motif. Cela progresse selon la série d'hypothèses sur ce qu'est chaque personnage; et sur la base de ces hypothèses, il analyse les différentes variantes de rupture des lignes en mots et des mots en caractères. Et c'est après un grand nombre d'analyses et de traitements des hypothèses, que le programme présente enfin le texte déjà reconnu et transformé avec un nouveau format.
Il est à noter qu'aujourd'hui il existe un certain nombre de programmes que le marché de l'informatique propose basés sur l'OCR comme OmniPage, Abbyy Fine Reader ou READiris. YY qui ont la capacité, non seulement d'analyser et de reconnaître un texte en tant que tel, mais aussi de reconnaître le format et le style, mais avec certaines limitations, exigeant ainsi que le texte, après avoir été analysé, soit édité pour faire les ajustements qui sont exiger.