El software de reconocimiento óptico de caracteres, abreviado habitualmente como OCR (Optical character recognition), extrae de una imagen los caracteres que componen un texto para almacenarlos en un formato con el cual puedan interactuar programas de edición de texto.
Mientras que en una o varias imágenes los caracteres se describen indicando cada uno de los
píxeles que los forman, al convertirlos a un formato de texto (por ejemplo ASCII o Unicode), pasan a estar descritos por un solo número, por lo que se produce una reducción significativa del espacio en memoria que ocupan.
A partir de ahí el texto es reconocido como texto, de modo que se pueden buscar en él cadenas de caracteres, exportar el texto a un editor de textos, o a otras aplicaciones, etc.
Actualmente, junto con el texto, se registra también el formato con el que ha sido escrito.
Una variante es el
Reconocimiento óptico de marcas (optical mark recognition) que se utiliza para reconocimiento de marcas. Un ejemplo sería la corrección automática de exámenes de tipo testZ, en los que la respuesta correcta se rodea con un círculo.
Historia
En 1929, Gustav Tauschek obtuvo una patente sobre OCR en Alemania, seguido de Handel, que obtuvo una patente en EE.UU. OCR en EE.UU. en 1933 (Patente EE.UU. 1.915.993). En 1935 Tauschek También se concedió una patente de EE.UU. en su método (Patente EE.UU. 2.026.329).
Tauschek máquina era un dispositivo mecánico que se utiliza plantillas. Una célula fotoeléctrica se colocaba de manera que cuando la plantilla y el carácter de ser reconocidos en fila para una coincidencia exacta y una luz se dirigió hacia ellos, la luz no llegaría a la célula fotoeléctrica.
En 1950, David H. Shepard, un criptoanalista de las Fuerzas Armadas de la Agencia de Seguridad en los Estados Unidos, se le preguntó por Frank Rowlett, que se había descifrado el código japonés PURPLE diplomáticas, para trabajar con el Dr. Luís Tordella datos para recomendar los procedimientos de automatización para la Agencia. Esto incluye el problema de la conversión de mensajes impresos en lenguaje de máquina para el tratamiento informático. Shepard decidieron que debía ser posible construir una máquina para hacer esto, y con la ayuda de Harvey Cook, un amigo, construida "Gismo" en su ático durante las tardes y fines de semana. Esto se publicó en el Daily News en Washington el 27 de abril de 1951 y en el New York Times el 26 de diciembre 1953 se publicó después de su Patente EE.UU. 2.663.758. Shepard luego fundó Intelligent Research Machines Corporation (TMI), que pasó a ofrecer el primer sistema OCR varias utilizado en las operaciones comerciales. Mientras tanto Gismo y los sistemas de tasa de mortalidad infantil más tarde utilizó el análisis de la imagen, en lugar de juego de caracteres, y podría aceptar alguna variación fuente, Gismo se limitó a razonablemente cerca de registro vertical, mientras que la tasa de mortalidad infantil después de los escáneres comerciales analizaron los caracteres en cualquier parte del campo escaneados, un práctico necesidad en los documentos del mundo real.
El primer sistema comercial se instaló en el Readers Digest en 1955, lo que, muchos años después[¿cuándo?, Fue donado por Readers Digest al Smithsonian, donde se puso en exhibición. El segundo sistema fue vendido a la Standard Oil Company de California para impresiones de lectura de tarjetas de crédito a efectos de facturación, con muchos más sistemas vendidos a otras empresas petroleras. Otros sistemas vendidos por tasa de mortalidad infantil durante la década de 1950 incluye un lector de talón de la factura a la Bell Telephone Company de Ohio y un escáner de página a la Fuerza Aérea de Estados Unidos para la lectura y transmisión de mensajes por teletipo a máquina. IBM y otros fueron más tarde la licencia de patentes Shepard OCR.
En cerca de 1965 Readers Digest y RCA colaborado para crear un lector OCR documento destinado a digitalizar los números de serie de cupones de Reader Digest de regresar de los anuncios. La fuente utilizada en los documentos que fueron impresas por una impresora de tambor RCA con el OCR-A de la fuente. El lector se conecta directamente a un equipo con 301 RCA (uno de los primeros equipos de estado sólido). Este lector fue seguido por un lector de documentos especializados instalados en TWA donde el lector procesa las reservas de billetes de avión (una tarea más difícil por el respaldo de la carbonización de las reservas de billetes). Los lectores de documentos procesados a un ritmo de 1.500 documentos por minuto y comprobar cada documento, rechazando los que no era capaz de procesar correctamente. El producto se convirtió en parte de la línea de productos de RCA como un lector diseñado para procesar "los documentos de la vuelta", como los de utilidad y las facturas de seguros regresó con los pagos.
El Servicio Postal de EE.UU. ha estado utilizando las máquinas de OCR para clasificar el correo desde el año 1965 basado en la tecnología diseñado principalmente por el prolífico inventor Jacob Rabinow. El primer uso de OCR en Europa por los británicos Oficina General de Correos (GPO). En 1965 comenzó la planificación de un sistema bancario, el Giro Nacional, que utiliza la tecnología OCR, un proceso que revolucionó los sistemas de pago de facturas en el Reino Unido. Canadá Post ha estado utilizando los sistemas OCR desde 1971. Los sistemas OCR leer el nombre y la dirección del destinatario en el primer centro de clasificación mecanizada, para imprimir un código de barras en el sobre de enrutamiento basado en el código postal. Para evitar la confusión con el ámbito humano dirección de lectura que se puede encontrar en cualquier parte de la carta, tinta especial (color naranja en luz visible) se utiliza que es claramente visible bajo luz ultravioleta. Sobres luego pueden ser procesados con el equipo basado en simples lectores de código de barras.
Ray Kurzweil, en 1974 creó la empresa Kurzweil Computer Products, Inc. y el desarrollo impulsado por la antena de primera fuente el sistema de reconocimiento óptico de caracteres de un programa informático capaz de reconocer cualquier texto impreso en letra normal. Se decidió que la mejor aplicación de esta tecnología sería la creación de una máquina de lectura para ciegos, lo que permitiría a los invidentes disponer de un ordenador a la lectura del texto en voz alta. Este dispositivo requiere la invención de dos tecnologías que permitan el escáner CCD-plano y el texto-a-sintetizador de voz. El 13 de enero de 1976, el producto terminado con éxito fue dado a conocer ampliamente durante una conferencia de prensa informó encabezada por Kurzweil y los dirigentes de la Federación Nacional de Ciegos. Llama la máquina lectora de Kurzweil, el dispositivo cubierto una mesa entera. En el día de la inauguración de la máquina, Walter Cronkite utiliza la máquina para dar su Soundoff la firma, "Y esa es la forma en que fue, 13 de enero de 1976." Mientras se escucha a The Today Show, el músico Stevie Wonder oyó una demostración del dispositivo y personalmente compró la primera versión de producción de la máquina lectora Kurzweil.
En 1978, Kurzweil Computer Products comenzó a vender una versión comercial del programa informático de reconocimiento óptico de caracteres. LexisNexis fue uno de los primeros clientes, y compró el programa para cargar los documentos en papel legal y de las noticias en sus bases de datos en línea naciente. Dos años más tarde, Kurzweil vendió su empresa a Xerox, que tenía un interés en la comercialización de papel adicional de la conversión de texto a ordenador. Kurzweil Computer Products se convirtió en una filial de Xerox conocido como Scansoft, ahora Nuance Communications. Estado actual de la tecnología OCR Libro de preguntas-new.svg En esta sección hay referencias adicionales para su verificación. Por favor, ayudar a mejorar este artículo añadiendo referencias fiables. Material de referencias puede ser impugnado y eliminado. (Mayo 2009)
El reconocimiento preciso de grafía latina, texto escrito a máquina se considera en gran medida un problema resuelto en aplicaciones en las que se dispone de imágenes claras como el escaneado de documentos impresos. Las tasas de precisión típica de estos exceda del 99% [cita requerida]; exactitud total sólo puede lograrse mediante la revisión humana. Otras áreas, incluyendo el reconocimiento de la imprenta manual, letra cursiva, y el texto impreso en otras secuencias de comandos (especialmente aquellos con un gran número de caracteres) siguen siendo objeto de investigación activa.
Tasas de precisión se puede medir de varias maneras, y cómo se mide en gran medida puede afectar a la tasa de precisión informado. Por ejemplo, si el contexto la palabra (básicamente un léxico de palabras) no se utiliza para corregir software de búsqueda de palabras no existe, una tasa de errores de caracteres de un 1% (con una precisión del 99%) puede resultar en una tasa de error del 5% (95% de precisión ) o, peor aún, si la medición se basa en que cada palabra completa fue reconocido con las letras incorrectas.
On-line de reconocimiento de caracteres a veces se confunde con reconocimiento óptico de caracteres (véase el reconocimiento de escritura a mano). OCR es una instancia de reconocimiento de caracteres fuera de línea, donde el sistema reconoce la forma estática de carácter fijo, mientras que en la línea de reconocimiento de caracteres en lugar reconoce el movimiento dinámico durante la escritura. Por ejemplo, el reconocimiento de línea, como la utilizada por los gestos en el sistema operativo Penpoint o el Tablet PC puede decir si una marca horizontal se ha elaborado de derecha a izquierda o de izquierda a derecha. -El reconocimiento de caracteres de línea también se conoce por otros términos como el reconocimiento de carácter dinámico, real, reconocimiento de caracteres de tiempo, y el reconocimiento inteligente de caracteres o ICR.
Los sistemas en línea para reconocer a mano el texto impreso sobre la marcha se han convertido en conocidos como productos comerciales en los últimos años (véase la historia de Tablet PC). Entre ellos se encuentran los dispositivos de entrada para los asistentes digitales personales tales como los que se ejecute Palm OS. El Newton de Apple fue pionera en este producto. Los algoritmos utilizados en estos dispositivos aprovechan el hecho de que se sabe el orden, la velocidad y dirección de cada uno de los segmentos de líneas en la entrada. Además, el usuario puede recibir formación para utilizar sólo las formas letra específica. Estos métodos no pueden ser utilizados en el software que escanea los documentos en papel, el reconocimiento de manera precisa de los documentos impresos a mano es todavía un problema abierto. Una precisión de 80% a 90% en la mano limpia y ordenada caracteres impresos pueden ser obtenidos, pero que todavía la tasa de precisión se traduce en decenas de errores por página, haciendo que la tecnología útil sólo en aplicaciones muy limitadas.
Reconocimiento de texto en cursiva es un área activa de investigación, con tasas de reconocimiento, incluso más baja que la de la mano-el texto impreso. Las mayores tasas de reconocimiento de escritura cursiva general no serán posibles sin el uso de la información contextual o gramaticales. Por ejemplo, reconocer palabras completas de un diccionario es más fácil que tratar de analizar los caracteres individuales de secuencia de comandos. Lectura de la línea de la cantidad de un cheque (que es siempre un escrito con número) es un ejemplo en el uso de un pequeño diccionario puede aumentar las tasas de reconocimiento en gran medida. El conocimiento de la gramática de la lengua está explorando también puede ayudar a determinar si una palabra es probable que sea un verbo o un sustantivo, por ejemplo, permitiendo una mayor precisión. Las formas de los distintos caracteres cursivos mismos simplemente no contienen suficiente información con precisión (más de 98) reconocer todos los cursiva manuscrita.
Es necesario comprender que la tecnología de OCR es una tecnología de base también se utiliza en aplicaciones avanzadas de escaneo. Debido a esto, una solución de exploración avanzada puede ser única y patentada, y no fácilmente copiados a pesar de estar basado en esta tecnología OCR de base.
Para obtener más problemas de reconocimiento de complejos sistemas de reconocimiento inteligente de caracteres se utilizan generalmente, como las redes neuronales artificiales puede hacerse indiferente a ambos afín y las transformaciones no lineales
Una técnica que está teniendo un éxito considerable en el reconocimiento de palabras difíciles y los grupos en los documentos de carácter general, susceptible de equipo OCR es presentar de forma automática a los seres humanos en el sistema reCAPTCHA.