ıllı Portal de Psicología y NeuroCiencias

Portal wikinfo sobre psicología y neurociencias.

 !Selecciona tu Idioma!

Enciclopedia/Diccionario de Psicología y Neurociencias:

ıllı Reconocimiento de palabras clave wiki: info, libros pdf y vídeos

psicologia y neurociencias

salud  Reconocimiento de palabras clave 


wikiEjemplo de un sistema de reconocimiento de palabras clave. En la imagen superior vemos un fichero de voz con la próxima alocución grabada:Ejemplo práctico de un sistema de reconocimiento de palabras clave. En la imagen inferior, el sistema reconoce la palabra clave sistema.

El reconocimiento de palabras clave, conocido como Wordspotting, es parte de la inteligencia artificial consistente en identificar palabras concretas en una alocución. Es un algoritmo basado en la busca de palabras clave en ficheros de audio, por poner un ejemplo llamadas telefónicas, donde encuentra y también indexa contenido de audio ganando un ahorro esencial de tiempo frente a la busca manual. El sistema wordspotting se distingue entre el reconocimiento de palabras apartadas y el reconocimiento de habla continua, esto es, las palabras son reconocidas en un flujo progresivo de fonemas.


En el año mil ochocientos setenta, Alexander Graham Bell deseó desarrollar un dispositivo capaz de suministrar un habla perceptible para la gente con inconvenientes auditivos. El fruto de esta idea fue creado el teléfono. Después, en mil novecientos treinta, el científico Tihama Nemes deseó patentar el desarrollo de una máquina de transcripción automática de voz. Fue rechazada por considerarse un proyecto poco realista. 6 años después, en Bell Laboratories crearon el primer analizador y sintetizador de voz, Vocoder y Voder respectivamente.


No es hasta el año mil novecientos cincuenta y dos, donde estudiosos de Bell Laboratories desarrollarían el primer sistema de reconocimiento de voz con dependencia del locutor capaz de reconocer dígitos de 0 a nueve basándose en las peculiaridades del fantasma de cada número. Los ensayos dieron una precisión del noventa y ocho por ciento . Después, en concreto, en mil novecientos cincuenta y nueve fue creado un sistema capaz de reconocer 4 vocales y 9 consonantes.

Arquitectura de un modelo HMM progresivo para el habla

En la década de los 60's, los estudiosos empezaron a desarrollar aplicaciones con vocabularios cortos (no más de cincuenta palabras), dependientes del locutor y con palabras de flujo reservado, esto es, con pausas entre palabras.


Hacia los años 70's, muchos estudiosos procurarán prosperar los sistemas existentes. Además de esto, DARPA (Defense Advanced Research Projects Agency) se interesa por esta tecnología, y empieza sus investigaciones propias, enfocadas al habla continua y usando vocabularios más extensos. Nacen técnicas como "DTW (Dynamic Time Warping )", "Modelo de probabilidad (Modelo escondo de Markov, HMM)" y "Algoritmo de Retropropagación (Algoritmo backpropagation)".


Durante los años 80's, los sistemas comienzan a agregar módulos de análisis léxico, sintáctico, semántico y pragmático con el objetivo de comprender el habla. Se trabaja con léxico más extenso, hasta llegar prácticamente a las veinte palabras. Después, avances en tecnología van a ser los predecesores de un giro en las investigaciones, van a pasar de métodos basados en reconocimiento de patrones a métodos basados en modelos de probabilidad, como el Modelo escondo de Markov (HMM). Métodos desarrollados, en los años 70's, para solventar los inconvenientes de habla continua.


Finalmente, en los años 90's, se sigue trabajando con vocabularios poco a poco más extensos, los costos reducen y las aplicaciones independientes del locutor y flujo progresivo comienzan a ser más habituales. Hoy en día, las compañías de telefonía son los primordiales clientes del servicio de estas tecnologías.


El objetivo principal de un sistema de reconocimiento de palabras clave o bien Wordspotting es solventar el inconveniente debido a las palabras fuera de léxico (Out Of Vocabulary, OOV), como nombres propios, extranjerismos, acrónimos, etc, términos que no se hallan en el léxico de los sistemas de habla continua. Por esta razón, la técnica Wordspotting busca un acceso eficaz a la información.


Estos sistemas se pueden clasificar en 3 tipos diferentes: los basados en reconocedores de habla continua de gran léxico (LVCSR), basados en modelos de relleno, y finalmente basados en reconocedores de subunidades de palabra. Los 3, trabajan con sistema Wordspotting, y se distinguen por la forma de acceder a la información.


Basados en reconocedores de habla continua de gran léxico (LVCSR)


También conocido con el nombre LVCRS (Large Vocabulary continuos Speech Recognition). Este sistema marcha realmente bien caso de que todas y cada una de las palabras a reconocer formen una parte del léxico del sistema, cosa que no siempre y en todo momento sucede. Si la palabra a buscar no se ha usado en la indexación no se puede hallar, esto desea decir que la palabra se considera fuera de léxico (OOV).



  • Ventajas:Proporcionan información de utilidad para la presentación de contenidos de audio sin precisar reproducirlo.Búsquedas veloces con visualización y navegación de los contenidos.

Los rasgos más representativos, caracterizado por tener un reconocimiento del habla natural y un extenso léxico. Incluye funciones de extracción, transcripciones automáticas del habla, modelado del lenguaje y comprensión del habla.

Diagrama de bloques de un sistema LVCSR

Basados en modelos de relleno


Para comprender estos sistemas, antes de nada, hay que saber que en los procesos de decodificación plantean la secuencia más probable de palabras existentes en el audio. De este modo, hay que tener en consideración las palabras clave y cualquier otro género de sonido que pueda aparecer en el fichero. Por esta razón, los modelos de relleno son usados para atestar los intervalos de habla con ausencia de palabras clave.


Las palabras clave así como los modelos de relleno entran en el módulo donde se fija una medida de confianza. Esta medida se emplea para advertir fallos de reconocimiento, conceptos semánticos incorrectas y palabras fuera del léxico, de tal forma son rechazados del sistema. Con las medidas de confianza se logra acrecentar el desempeño del sistema.Con este procedimiento, solo se procura reconocer unas palabras determinadas, el resto de audio se asigna a modelos de relleno.



  • Ventajas:Técnica más precisa y menos costosa que la anteriorPuede trabajar a nivel de fonemas, grafemas, sílabas, clases fonéticas (oclusivas, nasales, fricativas, etcétera y palabras.


  • Inconvenientes:Trabaja con un conjunto predefinido de palabras clave, si se busca una palabra fuera de léxico (OOV) es preciso rehacer la indexación.Sistema limitado para aplicaciones tipo call-center, consulta de recorridos, administración de reservas.
Diagrama de bloques de un sistema basado en modelos de relleno

Basados en reconocedores de subunidades de palabra


Los sistemas basados en reconocedores de subunidades de palabra tienen como objetivo solventar el primordial inconveniente que presentan las técnicas Wordspotting. Por esta razón se desarrollaron los sistemas "Spoken Term Detection (STD)", mecanismos útiles para extraer información de contenidos audiovisuales.


El funcionamiento de este se estructura en 2 partes: una primera, donde se efectúa el proceso de reconocimiento de voz (basados en modelos fonéticos) y, una segunda, donde se hace la busca de los términos. En la primera parte, el sistema trabaja en subunidades de palabra que no cambian con el idioma. Este proceso produce un índice, hace la función de puntero. En la segunda parte, con el detector de palabras clave y las medidas de confianza (basado en "lattices"), el sistema al salir extrae el listado de las palabras pedidas.



  • Ventajas:La busca es considerablemente más veloz que los 2 casos anterioresNo tiene inconvenientes de palabras fuera de léxico (OOV). Se puede buscar cualquier clase de palabra, en tanto que hace una busca de secuencias de fonemas.Utilizado para sistemas de reconocimiento de idioma.


  • Inconvenientes:Es menos precisa que los sistemas precedentes, si bien si se combina con otros sistemas es mejorable. Por servirnos de un ejemplo los reconocedores de habla continua de gran léxico (LVCSR).
Diagrama de bloques de un sistema basado en subunidades de palabra

Otros sistemas

Arquitectura básica de una red neuronal con 4 nodos de entrada y un nodo de salida

Basados en redes neuronales (Artificial Neural Networks, ANN)


Las redes neuronales se complementan con otros métodos, formando sistemas híbridos. Así se resuelven inconvenientes específicos derivados por otros sistemas, merced a su sencillez y eficiencia.


Una red neuronal aplicada a cualquier sistema de reconocimiento se fundamenta sencillamente en modelos matemáticos calculados con lenguajes de programación. Las neuronas son definidas desde un conjunto de entradas y salidas conectadas entre ellas, creando una estructura capaz de guardar información. De esta forma, creamos una estructura neuronal, capaz de administrar autonomía de aprendizaje, alto desempeño, velocidad y potencia. Podemos localizar diferentes géneros de algoritmos de aprendizaje: supervisado por corrección de fallo, auto-organizado, híbridos y reforzados.


Estos sistemas son usados en diferentes medios, desde compañías de telefonía hasta seguridad y defensa. Uno de los medios donde más desempeño han sacado de esta tecnología ha sido en la telefonía, así sea por razones útil, disponibilidad o bien costo. Ejemplos como, call-center, asistencia en llamadas (operadores automáticos), caracterización de llamadas, etcétera Asimismo hallamos aplicaciones para servicios financieros, consultas de información (tiempo, tráfico, recorridos ...), cross-selling, administración de reservas, etc.


Otras aplicaciones de acceso a información de grabaciones multimedia, indexación de audio en función de marcas, generación de avisos en tiempo real, procesado de asambleas, análisis de calidad de operadores, robótica ...


Los sistemas basados en reconocedores de habla continua de gran léxico ofrecen un perfecto desempeño siempre que la consulta del usuario esté en el diccionario del sistema. Una forma de solventar los OOV es emplear la busca por fonética (sistemas basados en subunidades de palabras). De este modo, la combinación de sistemas LVCS y sistemas de subunidades de palabra se transforma en un sistema robusto para aplicaciones de extracción de información en contenidos audiovisuales.


mas informacion


  ELIGE TU TEMA DE INTERÉS: 


wiki

  PSICOLOGIA (Wikinfo) 

wiki   BUSCADOR PSICOLOGIA    

 

USUARIOS:

Hay 80 invitados y ningún miembro en línea

psicologia y neurociencias

psicologia y neurociencias

 psicologia y neurociencias

Está aquí: Inicio > [ PSICOLOGIA (WIKINFO) ] > ıllı Reconocimiento de palabras clave wiki: info, libros pdf y vídeos

Las cookies nos permiten ofrecer nuestros servicios. Al utilizar nuestros servicios, aceptas el uso que hacemos de las cookies. Ver políticas