ECE 695E Análisis de datos, diseño de experimentos, ML Conferencia 13
Resumen El algoritmo del patrón binario local (LBP) y sus variantes se han utilizado ampliamente para analizar las características texturales locales de las imágenes digitales con gran éxito. Se han sugerido numerosas extensiones de los descriptores LBP, centradas en mejorar su robustez frente al ruido y los cambios en las condiciones de la imagen. En nuestra investigación, inspirada en los conceptos de descriptores de características LBP y un subespacio de muestreo aleatorio, proponemos un marco de aprendizaje de conjunto, utilizando una variante de LBP construida a partir de coeficientes de Pascal de orden n y denominada patrón binario local multiescala. Para abordar el problema de sobreajuste inherente al análisis discriminante lineal, se aplicó el ACP a las muestras de entrenamiento. Se utilizó un muestreo aleatorio para generar múltiples subconjuntos de características. Además, en este trabajo, proponemos una nueva técnica de extracción de características que combina el histograma piramidal de gradientes orientados y el LBP, donde las características se concatenan para su uso en la clasificación. Su rendimiento en el reconocimiento se evaluó utilizando la base de datos de la Universidad Politécnica de Hong Kong. Los amplios experimentos realizados demuestran inequívocamente la superioridad del enfoque propuesto en comparación con las técnicas más avanzadas.
Extracción de coeficientes cepstrales de frecuencia mel con Python
La presente invención proporciona un método y un sistema para determinar coeficientes de reconocimiento de voz fiables en un entorno ruidoso, que pueden aumentar la tasa de reconocimiento en un entorno ruidoso, como el de un coche. La presente invención utiliza la característica de que la mayor parte de la energía del ruido en el coche se concentra en la banda de baja frecuencia. Por lo tanto, la señal de voz de entrada se filtra para eliminar la señal en el rango de frecuencias en el que se concentra la energía del ruido. A continuación, se calcula el contorno de energía de la señal de voz para determinar los coeficientes de reconocimiento de voz relacionados. En consecuencia, la influencia causada por el ruido puede reducirse, y la tasa de reconocimiento del discurso ruidoso puede mejorarse.
La presente invención se refiere al campo técnico del reconocimiento del habla y, más particularmente, a un sistema y un método para obtener coeficientes de reconocimiento del habla fiables en un entorno ruidoso.
Debido al progreso de la tecnología de reconocimiento del habla, el uso del reconocimiento del habla para controlar varias máquinas ha hecho nuestra vida más conveniente. Por ejemplo, en un entorno de oficina, es posible realizar correctamente la introducción de datos, el reconocimiento de la identidad, el control del ordenador, etc., mediante el reconocimiento del habla. Sin embargo, en un entorno ruidoso, como en un coche, la precisión del reconocimiento se degrada seriamente cuando el ruido entra en el sistema de reconocimiento. Como resultado, el efecto de la aplicación de reconocimiento de voz no es satisfactorio.
Clase 3 | Funciones de pérdida y optimización
ScientificWorldJournal. 2013; 2013: 135614. Publicado en línea el 25 de diciembre de 2013. doi: 10.1155/2013/135614PMCID: PMC3886245PMID: 24453791Diseño de un algoritmo eficiente en tiempo real utilizando una dimensión reducida de características para el reconocimiento de señales de límite de velocidadHanmin Cho,
Se requiere encontrar el eje w que maximice la relación entre la distancia entre m~1 y m~2 y la suma de la dispersión dentro de la clase. Esta relación puede representarse como (2), donde s~12, s~22 son dispersiones dentro de la clase de los datos proyectados en la clase 1 y la clase 2, respectivamente:
El término w de (7) se vuelve singular cuando el número de muestras es mucho menor que la dimensión de las características, como puede observarse en muchas aplicaciones prácticas de clasificación, lo que se denomina problema de tamaño de muestra pequeño [6]. Además, la alta dimensión de las características hace que el LDA sea difícil de aplicar directamente a la clasificación debido a su complejidad computacional. Para resolver el problema, se propuso un método que aplica el Análisis de Componentes Principales (PCA) antes del LDA [7, 8]. El propósito del PCA es reducir la dimensionalidad preservando la información de la varianza tanto como sea posible. Sin embargo, es subóptimo debido a que ignora la información de clase asociada a los patrones [9]. También se propuso el método LDA directo (DLDA) [10-12]. Procesa directamente los datos en los vectores originales de alta dimensión. El rendimiento del algoritmo DLDA depende en gran medida del esquema de control que determina el número de características [13].En este trabajo, se propone un método que puede reducir la dimensión de las características de manera efectiva sin aumentar la complejidad computacional para el algoritmo en tiempo real para la clasificación de las señales de límite de velocidad.3. Algoritmo propuestoComo el número de operaciones en el proceso de clasificación es proporcional al número de entradas de datos, es deseable eliminar las entradas menos significativas para la clasificación [14]. Utilizando los coeficientes DCT en lugar de las características extraídas de una imagen ROI, se envían muchas menos entradas al proceso de clasificación.
Regresión lineal en Python | Algoritmos de aprendizaje automático
En un sistema de reconocimiento automático del habla, un extractor de características extrae características de una señal de habla, y el habla es reconocida por el sistema de reconocimiento automático del habla basado en las características extraídas. La reducción de ruido como parte del extractor de rasgos se realiza mediante la mejora de rasgos, en la que la reducción de ruido en el dominio de los rasgos en forma de cepstra de frecuencias Mel se realiza basándose en el criterio de error cuadrático medio mínimo. En concreto, el método ideado tiene en cuenta la fase aleatoria entre el habla limpia y el ruido de mezcla. La reducción del ruido en el dominio de las características se realiza de forma dimensional en las dimensiones individuales de los vectores de características que se introducen en el sistema de reconocimiento automático del habla, con el fin de realizar un reconocimiento del habla robusto en el entorno.
un componente de transformación de tiempo a frecuencia configurado para recibir una trama en el dominio del tiempo de una señal de voz y transformarla en el dominio de la frecuencia; un componente de filtrado de frecuencia configurado para filtrar componentes de frecuencia de la trama transformada y proporcionar un vector n-dimensional de n coeficientes indicativos de la potencia en n bandas de frecuencia no filtradas de la trama transformada, uno de los coeficientes indica la potencia en cada banda de frecuencia no filtrada; un componente de estimación de ganancia configurado para estimar una ganancia para cada dimensión individual del vector n-dimensional y para ajustar el coeficiente para cada una de las n dimensiones basado en la ganancia estimada para cada una de las n dimensiones para obtener n coeficientes ajustados; y un componente de salida configurado para dar salida a un vector de características que incluye los n coeficientes ajustados para su uso por un decodificador en el sistema de reconocimiento de voz.