En el mundo actual de la tecnología, estamos constantemente buscando formas de simplificar y mejorar nuestras vidas. Una de las áreas en las que esto se vuelve especialmente importante es la reproducción de música. ¿Te imaginas poder controlar tu reproductor de música solo con tu voz? ¡Pues esto ya es una realidad gracias al sistema de reproductor de música asistido por voz basado en API! En este artículo, te mostraremos cómo esta tecnología revolucionaria está cambiando la forma en que interactuamos con nuestros dispositivos musicales y cómo puedes aprovecharla al máximo. ¡Prepárate para descubrir un mundo de posibilidades con solo decir «Reproducir mi canción favorita»!
Siddhant Singh (de JSSATE Bangalore) envió un proyecto final sobre un “sistema de reproductor de música asistido por voz basado en API” a extrudesign.com.
Abstracto
La forma más común de comunicación humana es el lenguaje. Es muy importante para fines de comunicación. La tecnología de reconocimiento de voz está mejorando y se utiliza cada vez más, lo que permite nuevas aplicaciones controladas por voz. La interfaz persona-computadora se refiere a la comunicación entre humanos y computadoras. Los sistemas de reconocimiento de voz pueden ser un sustituto muy eficaz de los sistemas existentes en los que el funcionamiento manual de un reproductor de música resulta engorroso para las personas mayores o con discapacidad física. La capacidad de comunicarse es una de las características más esenciales del comportamiento humano. Los humanos utilizamos los lenguajes naturales para comunicarnos (hablar y escribir). El texto representa el formato escrito de la comunicación humana, mientras que el habla se refiere a la forma vocal de la comunicación humana.
Nuestro objetivo es integrar esta tecnología tan útil en el sistema de entretenimiento doméstico, que será útil para niños, ancianos y amas de casa con fines de entretenimiento. Pueden escuchar su música favorita sólo con la voz ordenando o diciendo “reproducir”, “pausar”, “avanzar”, “retroceder”, “detener”, etc.
Palabras clave: Reconocimiento, vocalización, comportamiento, reproductor de música asistido por voz.
introducción
“Musify” fue diseñado para abordar las deficiencias del sistema manual de práctica tradicional. Este software tiene como objetivo eliminar o, en determinadas circunstancias, mitigar las dificultades que actualmente enfrenta este sistema. Además, este sistema está diseñado para manejar procesos sin problemas y de manera eficiente, al mismo tiempo que brinda una experiencia de usuario perfecta.
Para evitar errores en la entrada de datos, la aplicación se ha reducido al máximo. El usuario no necesita ningún conocimiento formal para utilizar este sistema. Esto demuestra que es fácil de usar. Como se mencionó anteriormente, Musify puede resultar en una aplicación de música rápida, segura, confiable y libre de errores. Podría ayudar al usuario a concentrarse en sus otras tareas en lugar de realizar un seguimiento de sus registros. La empresa podrá maximizar sus recursos para este fin. Tiene una interfaz muy atractiva con numerosas funciones como listas de reproducción personalizadas, historial musical y reproducción asistida por voz, que es el punto de venta único del proyecto.
El objetivo de Musify es utilizar software informático completo y mecanizado para automatizar el sistema manual existente y satisfacer sus necesidades de modo que sus datos/información importantes puedan almacenarse durante períodos de tiempo más largos con fácil acceso y manipulación. El software y hardware necesarios están disponibles y son fáciles de usar.
Sistema de reproductor de música existente
Por favor habilite JavaScript
El enfoque actual sugiere almacenar música fuera de línea o pagar por un servicio costoso para escuchar su música favorita. No existe una sola aplicación de código abierto que no tenga publicidad y tenga todas sus funciones. Mantener y actualizar los registros de una biblioteca musical es una tarea que requiere mucho tiempo y que puede automatizarse por completo.
Sistema de reproductor de música asistido por voz propuesto
El objetivo de Musify es utilizar dispositivos computarizados y software completo para automatizar el sistema manual existente y satisfacer sus necesidades de modo que sus datos/información importantes puedan almacenarse durante un período de tiempo más largo con fácil acceso y manipulación. El software y hardware necesarios están disponibles y son fáciles de usar.
A continuación se detallan las principales características del proyecto:
- Crea tus propias listas de reproducción
- Realizar un seguimiento y gestionar registros es fácil.
- La historia de la música
- Reproducción con soporte de voz
- Atractivo y fácil de usar
metodología
El reconocimiento de voz utiliza algoritmos sofisticados para convertir el habla humana en texto o una señal de control. Muchos sistemas de autenticación biométrica y sistemas de automatización controlados por voz se basan en el reconocimiento de voz. El reconocimiento de voz es difícil debido a diferencias en los dispositivos de grabación, los parlantes, las circunstancias y los entornos.
Sistema automatizado de reconocimiento de voz
La voz en cualquier lenguaje natural se introduce en un sistema ASR o Speech-to-Text (STT). Los dos componentes básicos de un sistema STT son el procesamiento del lenguaje y la generación de texto. Mientras que el sistema de procesamiento del habla es responsable de extraer diversas características del habla y generar una secuencia correspondiente de unidades fonémicas a partir del habla de entrada, el componente de generación de texto, también llamado reconocedor de voz, es responsable de generar el texto de salida para los segmentos de palabras reconocidos.
La interfaz DSP (procesamiento de señal digital) frontal y la interfaz NLP (procesamiento del lenguaje natural) back-end forman un sistema ASR típico (o «motor»). La interfaz extrae ciertos aspectos de la voz de entrada con fines de capacitación o prueba. El reconocedor o backend traduce las características extraídas a la representación lingüística simbólica o al texto correspondiente utilizando el modelo de lenguaje desarrollado durante la fase de extracción de características a partir de un conjunto de datos de entrenamiento.
implementación
Esta sección explica la API Web Speech. Tanto el análisis como la síntesis de voz están cubiertos por Web Speech API. En otras palabras, puedes usarlo para convertir voz en texto y viceversa. La API está escrita íntegramente en JavaScript, uno de los lenguajes de programación del lado del cliente más populares en Internet.
La API Web Speech está basada en eventos, lo que encaja bien con el enfoque de programación de devolución de llamadas de JavaScript. Toda la comunicación con un servicio de reconocimiento de voz basado en web es manejada por el agente de usuario, que a su vez procesa las llamadas API. Por supuesto, para que esto funcione, el agente de usuario debe implementar la API. La arquitectura basada en eventos permite que los programas procesen el lenguaje de forma asincrónica. Los eventos también se pueden utilizar para transmitir resultados intermedios de reconocimiento de voz, lo cual resulta útil porque permite que las aplicaciones proporcionen comentarios casi instantáneos a los usuarios. El reconocimiento de voz se puede pausar en cualquier momento, lo cual es útil ya que ahorra tiempo al desarrollador web en los métodos del controlador de eventos.
Los resultados intermedios o finales de la detección se presentan como una lista de conjuntos candidatos, cada uno con su propia puntuación de confianza. La transcripción que tiene más probabilidades de ser correcta aparece primero. La API distingue entre las partes preliminares de la transcripción y las partes finales. Esto sigue siendo útil al considerar los hallazgos provisionales en el reconocimiento de voz.
Soporte del navegador
Google Chrome, Mozilla Firefox, Microsoft Internet Explorer, Safari y Opera son los navegadores más utilizados actualmente [2]. Sin embargo, la API Web Speech solo se admite de forma experimental en Google Chrome (versión 25+). El W3C no reconoce la API Web Speech como estándar. Los símbolos en la implementación están predeterminados por el fabricante al momento de escribir este artículo debido a la naturaleza experimental, y el código que usa Speech API en Chromium actualmente se ve así:
var rec = nuevo webkitSpeechRecognition();
detección.onresult = función (evento) {
//…
};
detección.start();
//…
Resultados y discusión
Muchas de las oraciones son difíciles de entender para el reconocedor de voz. Las frases son difíciles de entender, al menos para el oído humano. Tienen un tono inusual y pueden resultar difíciles de entender para hablantes no nativos de inglés. De alguna manera, esta investigación no aborda cómo se relaciona esto con el nivel de dificultad para la comprensión de las máquinas.
Los resultados son más claros a nivel de palabra que a nivel de oración. De un total de 11.540 palabras habladas, el reconocedor de voz reconoce con éxito 8.540. Esto significa que el 74% de todas las palabras habladas se reconocen correctamente. La precisión de las palabras tiene en cuenta las inserciones, a diferencia del porcentaje de palabras correctas. Sin embargo, sólo el número de inserciones es pequeño y la precisión general de las palabras del 73% es aproximadamente la misma que el porcentaje de palabras reconocidas correctamente. Los hombres (74%) y las mujeres (74%) tienen niveles similares de precisión de las palabras (72%). También en este caso los dos únicos niños obtuvieron puntuaciones más altas (83%).
La transcripción obtenida de la entrada de voz se segmenta en nuestra aplicación web. Obtenemos la acción a realizar y el objeto que debe coincidir en el backend después del corte, por ejemplo, cuando el usuario dice «Reproducir». [song name]“Está dividido en dos partes, la primera es la acción a realizar, en este caso tocar, y la segunda es el nombre de la canción. En varias pruebas se demostró que la fiabilidad alcanzada era de aproximadamente el 75%.
Diploma
Creemos que la buena música debe ser accesible para todos y que un reproductor de música completo y rico en funciones es la mejor manera de lograrlo. Muchos consumidores se beneficiarán de nuestros esfuerzos y podrán escuchar su música favorita con todas las funciones sin costo adicional. El punto de venta único de nuestro proyecto es la reproducción y navegación controladas por voz, que permite a los usuarios escuchar su música favorita de forma más fluida y sin esfuerzo.
Referencias
- K. Govardhanaraj y D. Nagaraj, “Reproductor de música inteligente con ARM7”, Conferencia Global sobre Tecnologías de la Comunicación (GCCT) de 2015, Thuckalay, India, 2015, págs. 323-326, doi: 10.1109/GCCT.2015.7342676.
- A. Nilakhe y S. Shelke, «Un diseño para un sistema inalámbrico de control de música con reconocimiento de voz», Conferencia de 2016 sobre avances en el procesamiento de señales (CASP), Pune, India, 2016, págs. 337-339, doi: 10.1109/CASP . 2016.7746191.
- SP Panda, “Sistema automatizado de reconocimiento de voz para el avance de la interacción persona-computadora”, Conferencia internacional de 2017 sobre metodologías informáticas y comunicación (ICCMC), Erode, India, 2017, págs. 302-306, doi: 10.1109/ICCMC.2017.8282696.
- B. Jolad y R. Khanai, “An Art of Speech Recognition: A Review”, 2.ª Conferencia Internacional sobre Procesamiento de Señales y Comunicaciones (ICSPC) 2019, Coimbatore, India, 2019, págs. 31-35, doi: 10.1109/ICSPC46172. 2019.8976733.
Expresiones de gratitud
Los autores agradecen además al Sr. Sharana Basavana Gowda, profesor asistente del Departamento de Ingeniería y Ciencias de la Computación de la Academia JSS de Educación Técnica de Bangalore, por sus útiles debates y sugerencias durante la preparación de este documento técnico.
Créditos: Este proyecto “Sistema de reproductor de música asistido por voz basado en API” lo completan Siddhant Singh, Shubham Sahu, Gaurav Kumar y Arpit Dutta del Departamento de Ingeniería y Ciencias de la Computación, JSSATE, Bengaluru, INDIA.
Un proyecto de último año sobre «Sistema de Reproductor de Música Asistido por Voz Basado en API» presentado por Siddhant Singh a extrudesign.com
Resumen
El modo más frecuente de comunicación humana es el habla. Es muy importante para fines de comunicación. La tecnología de reconocimiento de voz está mejorando y se está utilizando cada vez más, lo que permite aplicaciones novedosas impulsadas por voz. La interfaz humano-computadora se refiere a la comunicación entre humanos y computadoras. Los sistemas de reconocimiento de voz pueden ser reemplazos muy eficaces para los sistemas existentes donde manipular manualmente un reproductor de música es incómodo para personas mayores o con discapacidades físicas. La capacidad de comunicarse es una de las características más esenciales del comportamiento humano. Las lenguas naturales son utilizadas por los humanos para comunicarse (hablar y escribir). El texto representa el formato escrito de la comunicación humana, mientras que el habla se refiere a la forma vocalizada de la comunicación humana.
Nuestro objetivo es llevar esta tecnología muy útil al sistema de entretenimiento en el hogar, lo que será útil para niños, personas mayores y amas de casa con fines de entretenimiento. Podrán escuchar su música favorita solo con su voz, dando comandos como reproducir, pausar, avanzar, retroceder, detener, entre otros.
Palabras clave: reconocimiento, vocalizado, comportamiento, Reproductor de música asistido por voz.
Introducción
«Musify» fue creado para superar los defectos del sistema manual de práctica tradicional. Este software está diseñado para eliminar o, en algunas circunstancias, mitigar las dificultades que enfrenta este sistema en la actualidad. Además, este sistema está desarrollado para ejecutar procesos de manera fluida y eficiente, al mismo tiempo que proporciona una experiencia de usuario sin problemas.
Para eliminar errores de entrada de datos, se ha simplificado la aplicación tanto como sea posible. El usuario no requiere ningún conocimiento formal para utilizar este sistema. Como resultado, se demuestra que es fácil de usar. Como se mencionó anteriormente, Musify puede generar una aplicación de música segura, sin errores, confiable y rápida. Esto puede ayudar al usuario a concentrarse en otras tareas en lugar de estar pendiente de sus registros. La empresa podrá aprovechar al máximo sus recursos con este propósito. Además, tiene una interfaz de usuario muy atractiva con muchas características como listas de reproducción personalizadas, historial de música y reproducción asistida por voz, que es el punto único de venta del proyecto.
El objetivo de Musify es utilizar equipos y software informático automatizado y completo para automatizar el sistema manual existente, satisfaciendo sus necesidades de manera que se pueda almacenar su información vital durante períodos prolongados de tiempo con fácil acceso y manipulación. El software y hardware necesarios están fácilmente disponibles y son fáciles de usar.
Sistema de Reproductor de Música Existente
El enfoque actual sugiere ya sea guardar música sin conexión o pagar por un costoso servicio para escuchar música favorita. No existe una aplicación de código abierto que no tenga soporte publicitario y tenga todas las funcionalidades. El mantenimiento y la actualización de los registros de una biblioteca de música es una tarea que consume mucho tiempo y que puede ser totalmente automatizada.
Sistema de Reproductor de Música Asistido por Voz Propuesto
El objetivo de Musify es utilizar equipos y software informático automatizado y completo para automatizar el sistema manual existente, satisfaciendo sus necesidades de manera que su información vital pueda almacenarse durante más tiempo con fácil acceso y manipulación. El software y hardware necesarios están fácilmente disponibles y son fáciles de usar.
Las principales características del proyecto son las siguientes:
– Crear tus propias listas de reproducción
– Mantener el seguimiento y registro de forma sencilla
– Historial de reproducción de música
– Reproducción con asistencia de voz
– Atractivo y fácil de usar
Metodología
El reconocimiento de voz es el proceso de utilizar algoritmos sofisticados para convertir el habla humana en texto o una señal de control. Muchos sistemas de autenticación biométrica y sistemas de automatización controlados por voz dependen del reconocimiento de voz. Debido a las diferencias en los dispositivos de grabación, los hablantes, las circunstancias y el entorno, el reconocimiento de voz es difícil.
Sistema de reconocimiento de voz automatizado
El habla en cualquier idioma natural se introduce en un sistema ASR o de texto a voz (STT). Dos componentes básicos de un sistema STT son el procesamiento de voz y la generación de texto. Mientras que el sistema de procesamiento de voz se encarga de extraer diferentes características del habla y producir una secuencia adecuada de unidades fonémicas a partir del habla de entrada, el componente de generación de texto, también conocido como reconocedor de voz, se encarga de generar el texto de salida para los segmentos de palabras reconocidas.
La interfaz DSP (Procesamiento de Señales Digitales) frontal y la interfaz NLP (Procesamiento de Lenguaje Natural) trasera conforman un sistema ASR (o «motor»). La parte frontal extrae aspectos distintos de la voz de entrada con fines de entrenamiento o prueba. El reconocedor, o parte trasera, traduce las características extraídas a la representación simbólica lingüística adecuada o texto, utilizando el modelo de lenguaje desarrollado durante la fase de extracción de características en un conjunto de datos de entrenamiento.
Implementación
En esta sección se discute la API de Reconocimiento de Voz en la Web. La API de Reconocimiento de Voz en la Web cubre tanto el análisis de voz como la síntesis de voz. En otras palabras, permite convertir el habla en texto y viceversa. La API está escrita completamente en JavaScript, que es uno de los lenguajes de secuencias de comandos del lado del cliente más populares en la web hoy en día.
La API de Reconocimiento de Voz en la Web está basada en eventos, lo cual encaja muy bien con el enfoque de programación de JavaScript que utiliza muchas devoluciones de llamada. Las llamadas a la API son manejadas por el agente de usuario, que a su vez maneja todas las comunicaciones con el servicio de reconocimiento de voz basado en la web. Los programas pueden procesar la voz de forma asíncrona utilizando esta arquitectura basada en eventos. Los eventos también se pueden utilizar para transmitir resultados intermedios de reconocimiento de voz, lo cual es útil ya que permite a las aplicaciones proporcionar retroalimentación casi instantánea a los usuarios. El reconocimiento de voz se puede pausar en cualquier momento, lo cual es útil porque ahorra tiempo al desarrollador web en los métodos de controlador de eventos.
Los resultados intermedios o finales del reconocimiento se presentan como una lista de oraciones candidatas, cada una con su propio nivel de confianza. La transcripción más probablemente correcta se muestra en primer lugar. La API distingue entre las partes preliminares de la transcipción y las partes que están completas. Esto es útil cuando se analizan resultados intermedios durante el reconocimiento de voz en curso.
Compatibilidad del navegador
Los navegadores más populares actualmente en uso son Google Chrome, Mozilla Firefox, Microsoft Internet Explorer, Safari y Opera. Sin embargo, la API de Reconocimiento de Voz en la Web solo es compatible de forma experimental en Google Chrome (versión 25+). El W3C no reconoce la API de Reconocimiento de Voz en la Web como un estándar. Los símbolos utilizados en la implementación están prefijados por el proveedor en el momento de la escritura debido a la naturaleza experimental, y el código que utiliza la API de Voz en Chromium se ve así:
var rec = new webkitSpeechRecognition();recognition.onresult = function(event) {// …};recognition.start();// …
Resultados y Discusión
Muchas de las oraciones son difíciles de entender para el reconocedor de voz. Las oraciones son difíciles de entender, al menos según el oído humano. Tienen un tono inusual y pueden ser difíciles de comprender para hablantes no nativos de inglés. Este estudio de alguna manera no aborda cómo esto se relaciona con el nivel de dificultad para el entendimiento de las máquinas.
Los resultados son mejores a nivel de palabra que a nivel de oración. De un total de 11540 palabras habladas, el reconocedor de voz reconoce correctamente 8540 de ellas. Esto significa que el 74% de las palabras habladas se reconocen de manera correcta. La precisión de las palabras, a diferencia del porcentaje de palabras correctas, considera también las inserciones. Sin embargo, solo el número de inserciones es bajo y la precisión general de las palabras del 73% es similar al porcentaje de palabras detectadas correctamente. Los hombres (74%) y las mujeres (74%) tienen niveles similares de precisión de palabras (72%). Una vez más, los únicos dos niños obtuvieron puntajes más altos (83%). Tabla: Diez resultados de reconocimiento de voz seleccionados al azar.
La transcripción obtenida a partir de la entrada de voz se divide en nuestra aplicación web. Obtenemos la acción a realizar y el objeto a emparejar en el backend después de dividirlo. Por ejemplo, si el usuario dice «reproducir [nombre de la canción]», se divide en dos partes, la primera es la acción a realizar, en este caso, reproducir, y la segunda es el nombre de la canción. Durante varias pruebas, se descubrió que la confiabilidad alcanzada fue de aproximadamente el 75%.
Conclusión
Creemos que la buena música debería estar al alcance de todos y que tener un reproductor de música con todas las funciones es la mejor manera de lograrlo. Muchos consumidores podrán beneficiarse de nuestro esfuerzo y escuchar su música favorita con todas las funciones sin costo adicional. La característica única de nuestro proyecto es la reproducción y navegación controladas por voz, lo que permitirá a los usuarios escuchar su música favorita de manera más fluida y sin esfuerzo.
Referencias
1. K. Govardhanaraj y D. Nagaraj, «Intelligent music player with ARM7,» 2015 Global Conference on Communication Technologies (GCCT), Thuckalay, India, 2015, pp. 323-326, doi: 10.1109/GCCT.2015.7342676.
2. A. Nilakhe y S. Shelke, «A design for wireless music control system using speech recognition,» 2016 Conference on Advances in Signal Processing (CASP), Pune, India, 2016, pp. 337-339, doi: 10.1109/CASP.2016.7746191.
3. S. P. Panda, «Automated speech recognition system in advancement of human-computer interaction,» 2017 International Conference on Computing Methodologies and Communication (ICCMC), Erode, India, 2017, pp. 302-306, doi: 10.1109/ICCMC.2017.8282696.
4. B. Jolad y R. Khanai, «An Art of Speech Recognition: A Review,» 2019 2nd International Conference on Signal Processing and Communication (ICSPC), Coimbatore, India, 2019, pp. 31-35, doi: 10.1109/ICSPC46172.2019.8976733.
Agradecimientos
Los autores agradecen al Sr. Sharana Basavana Gowda, Profesor Asistente del Departamento de Ciencia y Tecnología de la Computación, JSS Academy Of Technical Education Bangalore por sus útiles discusiones y sugerencias durante la preparación de este artículo técnico.
Créditos: Este proyecto «Sistema de Reproductor de Música Asistido por Voz Basado en API» fue completado por Siddhant Singh, Shubham Sahu, Gaurav Kumar y Arpit Dutta del Departamento de Ciencia y Tecnología de la Computación, JSSATE, Bengaluru, INDIA.
Preguntas frecuentes
- ¿Qué es Musify?
- ¿Quiénes se benefician de Musify?
- ¿Cuáles son las características principales de Musify?
- ¿Cómo se implementa el reconocimiento de voz en Musify?
- ¿Cuál es la precisión del reconocimiento de voz en Musify?
Musify es un software diseñado para automatizar y mejorar el sistema tradicional de reproducción de música, permitiendo a los usuarios controlar el reproductor de música mediante comandos de voz.
Este sistema es útil para niños, personas mayores y amas de casa, ya que les permite disfrutar de su música favorita simplemente usando su voz.
Entre las características principales se encuentran: creación de listas de reproducción personalizadas, historial de reproducción, reproducción con asistencia de voz y una interfaz atractiva y fácil de usar.
Musify utiliza la API de Reconocimiento de Voz en la Web, que permite convertir el habla en texto y viceversa. Esta API está escrita en JavaScript y es compatible con Google Chrome.
En las pruebas realizadas, se logró una confiabilidad de aproximadamente el 75% en el reconocimiento de voz en Musify.