Gravity: Reconocimiento de voz
Se trata de una tecnología que reconoce y transforma las señales de las voces en texto editable o en comandos operacionales mediante un análisis. Permite a las personas interactuar con computadores, teclados o cualquier dispositivo, mediante comando de voz pre-programadas. Este tipo de tecnología es utilizada para aplicaciones como asistentes de voz, casas inteligentes, sistemas de reconocimiento de voz, entre otros.
Gravity: offline speech recognition sensor, es un módulo que posee un chip de reconocimiento de voz sin necesidad que esté conectado a internet. Viene con un total de 121 frases de comandos pre-programados, en inglés, y con la posibilidad de añadir 17 comandos más. Además, este módulo/sensor está diseñado para ser flexible, por ende, permite ser una solución flexible para creadores y entusiastas en electrónica/robótica.
Este módulo de reconocimiento de voz está equipado con una función de autoaprendizaje soportando una adición de 17 customizables comandos. Cualquier sonido puede ser usado como comando, como por ejemplo, silbidos, aplausos, o incluso sonido de animales/mascotas, permitiendo así una gran flexibilidad a la hora de crear innovadores o divertidos proyectos.
Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
Aplicaciones
- Asistentes de voz personalizados: Puedes crear tu propio asistente de voz personalizado para controlar dispositivos domésticos inteligentes, obtener información, realizar tareas específicas, etc. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
- Control de dispositivos electrónicos: Utiliza comandos de voz para controlar dispositivos electrónicos como luces, ventiladores, persianas, televisores, entre otros, convirtiendo tu hogar en un entorno más inteligente y accesible. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
- Sistemas de seguridad: Implementa un sistema de seguridad que reconozca voces autorizadas para desactivar alarmas, abrir puertas o activar cámaras de vigilancia. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
- Aplicaciones para personas con discapacidades: Desarrolla aplicaciones que permitan a personas con discapacidades físicas o visuales interactuar con dispositivos y realizar tareas cotidianas utilizando únicamente su voz. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
- Juegos y entretenimiento: Crea juegos o aplicaciones de entretenimiento que respondan a comandos de voz, como juegos de aventuras interactivas o aplicaciones de karaoke. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
- Educación y aprendizaje: Desarrolla aplicaciones educativas que permitan a los usuarios aprender idiomas, practicar pronunciación, realizar ejercicios de dictado, entre otras actividades, utilizando el reconocimiento de voz. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
- Automatización de tareas: Simplifica tareas repetitivas o tediosas mediante comandos de voz que activen secuencias de acciones automatizadas, como enviar correos electrónicos, programar recordatorios o realizar búsquedas en internet. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
- Aplicaciones de salud y bienestar: Crea aplicaciones que ayuden a monitorear la salud y el bienestar de los usuarios mediante el seguimiento de datos biométricos o la provisión de consejos y recordatorios personalizados, todo ello controlado por comandos de voz. Debes de tener en cuenta que el módulo posee frases/comandos pre-programados en inglés.
Características
Características | Descripción |
---|---|
Función de autoaprendizaje | Permite al módulo aprender palabras de comando mediante la voz, pudiendo entrenar cualquier audio como comando. |
Soporte I2C y UART | Compatible con interfaces I2C y UART, utilizando una interfaz Gravity. |
Compatible con 3.3V/5V | Se puede utilizar con alimentación de 3.3V o 5V. |
121 palabras de comando fijas | Viene integrado con 121 palabras de comando fijas comúnmente utilizadas en inglés. |
Altavoz integrado | Cuenta con un altavoz incorporado y una interfaz para un altavoz externo, que proporciona retroalimentación de voz en tiempo real sobre los resultados del reconocimiento. |
Indicadores LED | Equipado con indicadores de estado de alimentación (rojo) y de reconocimiento (azul). |
Doble micrófono | Los dos micrófonos proporcionan una mejor resistencia al ruido y un mayor alcance de reconocimiento. |
Compatibilidad con controladores Arduino | Compatible con los siguientes controladores Arduino: Arduino UNO, Arduino Leonardo, Arduino MEGA, controladores de la serie FireBeetle, Raspberry Pi, ESP32 y por supuesto micro:bit. |
Especificaciones técnicas.
Especificaciones | Valor |
---|---|
Tensión de funcionamiento | 3.3 – 5V |
Corriente máxima de funcionamiento | ≤370 mA (5V) |
Comunicación | I2C/UART |
Dirección I2C | 0x64 |
Comandos fijos | 121 |
Comando fijo de activación | 1 |
Comandos personalizados | 17 |
Comando de activación de aprendizaje | 1 |
Sensibilidad del micrófono incorporado | -28dB |
Tamaño del módulo | 49×32 mm/1.93×1.26” |
Temperatura de funcionamiento | 0-70℃ |
Pin Out
Complementos
Videotutorial Demostración en Inglés
Preguntas Frecuentes
Los comandos fijos están en inglés. ¿Puedo usar este módulo en español?
Esta es la pregunta más importante y la respuesta es sí, a través de los comandos personalizables. El módulo funciona de dos maneras:
- 121 Comandos Fijos: Estos están grabados de fábrica, son solo en inglés («Turn on the light», «Play music», etc.) y no se pueden cambiar.
- 17 Comandos Personalizables: ¡Aquí está la clave! Puedes grabar cualquier palabra o sonido en estas 17 ranuras. Puedes grabar «Prender luz» en español, «Allumer la lumière» en francés, o incluso un silbido o dos aplausos. El módulo no entiende el idioma, sino que memoriza el patrón de sonido que grabaste.
¿Qué significa que el reconocimiento sea «offline»? ¿Cuáles son sus límites?
Significa que todo el procesamiento de la voz ocurre dentro del propio chip del módulo. No necesita conectarse a internet ni a la nube (como Alexa o Google Assistant). Las ventajas son una respuesta instantánea, funcionamiento en cualquier lugar y total privacidad. La limitación es que no procesa lenguaje natural; no puedes tener una conversación con él. Solo puede reconocer los comandos específicos que tiene programados (los 121 fijos + los 17 que tú grabes).
¿Cómo funciona el «autoaprendizaje»? ¿Cómo le enseño un comando nuevo?
El proceso es bastante sencillo y se realiza a través de comandos enviados desde tu Arduino/ESP32. En términos simples:
- Desde tu código, envías un comando para entrar en «Modo de Aprendizaje» y especificas un ID (del 1 al 17) para el nuevo comando.
- El LED azul del módulo parpadeará, indicando que está escuchando.
- Pronuncias la palabra o sonido que quieres grabar (ej. «Abrir puerta»). Debes repetirlo un par de veces para que el módulo lo aprenda bien.
- El módulo guardará ese patrón de sonido y lo asociará permanentemente con el ID que elegiste.
A partir de ese momento, cada vez que digas «Abrir puerta», el módulo enviará el ID correspondiente a tu microcontrolador.
¿Cómo interactúa este módulo con mi Arduino? ¿Qué información me entrega?
La interacción es muy eficiente. Cuando el módulo reconoce un comando de voz, no te devuelve el texto, sino un número de identificación (ID) a través del puerto I2C o UART. Cada uno de los 121 comandos fijos y los 17 personalizables tiene un ID único. Tu código en Arduino simplemente tiene que leer este número y usar una estructura switch...case
o una serie de if
para ejecutar una acción. Por ejemplo: «Si el ID recibido es 5, entonces enciende el relé de la luz».
El módulo tiene I2C y UART. ¿Qué interfaz de comunicación debería usar?
Ambas son buenas opciones y la elección depende de tu proyecto:
- Usa I2C: Si ya tienes otros sensores I2C en tu proyecto (como una pantalla OLED o un sensor BME280). Te permite conectar múltiples dispositivos en el mismo bus de 2 cables (SDA, SCL), ahorrando pines en tu microcontrolador.
- Usa UART: Si prefieres una comunicación punto a punto más simple o si los pines I2C de tu microcontrolador ya están ocupados. Es ideal para principiantes y para depurar, ya que puedes ver la comunicación serial directamente en el monitor serie del IDE de Arduino.
¿Para qué sirven los dos micrófonos y el altavoz integrados?
Son características profesionales que mejoran enormemente la experiencia de usuario:
- Doble Micrófono: Permite al módulo realizar técnicas de cancelación de ruido y «beamforming». Esto ayuda a que el módulo se enfoque en tu voz y filtre el ruido de fondo, mejorando significativamente la precisión del reconocimiento en entornos no silenciosos.
- Altavoz Integrado: Proporciona retroalimentación de audio en tiempo real. El módulo puede confirmar la acción con una voz pregrabada (en inglés) como «Command recognized» o emitir tonos. Esto le hace saber al usuario que el comando fue escuchado y procesado correctamente.
¿Este módulo tiene una «palabra de activación» o siempre está escuchando?
Sí, utiliza un sistema de activación para evitar que reaccione a cualquier conversación. Tiene un comando fijo de activación (wake-up word). Una vez que dices esta palabra clave, el módulo «despierta» y el LED azul se enciende, indicando que ahora está escuchando activamente por uno de los comandos programados durante unos segundos. También puedes grabar tu propia palabra de activación personalizada en una de las ranuras de aprendizaje.
Valoraciones
No hay valoraciones aún.