En esta guía te explico cuáles son las funciones de Gemini con voz. Te muestro cómo activar el modo Live, que se parece mucho al modo de voz avanzado de ChatGPT, y qué cosas puedes hacer con él. Además, te explico los principales controles para dominar esta herramienta que, en esencia, te permite hacer una llamada a la IA. ¡No te lo pierdas!
A menos que hayas estado totalmente desconectado, ya sabrás que herramientas como Google Gemini y ChatGPT permiten al usuario escribir peticiones en lenguaje natural. Esto es posible gracias a los grandes modelos de lenguaje, o LLM, que son el resultado de un proceso de entrenamiento basado en millones de textos. Por decirlo así, como si los modelos hubieran estado estudiando los textos humanos y, a partir de ahí, hubieran aprendido a entendernos y a escribir. Obviamente, detrás hay una serie de conceptos técnicos bastante complejos, pero la idea es esta.
La cuestión es que, si a esos modelos les agregamos otras tecnologías, como la generación de voces sintéticas, aparecen funcionalidades como la de Gemini con voz. Es decir, el chatbot, en vez de escribir texto, lo que hace es hablar con el usuario de forma natural. Además de esta herramienta, también se usa una que permite transcribir lo que el usuario dice. El proceso, si lo simplificamos mucho, sería este:
Sin entrar en tecnicismos, ese sería el proceso que sigue Gemini con voz y su modo Live. Es exactamente la misma característica que ofrecen otros competidores, como OpenAI con su modo avanzado de voz en ChatGPT. Ahora bien, la idea principal es esta: ahora es posible hablar de forma natural con un chatbot y recibir respuestas que parecen humanas.
Gemini con voz es una funcionalidad que está disponible para todos los usuarios. No hace falta que pagues por Google One ni ninguno de sus planes premium de IA. Simplemente, necesitas descargar la aplicación de Gemini en tu dispositivo.
El modo Live de Gemini está disponible para todos los usuarios. Como se trata de una función que se ejecuta en la nube, no tiene un impacto directo en el rendimiento de tu equipo. Ahora bien, es posible que Google haya limitado esta función en algunos dispositivos y que, por ese motivo, no te aparezca. Esta es solo una suposición basada en mi experiencia, aunque según la documentación oficial, solo es necesario un dispositivo Android para que funcione.
Una vez te hayas asegurado de tener Gemini instalado en tu dispositivo y de que la versión que estás ejecutando es la última, podrás acceder al modo Live de forma muy sencilla. Por ejemplo, puedes presionar el botón de apagado de tu dispositivo durante unos segundos o decir “Ok Google”, si acaso tienes configurado este último comando. Entonces, cuando aparezca Gemini en pantalla, presiona en el botón situado en la esquina inferior derecha. Es el que te señalo en esta captura de pantalla:
En pantalla vas a poder ver el mensaje Toca para interrumpir a Gemini. Si crees que tienes que decirle algo a la IA porque la respuesta no es la que esperabas, simplemente presiona en esta zona. Ten en cuenta este control porque, a diferencia de lo que hace ChatGPT, no es posible interrumpir a Gemini con la voz.
Adicionalmente, tal y como se aprecia en la imagen superior, dispones de la posibilidad de pausar la conversación y también de “colgar” presionando en el botón rojo. Cuando presionas en Pausa, la pantalla se vuelve negra por completo y muestra el siguiente mensaje:
Otro detalle interesante es que la conversación con Gemini es equiparada por la app de Google a una llamada convencional. De este modo, como si tratara de una conversación por teléfono o por WhatsApp, aparecen los controles correspondientes en la barra de notificaciones.
En esencia, si presionas en Colgar, es como si tocaras el botón rojo que te he mostrado antes. Por su parte, el botón Poner en espera equivale a pausar la conversación. Lo más interesante, en este caso, es que vas a poder utilizar tu teléfono con normalidad y, al mismo tiempo, hablar con Gemini de forma natural.
Por último, un mero recordatorio: la función Live también está disponible dentro de la aplicación de Gemini. Es decir, no es necesario que invoques al asistente con el comando “OK Google”, sino que basta con abrir la app y tocar en el botón correspondiente.
Y tú, ¿estás usando Gemini con voz y el modo Live? ¿Cuáles han sido tus primeras impresiones? Déjame tu opinión más abajo. ¡Nos leemos!
En el día de ayer supimos sobre la RTX 5050 de Nvidia será la primera…
En esta guía te voy a explicar qué es Think Deeper en Copilot y cómo…
Tenemos más detalles sobre la próxima tarjeta gráfica para estaciones de trabajo RTX PRO 6000…