Modelo de AI Gemini Nano nativo en Google Chrome

Google está experimentando con agregar una versión nano de Gemini en el navegador Chrome. Esta API está destinada principalmente a tareas de procesamiento del lenguaje natural, como resumir, clasificar o reformular texto. No es adecuado para casos de uso que requieren precisión objetiva (por ejemplo, responder preguntas de conocimiento). Sin embargo, en los ejemplos mostrados voy a estar haciendo preguntas de conocimiento general.

Utilizar esta caracteristica en tu código sería tan sencillo como seguir estos tres pasos:

  1. Crear una sesión
  2. Hacer un prompt
  3. Mostrar el resultado

Un ejemplo de su uso:

var prompt_session = await window.ai.createTextSession();
var result = await prompt_session.prompt("Who built the statue of liberty?");
console.log(result);

Vamos a habilitar el AI nativo en Chrome

Por ahora esta es una característica experimental y para poder utilizarla necesitas usar chrome dev o chrome canary en su version 127 o superior y habilitar los siguientes flags:

chrome://flags/#prompt-api-for-gemini-nano

chrome://flags/#optimization-guide-on-device-model

Luego de habilitar los flags es necesario acceder a chrome://components y actualizar el componente Optimization Guide On Device Model para descargar el modelo. Es probable que tengas que recargar el navegador si no encuentras la opción.

No me aparecía la última opción pero, se presentó cuando intenté correr este ejemplo en la consola:

El modelo pesa 1.5Gb y he probado que soporta por lo menos inglés y español, probablemente otros idiomas.

Una vez hayas habilitado esta característica, puedes probarla en la consola de tu navegador o con esta página https://ai-sdk-chrome-ai.vercel.app/

En conclusión

Las posibilidades de tener un modelo de AI generativo disponible en el navegador son muchas. Ya me imagino usarlo para mostrar advertencias o bloquear automaticamente posibles fraudes dentro de ventanas de chats en plataformas de clasificados. Analizando en tiempo real los mensajes desde el mismo navegador.

Al estar del lado del cliente, se tiene la gran ventaja que puede funcionar fuera de línea. Ya puedo ver algunos CRM’s web tomar ventaja de esto para permitir avanzar tareas aún en un estado de nulo acceso a internet. Realmente es una herramienta con muchas posibilidades, vamos a ver que se puede inventar.

Anuncio oficial en la página de desarrolladores de google:
https://developer.chrome.com/docs/ai/built-in