#1 - Episodio piloto

Los últimos anuncios y desarrollos en inteligencia artificial destacan un enfoque en la democratización, la eficiencia en dispositivos, la mejora de la interacción multimodal y las herramientas avanzadas para desarrolladores.

Asier Rohde
June 12, 2025
6 min read

Modelos de Lenguaje y Plataformas Abiertas

Gemma 3n (Google): Es un modelo abierto de última generación, potente, eficiente y diseñado principalmente para dispositivos móviles. Se ejecuta directamente en teléfonos, tabletas y computadoras portátiles. Su arquitectura, desarrollada en colaboración con Qualcomm Technologies, MediaTek y Samsung, permite un rendimiento multimodal ultrarrápido y experiencias personales y privadas en el dispositivo.
- Utiliza una innovación de Google DeepMind llamada Per-Layer Embeddings (PLE), que reduce significativamente el uso de RAM, permitiendo que modelos de 5B y 8B parámetros operen con una huella de memoria dinámica de solo 2GB y 3GB, respectivamente.
- Ofrece un rendimiento optimizado en el dispositivo (1.5x más rápido que Gemma 3 4B), flexibilidad “Many-in-1” (con un submodelo anidado de 2B), capacidades multimodales expandidas con audio (reconocimiento de voz automático, traducción) y comprensión de video mejorada. También ha mejorado sus capacidades multilingües, especialmente en japonés, alemán, coreano, español y francés.
- Este modelo sienta las bases para la próxima generación de Gemini Nano, que llegará a las aplicaciones de Google y al ecosistema en el dispositivo, incluyendo Android y Chrome, a finales de año. Los desarrolladores pueden acceder a una vista previa a través de Google AI Studio o Google AI Edge.
Apple Intelligence (Apple): Apple ha anunciado que permitirá a los desarrolladores de aplicaciones de terceros acceder a su modelo de lenguaje grande (LLM) en el dispositivo, que utiliza Apple Intelligence. Esta función permite a los usuarios preguntar sobre lo que ven en su pantalla y buscar objetos en Google o Etsy.

Generación de Contenido con IA

Bing Video Creator (Microsoft/OpenAI Sora): Microsoft ha lanzado una herramienta de generación de video con IA en la aplicación móvil de Bing, basada en el modelo Sora de OpenAI, que permite generar videoclips cortos de forma gratuita. Los videos tienen una duración de cinco segundos y un formato vertical (9:16). Aunque las muestras mostradas presentan ciertos “recortes antinaturales” y personajes “dibujados”, Microsoft busca democratizar la generación de video con IA.
Google Veo 3: El nuevo modelo de generación de video con IA de Google puede inventar diálogos por sí mismo en los videos generados, lo que indica un nivel de sofisticación considerable.
Gemini Lyria 2 (Google): Google ha introducido Lyria 2, un modelo de Gemini capaz de generar música y audio de alta fidelidad y calidad profesional. Permite a los artistas moldear la música, los BPMs y otras características mediante indicaciones de texto, y produce audio estéreo de 48 kHz listo para proyectos. Facilita un control creativo granular, composición en diversos géneros y ayuda a los músicos a superar bloqueos creativos, acelerando la creación de pasajes complejos.
Google Imagen 4: Una nueva versión del modelo de generación de imágenes de Google, que promete una calidad “impresionante” y “tipografía superior”, con detalles finos notables.
Virtual Try-on (Google Search Labs): Google está probando una función que permite a los usuarios subir una foto de sí mismos para ver cómo les quedaría la ropa que aparece en los resultados de búsqueda.

Herramientas de IA para Desarrolladores y Empresas

Jules (Google): Es un agente de codificación autónomo y asíncrono que ahora está en beta pública a nivel mundial. Lee el código, comprende la intención y puede escribir pruebas, construir nuevas funciones, corregir errores y actualizar dependencias. Se integra con GitHub, opera en una máquina virtual segura en Google Cloud y ofrece funciones como resúmenes de audio de los cambios.
Figma Dev Mode Model Context Protocol (MCP) Server: Figma ha lanzado una herramienta beta que permite a los modelos de IA y herramientas de codificación agénticas acceder directamente a los datos de diseño de Figma, como cifras precisas y tonos de color exactos. Esto ayuda a las IA a traducir diseños en aplicaciones codificadas de manera más eficiente y reduce el uso de LLMs.
ElevenLabs Batch Calling: Esta nueva función para la IA Conversacional de ElevenLabs permite automatizar y escalar las comunicaciones de voz salientes, iniciando cientos de llamadas personalizadas simultáneamente para tareas como alertas o encuestas.

Innovaciones en Hardware y Software de IA

Speedata APU: La startup Speedata ha desarrollado una Unidad de Procesamiento de Análisis (APU), diseñada específicamente para acelerar cargas de trabajo de big data y IA. Afirman que una sola APU puede reemplazar racks de servidores y ofrecer mejoras de velocidad de hasta 280 veces en comparación con unidades de procesamiento no especializadas.
Android XR (Google/Samsung/Qualcomm): Esta es la primera plataforma Android construida en la era Gemini, diseñada para gafas y cascos de realidad extendida. Gemini en estos dispositivos permite un asistente que “ve el mundo desde tu perspectiva” y ofrece ayuda manos libres. Google está trabajando con marcas de gafas como Gentle Monster y Warby Parker para crear gafas elegantes con Android XR capaces de realizar funciones como la traducción de idiomas en tiempo real y la mensajería.
Google Beam (anteriormente Project Starline): Una cabina de video 3D que busca hacer que las reuniones remotas se sientan más reales, y que estará disponible en algunas oficinas a finales de este año.

Productividad y Experiencia de Usuario impulsadas por IA

Google NotebookLM: Este asistente de toma de notas e investigación basado en IA ahora está disponible como aplicación móvil para Android e iOS, ofreciendo soporte sin conexión y reproducción en segundo plano para “Audio Overviews”. También ha introducido “Video Overviews”, que convierte multimedia densa (notas, PDFs, imágenes) en presentaciones visuales digeribles.
Google Search AI Mode: Google está implementando un “Modo IA” en Google Search que integra una interfaz de chatbot directamente en la experiencia de búsqueda web, permitiendo obtener información rápidamente, hacer preguntas de seguimiento y sintetizar datos.
Android 16: Incluirá efectos meteorológicos impulsados por IA para fondos de pantalla (ej. hacer que llueva en tus fotos) y un modo de escritorio de Android, desarrollado con la ayuda de Samsung.

Desafíos y Responsabilidad en IA

Entrenamiento de Modelos (DeepSeek): Existe la especulación de que el laboratorio chino DeepSeek ha entrenado su modelo R1 utilizando resultados del modelo Gemini de Google. DeepSeek ya ha sido acusado previamente de usar datos de otros modelos rivales como OpenAI. La proliferación de contenido generado por IA en la web abierta (“AI slop”) dificulta el filtrado de los conjuntos de datos de entrenamiento. En respuesta, las empresas de IA están intensificando las medidas de seguridad para prevenir la “destilación” de modelos.
SynthID Detector (Google): Google ha lanzado un nuevo portal de verificación para identificar contenido generado por IA (imágenes, audio, video, texto) que haya sido creado con herramientas de Google AI. Utiliza SynthID, una herramienta que incrusta marcas de agua imperceptibles que permanecen detectables incluso después de compartir o transformar el contenido, con el fin de minimizar la desinformación y la atribución errónea. Google ha abierto el código de la marca de agua de texto de SynthID y ha establecido asociaciones con NVIDIA y GetReal Security para expandir su uso y detección.
Publicación Científica de IA: Por primera vez, una IA ha logrado que su investigación sea aceptada en un congreso mundial de lenguaje natural, compitiendo con miles de expertos humanos. Esto marca un “antes y un después”, demostrando la capacidad de la IA para descubrir y publicar conocimiento al nivel de los mejores científicos.