Buenos días, Builder 🚀
Google revoluciona la robótica con Gemini 1.5 que piensa antes de actuar, Perplexity democratiza el acceso a búsqueda web masiva para desarrolladores, y nuevos benchmarks revelan que los modelos de IA son mejores de lo que creíamos en programación.
- 🤖 Gemini Robotics 1.5: Google lleva la IA al mundo físico con robots que razonan
- 🔍 Perplexity Search API: Acceso democratizado a búsqueda web a escala global
- 📊 Benchmarks IA Coding: Por qué Claude 80% ≠ 80% en tu código real
- ⚡ Power Tools: Gemini 2.5 Flash 50% más barato, ChatGPT Business proyectos compartidos
- 📡 Radar Startup: RFT de OpenAI, IA con gusto estético, Apple iOS 26 local AI
Tiempo de lectura: 5 minutos
📰 Top 3 Novedades IA
Google DeepMind lanza Gemini Robotics 1.5: La IA que piensa antes de actuar en el mundo físico
Google DeepMind presenta dos modelos revolucionarios que transforman cómo los robots entienden y actúan en el mundo físico. Gemini Robotics 1.5 puede pensar antes de ejecutar acciones y aprende entre diferentes tipos de robots, mientras que Gemini Robotics-ER 1.5 planifica tareas complejas y usa herramientas digitales como Google Search de forma nativa.
- Razonamiento transparente: El robot explica su proceso de pensamiento antes de actuar, haciendo sus decisiones auditables
- Aprendizaje cross-robot: Las habilidades aprendidas en un robot ALOHA se transfieren automáticamente a robots humanoides Apollo
- Tareas multi-paso: Puede ejecutar secuencias complejas como «clasifica estos objetos según las reglas de reciclaje de tu ciudad» buscando info online
- Estado del arte: Supera todos los benchmarks académicos en 15 categorías de razonamiento espacial y físico
- Disponibilidad: Gemini Robotics-ER 1.5 ya disponible via API en Google AI Studio
Esto marca el inicio de la era de robots verdaderamente inteligentes que pueden operar en entornos humanos. Para emprendedores, significa oportunidades masivas en automatización física: desde almacenes hasta hospitales. El hecho de que los robots puedan explicar sus decisiones resuelve el problema crítico de confianza y compliance en aplicaciones enterprise.
- Experimenta con Gemini Robotics-ER 1.5 en Google AI Studio para casos de uso de visión y planificación
- Identifica procesos físicos repetitivos en tu industria que podrían beneficiarse de robots que razonan
- Únete al programa de trusted testers si trabajas con hardware robótico
- Evalúa partnerships con fabricantes de robots que soporten estos modelos
La convergencia de IA y robótica está acelerándose. En 2026 veremos los primeros robots comerciales con capacidad de razonamiento trabajando en retail y logística. La clave será quién logre integrar estos modelos con hardware accesible primero.
Fuente: Google DeepMind
Perplexity lanza Search API: Democratizando el acceso a búsqueda web a escala global
Perplexity abre su infraestructura de búsqueda que indexa cientos de miles de millones de páginas web a través de una API simple pero poderosa. Con actualizaciones en tiempo real, respuestas estructuradas listas para IA, y precios competitivos, desafía el monopolio de búsqueda de los gigantes tech.
- Índice masivo: Acceso a cientos de miles de millones de páginas web actualizadas cada segundo
- Diseñado para IA: Divide documentos en fragmentos con ranking individual y snippets relevantes
- Actualización en tiempo real: Procesa decenas de miles de actualizaciones por segundo para información fresca
- Framework de evaluación: Lanza search_evals open source para benchmarking riguroso
- Mejor precio-performance: Lidera en relevancia y velocidad con costos más bajos que competidores
El monopolio de búsqueda web acaba de romperse. Para startups y desarrolladores, esto significa poder construir productos con capacidad de búsqueda web sin depender de Google o Bing. Imagina agentes de IA con acceso completo a internet, apps de investigación especializadas, o motores de búsqueda verticales – todo ahora es posible sin inversiones millonarias en infraestructura.
- Prueba la API con el SDK oficial para prototipar en menos de 1 hora
- Evalúa reemplazar APIs de búsqueda existentes para reducir costos
- Construye features de búsqueda en tiempo real en tus productos
- Únete al API Day en SF o hackathon en Londres el próximo mes
La búsqueda web está siendo commoditizada. En 6 meses veremos una explosión de productos especializados en búsqueda vertical. El ganador será quien mejor combine búsqueda con IA generativa para casos de uso específicos.
Fuente: Perplexity AI Blog
Estudio revela qué miden realmente los benchmarks de IA: Por qué Claude 80% ≠ 80% en tu código
Un análisis profundo de benchmarks populares como SWE-bench revela que miden algo mucho más estrecho de lo que sus nombres sugieren. Mientras Claude anota 80% en tests, la realidad es que estos benchmarks evalúan tareas pequeñas y bien definidas, no el trabajo complejo y ambiguo del desarrollo de software real.
- SWE-bench limitado: 77% de soluciones tocan solo 1 función, mediana de 4 líneas de código
- 40% son de Django: El benchmark está sesgado hacia un framework específico de Python
- Sin ambigüedad real: Los problemas vienen con especificaciones completas, no como en la vida real
- Solo unit tests: No evalúan mantenibilidad, seguridad o calidad del código
- Contaminación de datos: Muchos problemas son pre-2023, posiblemente en training data
Esto explica la brecha entre las promesas de marketing y la experiencia real con IA para código. Para CTOs y equipos de desarrollo, significa ajustar expectativas: los agentes de IA son excelentes para tareas bien definidas, pero aún necesitan supervisión humana para arquitectura, decisiones de diseño y trabajo ambiguo. El futuro inmediato es humano + IA, no reemplazo total.
- Usa agentes de IA para tareas pequeñas y bien definidas, no para refactors masivos
- Crea especificaciones detalladas antes de delegar a IA – la calidad del output depende del input
- Mantén humanos en el loop para decisiones arquitectónicas y revisión de código
- Evalúa herramientas con tus propios casos de uso, no confíes solo en benchmarks públicos
Los benchmarks evolucionarán hacia evaluaciones más realistas que incluyan ambigüedad, mantenibilidad y colaboración. Mientras tanto, el sweet spot está en usar IA para acelerar tareas específicas mientras humanos mantienen el control del diseño general.
Fuente: Nilenso Blog
🧰 Power Tools Para Builders
🚀 Gemini 2.5 Flash: 50% más rápido y barato
Google actualiza Gemini 2.5 Flash con reducción del 50% en tokens de salida (y costos) para Flash-Lite y 24% para Flash estándar. Mejoras clave: mejor seguimiento de instrucciones, respuestas más concisas, herramientas agénticas mejoradas (54% en SWE-Bench vs 48.9% anterior), y capacidades multimodales potenciadas. Disponible ya con strings: gemini-2.5-flash-preview-09-2025 y gemini-flash-latest.
👥 ChatGPT Business: Proyectos compartidos para equipos
OpenAI lanza proyectos compartidos para Business, Enterprise y Edu. Los equipos pueden colaborar en un mismo proyecto con archivos e instrucciones compartidas, manteniendo contexto entre chats. Incluye conectores nativos con Gmail, Google Calendar, Teams, SharePoint, GitHub, Dropbox. Ya reportan 5 millones de usuarios business. Los proyectos solo se comparten dentro del workspace.
📡 Radar Startup
💰 ¿Vale la pena el Reinforcement Fine-Tuning de OpenAI a $100/hora?
TensorZero evaluó RFT vs SFT en 3 tareas: extracción de datos (RFT mejoró pero SFT con más datos superó a menor costo), coding agéntico (RFT mejoró donde SFT falló), servicio al cliente (SFT superó a RFT). Conclusión: RFT cuesta 100-700x más que SFT. Solo vale la pena para casos muy específicos donde SFT falla consistentemente.
🎨 LLMs con gusto estético: El futuro del contenido personalizado
Patron Fund explora cómo entrenar LLMs para tener «gusto» – la capacidad de hacer juicios estéticos personalizados. Con datasets como Pick-a-Pic y métodos como LoRe (Low-Rank Reward Modeling), los modelos pueden aprender preferencias individuales sin reentrenamiento. Oportunidades: Taste-as-a-Service API, redes sociales organizadas por afinidad estética, LLMs condicionados por estilo.
📱 Desarrolladores adoptan masivamente los modelos locales de Apple con iOS 26
Con iOS 26, Apple ofrece modelos de IA locales sin costo de inferencia. Apps ya implementando: Lil Artist (generación de historias), MoneyCoach (categorización automática de gastos), Day One (resúmenes de entradas), SignEasy (extracción de insights de contratos), Dark Noise (generación de paisajes sonoros). La clave: procesamiento local = privacidad + velocidad + sin costos de API.
Construido por IA365PRO Agent, para builders que van a cambiar el mundo 🚀
IA365PRO Newsletter • Edición #502 • 26 de Septiembre de 2025