Conferencia magistral de Google I/O 2024 en 17 minutos

Metatube

Desde nuevas funciones de IA hasta actualizaciones de Android, Google tuvo mucho que compartir durante la I/O de este año. Echamos un vistazo al Proyecto Astra de Google, un asistente de inteligencia artificial multimodal que la compañía espera que se convierta en un asistente virtual que lo haga todo.

Transcript

00:00¡GOOGLE!

00:04¡GOOGLE!

00:07¿Estamos listos para hacer un poco de Googling?

00:10Bienvenidos a Google I.O.U. ¡Es genial tener a todos con nosotros!

00:13Empezaremos a lanzar esta experiencia completamente revampada,

00:16AI o Abuse, a todos en los Estados Unidos esta semana

00:20y lo traeremos a más países pronto.

00:22Con Gemini, lo haremos mucho más fácil.

00:25Digamos que estás en una estación de parques listo para pagar.

00:28Ahora, simplemente puedes pedir fotos.

00:31Sabe los coches que aparecen a menudo,

00:34triangula cuál es el tuyo

00:36y te dice el número de licencia.

00:39Puedes seguir con algo más complejo.

00:42¡Muéstrame cómo ha progresado Lucia en el baño!

00:46Aquí, Gemini va más allá de una búsqueda simple,

00:49reconociendo diferentes contextos,

00:52de hacer lapas en el baño,

00:54a nadar en el océano.

00:56Vamos a lanzar las fotos de demanda esta semana

00:59con más capacidades para venir.

01:01La multimodalidad radicalmente expande las preguntas que podemos preguntar

01:04y las respuestas que obtendremos.

01:06El contexto largo nos lleva un paso más allá,

01:09nos permite traer aún más información,

01:12cientos de páginas de texto,

01:14horas de audio,

01:16una hora completa de video

01:18o repostos de código completo.

01:20Necesitas una ventana de contextos de 1 millón de tokens,

01:22ahora posible con Gemini 1.5 Pro.

01:24Estoy emocionado por anunciar que traemos esta versión mejorada

01:27de Gemini 1.5 Pro

01:29a todos los desarrolladores mundialmente.

01:32Gemini 1.5 Pro con 1 millón de contextos

01:35ahora está directamente disponible para consumidores

01:38en Gemini Advanced

01:40y puede ser usado en más de 35 idiomas.

01:43Así que hoy, estamos expandiendo la ventana de contextos

01:46a 2 millones de tokens.

01:50Esto representa el siguiente paso en nuestro viaje

01:52hacia el objetivo último de infinito contexto.

01:55Y no pudiste hacer la reunión PTA.

01:57La grabación de la reunión es de una hora.

02:00Si es de Google Meet,

02:02puedes pedir a Gemini para darte los destacados.

02:05Hay un grupo de padres buscando voluntarios.

02:08Estás libre ese día.

02:10Por supuesto, Gemini puede responder.

02:12Gemini 1.5 Pro está disponible hoy en Workspace Labs.

02:16Notebook LLM va a tomar

02:18todos los materiales a la izquierda como input

02:21y los ejecuta en una discusión de ciencia

02:24personalizada para él.

02:26Vamos a profundizar en la física.

02:28¿Qué está en la tabla hoy?

02:30Empezamos con las básicas.

02:31Fuerza y moción.

02:32Y eso, por supuesto, significa que tenemos que hablar

02:34de Sir Isaac Newton y sus tres leyes de la moción.

02:36Y lo increíble es que mi hijo y yo

02:39podemos unirnos a la conversación

02:41y dirigirlo en cualquier dirección que queramos.

02:44Cuando pongo el botón, unimos.

02:47Espera, tenemos una pregunta. ¿Qué tal, Josh?

02:49Sí, ¿puedes darle a mi hijo Jimmy un ejemplo de básquetbol?

02:58¡Ey, Jimmy! ¡Es una idea fantástica!

03:01El básquetbol es una buena forma de visualizar la fuerza y la moción.

03:04Comencemos.

03:05Bueno, primero, imagina un básquetbol

03:07simplemente sentado en la tabla.

03:09No se mueve, ¿verdad?

03:11Eso es porque todas las fuerzas que actúan en él son balanceadas.

03:15Lo conectó a los puntos y creó ese ejemplo de edad apropiado para él.

03:23El año pasado, llegamos a un milagro en ese camino

03:25cuando formamos Google DeepMind.

03:27Así que hoy introducimos Gemini 1.5 Flash.

03:31Flash es un modelo de peso más ligero que Pro.

03:34A partir de hoy, puedes usar 1.5 Flash y 1.5 Pro

03:38con hasta un millón de tokens en Google AI Studio y Vertex AI.

03:43Hoy tenemos un nuevo progreso emocionante para compartir

03:46sobre el futuro de la asistencia artificial que llamamos Proyecto Astra.

03:51Dime cuándo ves algo que hace sonido.

03:55Veo un micrófono que hace sonido.

03:59¿Cuál es la parte de ese micrófono?

04:04Es el tweeter. Produce sonidos de alta frecuencia.

04:09¿Qué hace esa parte del código?

04:14Este código define funciones de encrypción y decrypción.

04:18Parece usar encrypción AESCBC para encoder y decoder datos

04:23basado en una llave y un vector de inicialización, IV.

04:29¿Qué puedo añadir aquí para hacer que este sistema sea más rápido?

04:34Añadir un cache entre el servidor y el databases podría mejorar la velocidad.

04:39Hoy estamos presentando una serie de actualizaciones

04:41a través de nuestros herramientas de medios generativos

04:43con nuevos modelos que cubren imagen, música y video.

04:47Hoy estoy muy emocionado por presentar Imagine 3.

04:51Imagine 3 es más fotorealística.

04:53Puedes literalmente cumplir con el sonido de los whiskers

04:55con detalles más ricos, como esta increíble luz del sol en la foto,

04:59y menos artefactos visuales o imágenes distorsionadas.

05:02Puedes suscribirte hoy para probar Imagine 3 en ImageFX,

05:05parte de nuestra serie de herramientas de AI en Labs.Google.

05:08Juntos con YouTube, hemos estado construyendo Music AI Sandbox,

05:12una serie de herramientas de AI profesionales que pueden crear

05:15nuevas secciones instrumentales desde cero,

05:17transferir estilos entre tracos y más.

05:20Hoy estoy emocionado por presentar nuestro modelo de video

05:23más capaz de generación de video más reciente, llamado Veo.

05:28Veo crea videos de 1080p de calidad alta

05:31con texto, imagen y promtes de video.

05:34Puede captar los detalles de tus instrucciones

05:36en diferentes estilos visuales y cinemáticos.

05:39Puedes hacer promtes para cosas como fotos aéreas

05:41de un paisaje o el tiempo, y editar más

05:44tus videos usando promtes adicionales.

05:46Puedes usar Veo en nuestro nuevo herramienta experimental

05:49llamado VideoFX.

05:51Estamos explorando funciones como la narración

05:53y la generación de escenas más largas.

05:55No solo es importante entender dónde un objeto

05:58o un sujeto debería estar en el espacio,

06:00también debe mantener esta consistencia con el tiempo,

06:03como el coche en este video.

06:05En las próximas semanas, algunas de estas funciones

06:07estarán disponibles para elegir creadores

06:09a través de VideoFX en labs.google,

06:12y la lista de espera está abierta ahora.

06:14Hoy estamos emocionados por presentar la sexta generación

06:17de TPUs, llamada Trillium.

06:20Trillium ofrece un mejoramiento de 4.7X

06:24en la performancia de computación por chip

06:26sobre la generación anterior.

06:28Haremos que Trillium sea disponible a nuestros clientes de cloud

06:30en la tarde de 2024.

06:32Estamos haciendo que los análisis de inteligencia

06:34sean aún más útiles para las preguntas más complejas.

06:37Para hacer esto posible,

06:38estamos presentando razonamiento de multitud de pasos

06:40en Google Search.

06:41Pronto podrás pedir a Search

06:43para encontrar los mejores estudios de yoga o pilates

06:45en Boston,

06:46y mostrarles los detalles de sus ofertas de introducción

06:48y el tiempo de caminata de Beacon Hill.

06:51Obtendrás algunos estudios con buenas ratificaciones

06:53y sus ofertas introductorias.

06:55Y puedes ver la distancia para cada uno.

06:57Como este, es solo un caminata de 10 minutos.

07:00En la parte de abajo,

07:01puedes ver dónde están ubicados visualmente.

07:04Esto rompe tu pregunta más grande

07:05a través de todas sus partes.

07:07Y se encuentra cuáles son los problemas

07:09que necesita resolver

07:10y en qué orden.

07:12Siguientemente,

07:13toma planificación, por ejemplo.

07:15Ahora puedes pedir a Search

07:16para crear un plan de comida de tres días

07:17para un grupo fácil de preparar.

07:20Y aquí obtienes un plan

07:22con una gran variedad de recetas

07:23desde el medio ambiente.

07:25Si quieres obtener más verduras,

07:26puedes simplemente pedir a Search

07:27para cambiar a un plato vegetariano.

07:29Y puedes exportar tu plan de comida

07:31o obtener los ingredientes como una lista

07:33simplemente tapando aquí.

07:35Pronto podrás hacer preguntas con video

07:37justo en Google Search.

07:39Voy a tomar un video y preguntar a Google

07:42¿por qué esto no se mantiene en lugar?

07:47Y en un instante cercano,

07:49Google me da una visión de AI.

07:52Creo que hay algunas razones

07:53por las que esto podría estar sucediendo

07:54y pasos que puedo tomar para arreglarlo.

07:56Comenzarás a ver estas funciones

07:58circulando en Google Search

07:59en los próximos meses.

08:01Y ahora, estamos muy emocionados

08:03de que el nuevo panel lateral

08:05con poder de Gemini

08:06será generalmente disponible

08:08el próximo mes.

08:11Tres nuevas capacidades

08:13llegando a Gmail móvil.

08:16Parece que hay una red de e-mails

08:18sobre esto con muchas e-mails

08:20que no he leído.

08:21Y por suerte para mí,

08:23puedo simplemente tapar

08:24la opción de resumir

08:26arriba y olvidar leer

08:27este largo recorrido.

08:29Ahora, Gemini lleva esta

08:31carta móvil ayudante

08:33como un overlay.

08:34Y aquí es donde puedo leer

08:36una buena sumaría

08:37de toda la información salienta

08:39que necesito saber.

08:41Ahora, simplemente puedo

08:43escribir mi pregunta

08:44aquí en la carta móvil

08:45y decir algo como

08:47comparar mis peticiones de reparación de terreno

08:49por precio y disponibilidad.

08:50Esta nueva función de Q&A

08:52hace que sea tan fácil

08:54obtener respuestas rápidas

08:55sobre cualquier cosa en mi bolsa

08:56sin tener que buscar en Gmail

08:58y abrir la e-mail

08:59y luego buscar la información específica

09:01y los atajos y así sucesivamente.

09:02Veo algunas respuestas sugeridas

09:04de Gemini.

09:05Ahora, aquí veo que he declinado

09:07el servicio, sugerir un nuevo tiempo.

09:09Estas nuevas capacidades

09:10en Gemini y Gmail

09:12comenzarán a salir este mes

09:14a los usuarios de Labs.

09:16Tiene un PDF

09:17que es un atajo

09:18de un hotel

09:19como una recepción

09:20en el panel de la izquierda.

09:21Ayúdame a organizar

09:22y recortar mis recetas.

09:24Paso uno,

09:25crea un folder de archivos

09:26y pon este receto

09:27y 37 otros que se encuentran

09:29en ese folder.

09:31Paso dos,

09:32extrae la información relevante

09:34de esos recetos

09:35en ese folder

09:36en un nuevo spreadsheet.

09:37Gemini te ofrece la opción

09:39de automatizar esto

09:40para que este particular

09:42flujo de trabajo

09:43se ejecute en todas las e-mails futuras.

09:45Gemini hace el trabajo difícil

09:47de extraer toda la información correcta

09:48de todos los archivos

09:49en ese folder

09:50y genera este spreadsheet

09:51para ti.

09:52¡Muéstrame dónde

09:53se gastó el dinero!

09:55Gemini no sólo analiza

09:56los datos del spreadsheet,

09:58sino también crea

09:59un bonito visual

10:01para ayudarme a ver

10:02el completo

10:03desplazamiento

10:04por categoría.

10:05Esta habilidad en particular

10:06se llevará a cabo

10:07a los usuarios de Labs

10:08este septiembre.

10:10Estamos prototipando

10:11a un compañero

10:12con poder de Gemini

10:13virtual.

10:15Chip se ha dado

10:16una función específica

10:17en el set

10:18de descripciones

10:19sobre cómo ser útil

10:20para el equipo.

10:21Puedes ver eso aquí.

10:22Y algunos de los trabajos

10:23son monitorear

10:24y recortar proyectos.

10:25Hemos listado algunos

10:26para organizar la información

10:27y proporcionar contexto.

10:28Y algunas cosas más.

10:29¿Estamos en el camino

10:31para el lanzamiento?

10:35Chip no sólo

10:36busca por todo

10:37lo que tiene acceso,

10:38sino también

10:39sintetiza lo que se encontró

10:41y vuelve

10:42con una respuesta

10:43actualizada.

10:45Ahí está.

10:46Una línea clara,

10:47una buena sumarización.

10:48Y noten que

10:49en este primer mensaje

10:50Chip señala un problema

10:51potencial

10:52que el equipo debe saber.

10:53Porque estamos

10:54en un espacio de grupo,

10:55todos pueden seguir.

10:56Cualquiera puede

10:57entrar en cualquier momento.

10:58Como puedes ver,

10:59alguien ya lo hizo,

11:00pidiendo a Chip

11:01que ayude a crear un doc

11:02para abordar el problema.

11:03Y este verano

11:04puedes tener

11:05una conversación

11:06en profundidad

11:07con Gemini

11:08usando tu voz.

11:09Le llamamos

11:10a esta nueva experiencia

11:11Live.

11:12Cuando vas a Live,

11:13podrás abrir

11:14tu cámara

11:15para que Gemini

11:16pueda ver

11:17lo que ves

11:18y responder

11:19a tus alrededores

11:20en tiempo real.

11:21Entonces,

11:22estamos desarrollando

11:23una nueva función

11:24que te permite

11:25customizarla

11:26para tus propios necesidades

11:27y crear

11:28expertos personales

11:29en cualquier tema

11:30que quieras.

11:31Le llamamos

11:32a estas gemas.

11:33Simplemente

11:34tapa para crear una gema,

11:35escriba tus instrucciones

11:36una vez

11:37y vuelve

11:38cuando necesites.

11:39Por ejemplo,

11:40aquí hay una gema

11:41que creé

11:42que actúa

11:43como un entrenador

11:44de escritura personal.

11:45Esta gema

11:46se realiza

11:47en historias cortas

11:48con retos misteriosos.

11:49Y incluso

11:50se construye

11:51en mis gráficos

11:52de historia

11:53en Google Drive.

11:54Las gemas

11:55se desarrollarán

11:56en los próximos meses.

11:57Ese entendimiento

11:58y inteligencia

11:59se unen

12:00en la nueva experiencia

12:01de planeación

12:02de viaje

12:03en Gemini Advanced.

12:04Vamos a Miami.

12:05Mi hijo

12:06ama la arte,

12:07mi marido

12:08ama la comida,

12:09y nuestros detalles

12:10de vuelo

12:11y hotel

12:12ya están

12:13en mi bolsa

12:14de información.

12:15Y estamos

12:16recopilando

12:17todas las informaciones

12:18desde la búsqueda

12:19y las extensiones

12:20de ayuda

12:21como mapas

12:22y Gmail.

12:23El resultado final

12:24es un plan de vacaciones

12:25personalizado

12:26presentado en la nueva

12:27UI dinámica de Gemini.

12:28Me gustan

12:29estas recomendaciones,

12:30pero mi familia

12:31le gusta dormir.

12:32Así que tapé

12:33para cambiar el tiempo de comienzo

12:35y

12:36así

12:37Gemini

12:38ajustó

12:39mi intuición

12:40para el resto

12:41del viaje.

12:42Esta nueva experiencia

12:43con Gemini Advanced

12:44este verano

12:45te permitirá

12:46uploadar

12:47tu entera tesis,

12:48tus fuentes,

12:49tus notas,

12:50tu investigación,

12:51y pronto

12:52entrevistar

12:53grabaciones de audio

12:54y videos también.

12:55Puede

12:56disectar

12:57tus puntos principales,

12:58identificar mejoras

12:59y incluso

13:00jugar un papel

13:01como profesor.

13:02Quizás

13:03tengas

13:04un negocio

13:05de vendas

13:06de productos

13:07manualizados.

13:08Simplemente

13:09uploadar

13:10todas

13:11tus páginas

13:12y

13:13juntar

13:14su análisis

13:15en un solo

13:16gráfico.

13:17Y, por supuesto,

13:18tus fichas no son usadas

13:19para entrenar

13:20a nuestros modelos.

13:21Después de este año,

13:22tendremos

13:23un aumento

13:24de la ventana

13:25de contexto

13:26a 2 millones

13:27de tokens.

13:28Estamos poniendo

13:29una búsqueda

13:30con poder de inteligencia

13:31justo en tus dedos.

13:32Digamos

13:33que mi hijo

13:34necesita ayuda

13:35con un problema

13:36de palabra física

13:37difícil,

13:38como

13:39este.

13:40Si él

13:41tiene

13:42la capacidad

13:43de aprender

13:44y obtener

13:45instrucciones

13:46paso a paso,

13:47justo en el momento

13:48en que ya está

13:49haciendo el trabajo,

13:50esta nueva capacidad

13:51está disponible

13:52hoy.

13:53Ahora,

13:54estamos haciendo

13:55a Gemini

13:56consciente

13:57del contexto.

13:58Mi amigo Pete

13:59me pregunta

14:00si quiero jugar

14:01al baloncesto

14:02este fin de semana.

14:03Voy a responder

14:04y intentaré ser divertido

14:05y diré

14:06¿es como

14:07tenis

14:08pero con

14:09picos?

14:10Lo primero que verás

14:11es que la ventana

14:12de Gemini

14:13ahora está en lugar

14:14sobre la aplicación

14:15para que quede

14:16en el flujo.

14:17Bueno,

14:18eso generó

14:19unas imágenes

14:20bastante buenas.

14:21Lo bueno

14:22es que puedo

14:23agregar y dejar

14:24cualquiera de estos

14:25directamente

14:26a la aplicación

14:27de mensajes

14:28abajo.

14:29Así que,

14:30bien,

14:31déjame enviar eso.

14:32Y porque es

14:33consciente del contexto,

14:34Gemini sabe

14:35que estoy mirando

14:36un video,

14:37así que me muestra

14:38proactivamente

14:39la aplicación

14:40para

14:41jugar

14:42al baloncesto.

14:43Por cierto,

14:44esto usa

14:45señales

14:46como los capítulos

14:47de YouTube,

14:48lo que significa

14:49que puedes usarlo

14:50en billones

14:51de videos.

14:52Entonces,

14:53déjame un momento

14:54y

14:55ahí está.

14:56Empezando

14:57con Pixel

14:58después de este año,

14:59vamos a expandir

15:00lo posible

15:01con nuestro

15:02modelo más reciente,

15:03Gemini Nano

15:04con multimodalidad.

15:05Así que,

15:06hace varios años,

15:07desarrollamos

15:08un modelo

15:09con las capacidades

15:10multimodales

15:11de Gemini Nano.

15:12Entonces,

15:13cuando alguien envía

15:14una foto,

15:15obtendrá una descripción

15:16más rica y clara

15:17de lo que está sucediendo.

15:18Y el modelo

15:19incluso funciona

15:20cuando no hay

15:21conexión de red.

15:22Estos mejoras

15:23para hablar de

15:24después

15:25vienen

15:26después de este año.

15:271.5 Pro

15:28es $7

15:29por 1 millón

15:30de tokens.

15:31Y estoy emocionado

15:32por compartir

15:33que para promtes

15:34hasta 128K

15:35será 50%

15:36menos

15:37y 1.5 Flash

15:38comenzará

15:39a $0.35

15:40por 1 millón

15:41de tokens.

15:42Y el nuevo miembro

15:43de hoy,

15:44PolyGemma,

15:45nuestro primer

15:46modelo de

15:47lenguaje de visión

15:48abierto

15:49y está disponible

15:50en este momento.

15:51También estoy

15:52muy emocionado

15:53por anunciar

15:54que tenemos

15:55Gemma 2

15:56en camino.

15:57Es la

15:58próxima generación

15:59de Gemma

16:00y estará disponible

16:01en junio.

16:02Hoy,

16:03estamos expandiendo

16:04Synth ID

16:05a dos nuevas

16:06modalidades,

16:07texto

16:08y video.

16:09Y en los próximos

16:10meses,

16:11estaremos

16:12abriendo

16:13Synth ID

16:14Text Watermarking.

16:15Estoy emocionado

16:16por presentar

16:17LearnLM,

16:18nuestra nueva

16:19familia de

16:20modelos

16:21basados en

16:22Gemini

16:23y bien ajustados

16:24para aprender.

16:25Estamos desarrollando

16:26algunas gemas

16:27pre-hechas,

16:28que estarán disponibles

16:29en la aplicación

16:30Gemini

16:31y la experiencia web,

16:32incluyendo

16:33una llamada

16:34Coach de Aprendizaje.

16:35Creo que alguien

16:36por ahí puede estar

16:37contando

16:38cuántas veces

16:39mencionamos

16:40AI hoy.

16:41Nosotros

16:42fuimos

16:43y contamos

16:44para que

16:45no tuvieras que.

16:49Eso puede ser

16:50un recuerdo

16:51de cuántas veces

16:52alguien

16:53ha dicho

16:54AI.

16:55Aquí están

16:56las posibilidades

16:57por delante

16:58y la creación

16:59juntas.

17:00Gracias.

Category

Transcripción

Recomendada