• hace 7 minutos
Begins at 10am PT

Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.

Categoría

🤖
Tecnología
Transcripción
00:00¡Buenos días!
00:01¡Tenemos algo muy emocionante para ti hoy!
00:02¡Vamos a lanzar nuestro primer agente!
00:04Los agentes artificiales son sistemas artificiales
00:06que pueden hacer trabajo para ti independientemente.
00:08Te dan una tarea y se van y lo hacen.
00:10Creemos que esto va a ser una gran tendencia en la inteligencia artificial
00:12y realmente va a impactar el trabajo que la gente puede hacer,
00:14cómo productivos pueden ser,
00:15cómo creativos pueden ser,
00:16lo que pueden acompañar.
00:18Comenzamos hoy con Operator.
00:20Operator es un sistema que puede utilizar
00:22la inteligencia artificial,
00:23la tecnología artificial,
00:24la tecnología artificial,
00:25la tecnología artificial,
00:26la tecnología artificial,
00:27la tecnología artificial,
00:28la tecnología artificial,
00:29la tecnología,
00:30y la tecnología artificial.
00:31Operator es un sistema
00:32que puede utilizar un web browser,
00:33en este caso,
00:34un web browser en la nube.
00:36para que se pague la traba que le da.
00:37Te mostraremos una prueba en un segundo más fuertes,
00:39pero es realmente muchas cosas que puede hacer.
00:42Así como tú
00:42puedes usar un web browser,
00:44declarare píxeles
00:46Colocar una pantalla
00:47y el agente puede hacerlo
00:48y después de esto
00:49controlar el apparato del keyboard
00:50y el mouse
00:51hace todo tipo de cosas
00:52Este va a ir a vivo hoy
00:54en los E. E. U.
00:55para los profesionales
00:57a los usuarios de Plus.
00:59Este es un preview de investigación inicial.
01:01Tenemos muchas mejoras que hacer.
01:02Lo haremos mejor, lo haremos más barato,
01:03lo haremos más disponible,
01:05pero realmente queremos ponerlo en las manos de la gente.
01:07También tendremos más agentes para lanzar
01:09en los próximos meses y semanas,
01:10pero, con eso dicho,
01:11hablaremos más después.
01:12Estoy muy emocionado.
01:13Solo quiero mostrarles una demo.
01:14Lo envío a Yash.
01:15¡Gracias, Sam!
01:16Hola, soy Yash.
01:17Este es Casey.
01:18Ese es Ray.
01:19Y trabajamos en la equipo de agentes de computadores.
01:21Y estamos muy emocionados de mostrarles a Operator hoy.
01:23Como Sam dijo,
01:24Operator es un preview de investigación inicial.
01:26Tiene muchas cosas geniales.
01:27También hace errores.
01:28A veces, cosas embarazadoras.
01:29Pero mostremosles lo que puede hacer Operator.
01:32Bien.
01:33Esta es la página web de Operator.
01:35Está en lives.operator.chatgpt.com
01:37y será accesible
01:38a medida que se termine el live stream.
01:40Y, como pueden ver,
01:41la interfaz es muy similar a ChatGPT.
01:43Pueden escribir un promto
01:44y Operator intentará ejecutar la tarea
01:46a lo mejor de su capacidad.
01:48También veremos
01:49una lista de promotos pre-llegados.
01:51Estos no son realmente recomendaciones.
01:53Estos son cosas que,
01:55para darles una idea de lo que puede hacer Operator,
01:57hemos colaborado con varias empresas,
01:59como OpenTable,
02:00Allrecipes,
02:01TubHub,
02:02Uber,
02:03Thumbtack,
02:04Doordash,
02:05eBay,
02:06Target,
02:07para asegurarnos de que Operator funciona bien en estas páginas.
02:09Pero también creemos que los usuarios
02:11encontrarán a Operator muy valioso
02:13en interactuar con estas plataformas.
02:15Así que con eso,
02:16empecemos con la demo.
02:17Voy a empezar con algo bastante simple.
02:19Voy a usar OpenTable
02:21y diré...
02:22Pregúntame una mesa para dos
02:24en Beretta
02:26esta noche
02:28a las siete de la mañana.
02:29Bien.
02:30Así que específicamente elegiste OpenTable.
02:32Sí. En este caso, estoy pidiendo a Operator
02:34que utilice OpenTable para preguntar una mesa para dos en Beretta.
02:36Beretta es un restaurante en San Francisco.
02:38Es genial. Deberías probarlo.
02:40Y a las siete de la mañana.
02:41Y podría...
02:42Estoy usando OpenTable en este caso,
02:44pero podría decir fácilmente
02:45simplemente
02:46hacer Beretta
02:47y probablemente iría a Search Engine
02:49y descubrir cómo hacer una reserva también.
02:51¿Puedes explicar lo que está sucediendo en esto?
02:53Sí.
02:54Voy a expandir esto un poco.
02:56Así que, a medida que escribo en la búsqueda,
02:58Operator instanció un browser completamente remoto.
03:01Este browser está funcionando en el cloud,
03:03y como puedes ver,
03:04ya está funcionando.
03:06Mis manos están fuera del botón.
03:07No estoy escribiendo estas cosas.
03:08Esto es solo el AI clickeando alrededor.
03:10El AI clickeando alrededor.
03:12Comenzó esta sesión de browser.
03:14Sabía dónde estaba el sitio web de OpenTable,
03:16que es opentable.com.
03:17Como puedes ver,
03:18hay una cadena de pensamiento sumarizada aquí también,
03:20se fue a la URL,
03:21buscó Beretta,
03:22y algo genial realmente sucedió,
03:24que por algún motivo,
03:25el operador,
03:26OpenTable pensó que estábamos en Virginia,
03:28y se autocorregió a San Francisco.
03:31Esto es usando,
03:32así como ChatGPT,
03:34en el operador,
03:35también puedes dar instrucciones customizadas.
03:36Voy a mostrar esto muy rápidamente aquí.
03:39Bien.
03:40Le he dado una instrucción customizada
03:41que para las cuestiones necesarias,
03:42yo vivo en San Francisco.
03:44El operador lo reconoció,
03:46y luego se autocorregió
03:47y se autocorregió a Beretta.
03:51Bien, parece que 7 PM no está disponible,
03:53pero ¿sabes qué?
03:547.45 está perfecto,
03:55así que vamos a hacerlo.
03:57En este caso,
03:58el operador regresó,
03:59y este es un buen ejemplo de tasas de obligación,
04:01donde el operador necesita ayuda,
04:03o necesita asistencia,
04:04o solo quiere preguntarte algo,
04:05y vuelve y le responde.
04:06En práctica,
04:07no tendrías que ver esto.
04:08Podrías dejar que saliera
04:09mientras hacías otras cosas,
04:10y luego regresaría y dijera,
04:11hey, no puedo hacer 7.45.
04:12Totalmente.
04:13Y empezamos con una aplicación web,
04:14obtendrás notificaciones, etc.
04:16El operador se convierte en móvil,
04:17obtendrás notificaciones móviles,
04:18mucho como las interacciones que hacemos con las aplicaciones generales.
04:21Bien, sí,
04:22eso es genial,
04:23hagámoslo.
04:25Bien,
04:26de nuevo,
04:27una interacción muy sencilla,
04:28como la que tendrías con un asistente,
04:29que es,
04:30hey,
04:31encontré una reservación,
04:327 PM no está disponible,
04:33hagámoslo a 7.45.
04:34Y, de nuevo,
04:35puedes ver,
04:36el operador,
04:37en este punto,
04:38dice,
04:39bien, ¿debería?
04:40De nuevo,
04:41este es un buen ejemplo
04:42del trabajo de confirmación
04:43que vamos a hablar un poco más tarde,
04:44pero,
04:45que es algo irreversible,
04:46en este caso.
04:47Podemos cancelar la reservación,
04:48obviamente,
04:49pero, de nuevo,
04:50tomando una acción crítica,
04:51el operador nos pregunta antes de hacerlo.
04:53Y, en este caso,
04:54voy a decir,
04:55hagámoslo.
04:58Bien,
04:59fue bastante rápido,
05:00diría,
05:01como,
05:0250 segundos,
05:03y,
05:04de nuevo,
05:05estábamos viendo,
05:06en este caso,
05:07etc.,
05:08pero,
05:09como Sam dijo,
05:10pégalo y vamos.
05:11Bien,
05:12hagámoslo,
05:13algo,
05:14que nunca sucedió antes.
05:16Bien,
05:17hagámoslo a 15 segundos.
05:19Bien,
05:20mientras lo hacemos,
05:21¿qué tal si intentamos algo un poco más complicado?
05:24La comida.
05:25Sí,
05:26me encanta la comida,
05:27así que he estado usando el operador
05:28para comprar todas mis comidas,
05:29me encanta cocinar,
05:30bastante,
05:31y,
05:32he estado usando el operador
05:33exclusivamente para las comidas,
05:34así que vamos,
05:35tengo una lista de compras aquí,
05:36que es,
05:37esta,
05:38veámos qué es.
05:39Huevos,
05:40espinachas,
05:41mantequillas,
05:42patatas de pollo,
05:44Entonces,
05:45esta es la imagen que estás publicando.
05:46Exactamente.
05:47Y voy a usar Instacart,
05:48que es,
05:49de nuevo,
05:50lo que usamos generalmente.
05:51¿Puedes comprar esto para mí,
05:52por favor?
05:53Y también voy a especificar la tienda que me gusta,
05:56que es,
05:57bueno,
05:58veámos si lo logro,
05:59me he equivocado,
06:00por cierto,
06:01veámoslo.
06:02Bien,
06:03en este caso,
06:04de nuevo,
06:05el operador rápidamente,
06:06de hecho,
06:07reconoció,
06:08usando las capacidades de visión de GPT-4,
06:09para entender que la imagen
06:10decía huevos,
06:11espinachas,
06:12patatas de pollo,
06:13y dije,
06:14sí,
06:15eso suena genial.
06:21Bien,
06:22de nuevo,
06:23al igual que OpenTable,
06:24instanció un browser,
06:25y va a empezar a hacer pruebas.
06:27Voy a expandir la visión,
06:29y veámos lo que hace.
06:31Entonces,
06:32en ambos estos casos,
06:33has dicho lo que querías usar.
06:34Si dices,
06:35cómprame estas tiendas
06:36y no especificas Instacart,
06:37¿qué sucede?
06:38Hará una búsqueda,
06:39usará la máquina de búsqueda,
06:40mucho como lo hacemos nosotros,
06:41encontrar,
06:42Instacart,
06:43o el sitio web de Gus,
06:44o lo que sea,
06:45está en la máquina de búsqueda.
06:46Pasa por eso,
06:47pregunta si necesita clarificaciones,
06:49y de ahí va.
06:50Estoy curioso de lo que está pasando aquí.
06:52¿Quieres contarnos un poco de eso?
06:54Ahora que has visto un poco de Operator,
06:56déjame hablar un poco
06:57de la investigación detrás.
06:58Operator es basado
06:59en el nuevo modelo
07:00que hemos entrenado en OpenAI,
07:01que llamamos
07:02el agente de uso de computador,
07:03o CUA,
07:04por corto.
07:05CUA es un modelo
07:06construido a partir de GPT-4,
07:07pero también está entrenado
07:08a usar y controlar
07:09un computador
07:10como los humanos pueden,
07:11simplemente mirando la pantalla
07:12y usando un mouse
07:13y un móvil
07:14para controlarlo.
07:16Antes,
07:17si querías construir algo
07:18como Operator
07:19sin CUA,
07:20tendrías que usar
07:21algunos API especializados.
07:22Por ejemplo,
07:23si querías que tu modelo
07:24comprara cosas de Instacart,
07:25tendrías que descubrir
07:26si Instacart
07:27tenía un API,
07:28tendrías que descubrir
07:29si ese API
07:30tenía todas las funciones
07:31que necesitaba,
07:32y tendrías que dar
07:33a tu modelo
07:34las especificaciones de ese API.
07:35Pero si tu sitio,
07:36como la mayoría de los otros
07:37sitios web,
07:38no tenía un API,
07:39tendrías que descargar
07:40tu modelo
07:41a través de Instacart.
07:42Esto es simplemente
07:43usando imágenes,
07:44sin API,
07:45nada,
07:46simplemente trabajando.
07:47Sin API, sí.
07:48Y ahí es donde
07:49entra CUA.
07:50A través de enseñar
07:51a un modelo
07:52cómo usar
07:53la misma interfaz básica
07:54que usamos
07:55a día a día,
07:56solo desbloquea
07:57una nueva variedad
07:58de software
07:59que antes
08:00era inaccesible.
08:01Así que esto es
08:02mouse y módulo, ¿verdad?
08:03Es como usar
08:04mouse y módulo
08:05como un ser humano.
08:06Exactamente, sí.
08:07Y eso es realmente
08:08lo que está sucediendo
08:09en el mundo digital.
08:10Así que hagámoslo un poco
08:11más concreto
08:12mirando esta tarea
08:13y viendo exactamente
08:14cómo el operador
08:15está usando un computador.
08:16Ya está hecho.
08:17Sí, parece que ya está hecho,
08:18pero volvamos
08:19un poco
08:20al topo aquí.
08:21Bien,
08:22así que
08:23escogí un lugar random.
08:24La primera cosa
08:25que CUA hace
08:26cuando controla
08:27un computador
08:28es que mira
08:29la pantalla.
08:30Así que ahora ves
08:31tal vez
08:32la página de resultados
08:33para huevos
08:34en Instacart.
08:35Así que CUA entiende esto,
08:36solo ve los píxeles
08:37y después
08:38de que CUA ve
08:39esta imagen
08:40decide qué hacer
08:41a continuación.
08:42Así que ahora
08:43está haciendo
08:44algunos monólogos internos
08:45y esto es una cadena
08:46de pensamiento resumida.
08:47Así que lo que CUA está haciendo
08:48es según
08:49seleccionar huevos orgánicos
08:50y agregarlos a la parte.
08:51Es una cosa reasonable
08:52para hacer.
08:53Así que después de que
08:54haga este plan
08:55luego descubre
08:56cuál es la próxima acción
08:57que debe tomar.
08:58Así que veamos
08:59qué hace en el siguiente paso.
09:00Bien,
09:01así que ves
09:02que hace un clic
09:03en este botón de añadir
09:04aquí.
09:05Así que eso es
09:06la siguiente acción.
09:07Toma la siguiente imagen
09:08del computador
09:09para saber
09:10qué efecto
09:11esa acción tuvo
09:12en el computador.
09:13Así que veamos
09:14qué pasa a continuación.
09:15Bien, así que
09:16después de hacer clic
09:17en el botón de añadir
09:18ahora lo ves en la carta.
09:19Y esto
09:20solo sigue
09:21continuando.
09:22Veamos
09:23qué hace a continuación.
09:24Bien, así que crea
09:25el siguiente plan subyacente
09:26que es agregar huevos
09:27y buscar por espinachos.
09:28Así que probablemente
09:29va a buscar por espinachos ahora.
09:30Bien, así que clica
09:31en la barra de búsqueda
09:32de ahí
09:33y escribe espinachos.
09:35Y esta línea
09:36de tomar acciones,
09:37tomar imágenes
09:38y crear nuevos plans subyacentes
09:40solo sigue
09:41hasta que el operador decide
09:42que se acabó con la tarea
09:43y luego
09:44se devuelve a ti.
09:45Es muy genial
09:46ver que el proceso de negocio
09:47se sigue así.
09:48Lo es, sí.
09:49Así que vamos a volver
09:50a Live
09:51y, sí,
09:52el operador se acabó.
09:53Josh, ¿quieres ver
09:54si el operador
09:55se acabó?
09:56Sí, vamos a ver.
09:58¿Sabes qué?
09:59Quiero un poco más de huevos.
10:01Creo que
10:02comemos mucho huevo.
10:03Bien, así que
10:04lo que puedo hacer en este punto
10:05y voy a hacer clic
10:06en este botón
10:07llamado tomar control.
10:08Así que,
10:09como estábamos hablando
10:10de que el operador
10:11empuja a este browser remoto
10:12para hacerlo,
10:13casi lo pensamos
10:14como un área de superficie
10:15donde el operador puede trabajar
10:16y yo puedo trabajar.
10:17Por ejemplo, en este caso
10:18tomé el control
10:19del operador
10:20que también es clave
10:21para cómo pensamos
10:22sobre el usuario
10:23y los controles del usuario.
10:24En cualquier momento
10:25el usuario
10:26debería poder tomar control
10:27y dar instrucciones
10:28del operador
10:29o decir un poco más
10:30o guiar un poco más, etc.
10:31Es como pasar
10:32el computador
10:33como lo hicimos con Ray.
10:34Totalmente, totalmente.
10:35Exactamente.
10:36En este caso
10:37voy a hacer estos dos
10:38y luego voy a decir al operador.
10:40Esto es muy parecido
10:41a cuando tú y yo
10:42estábamos trabajando
10:43y dijimos,
10:44hey, hice esto.
10:45¿Puedes arreglar esto?
10:46Y voy a decir al operador
10:47que agregué
10:48otro huevo.
10:49Está bien.
10:50Está mejor ahora.
10:51¿El operador puede ver
10:52lo que estás haciendo
10:53en el modo de toma?
10:54Buen punto.
10:55Cuando tomas el control
10:56es muy parecido
10:57a una sesión
10:58con tu browser local.
10:59Es completamente privado.
11:00El operador no puede ver.
11:01Y esta es una de las razones
11:02por las cuales
11:03tengo que decirle al operador.
11:04No es necesario.
11:05Puede mirar el último screenshot
11:06y intentar adivinarlo.
11:07Pero es muy bueno.
11:08Es como si tú y yo
11:09estuviéramos trabajando juntos
11:10y salimos y hicimos algo
11:11y volvimos y dijimos,
11:12Ray, me he arreglado
11:13completamente.
11:14¿Puedes arreglar esto?
11:15Tengo que decirte eso.
11:16En este caso
11:17voy a decir al operador
11:18que va,
11:19y ahora estoy pasando
11:20el control
11:21de nuevo al operador.
11:22Es una sesión completamente
11:23privada
11:24cuando tomas el control.
11:25Esto es también...
11:26Notarás que estoy
11:27conectado a Instacart aquí.
11:28Lo hice antes de la demo
11:29y...
11:30o he estado conectado
11:31desde hace un rato.
11:32Y es, de nuevo,
11:33muy parecido
11:34a tu browser local
11:35cuando te conectas
11:36a Instacart
11:37hasta que las galletas
11:38estén vacías,
11:39te quedas conectado
11:40y tenemos muy buenos controles.
11:41Puedes ir a Settings
11:42y Control
11:43y removerlo
11:44en cualquier momento.
11:45Entonces,
11:46veamos.
11:47Bien.
11:48Voy a evitar
11:49los pagos aquí.
11:50Y vamos a...
11:51¿Deberíamos intentar
11:52hacer un par de cosas más?
11:53Vamos.
11:54Sí.
11:55¿Qué queremos hacer?
11:56Seguro que los Lakers
11:57están en la ciudad esta semana.
11:58Los Lakers están en la ciudad,
11:59definitivamente.
12:00Sí.
12:01Vamos a hacerlo.
12:02Bien.
12:03Vamos a usar
12:04StubHub.
12:06Can you get us
12:08four tickets
12:10to the Warriors game,
12:11not the Lakers game.
12:12Excuse me.
12:13You're right.
12:14This weekend
12:16in SF.
12:18Best seats
12:20under
12:21500, please.
12:23Give us a few options.
12:26And so,
12:27what apps are available here?
12:28We have
12:29a lot of apps.
12:30I'll kick it off.
12:31And...
12:32All right.
12:33Let's do it.
12:34So, we have a lot of apps
12:35in various different categories
12:36as was shown on the homepage.
12:38So, it's StubHub,
12:39Target,
12:40Etsy,
12:41and all the verticals.
12:42But also,
12:43Operator is not really restricted
12:44with these apps.
12:45You can use, pretty much,
12:46you know,
12:47Operator with any website.
12:48Oops.
12:49Oh.
12:50What happened?
12:51Oh.
12:52I was watched.
12:53Let's see.
12:54Let's try to fix it.
12:55So, this is a good example
12:56of, you know,
12:57sometimes things happen
12:58in live demos.
12:59We have put
13:00a protection in place
13:01where we only allow
13:03Operator to visit
13:04STPS sites.
13:05And somehow,
13:06I think a redirect
13:07must be happening
13:08where...
13:09Okay.
13:11All set.
13:12Keep going.
13:13All right.
13:14Cool.
13:19So, again,
13:20as we have talked about,
13:21it is...
13:22It's a remote browser,
13:23so it can do a lot of things.
13:24One of the advantages
13:25of doing that
13:26is you can do a lot of tasks
13:27in parallel,
13:28as Sam,
13:29you were talking about earlier.
13:30So, let's try to do
13:31a few more tasks.
13:32Australian Open
13:33is going on,
13:34and I've been very inspired by it.
13:35Did you watch
13:36the quarterfinals?
13:37I've been watching
13:38the quarterfinals.
13:39All right.
13:40Great, great, great.
13:41Okay.
13:42So, I'm going to try
13:43and see if I can get
13:44a tennis coat.
13:45Can you find...
13:46Can you see
13:47if St. Mary...
13:48Okay.
13:50Okay.
13:51I said St. Mary
13:52because I live
13:53in Bernal Heights.
13:54That's pretty close by.
13:55And while that's going,
13:56let's also...
13:57And that time,
13:58you did not specify a website.
13:59I did not specify a website.
14:00I can actually
14:01quickly go back and see.
14:02In this case,
14:03it's doing very much
14:04what we would do,
14:05which is, like, you know,
14:06go to a search engine
14:07and then search for it.
14:08Just use the Internet, like...
14:09Exactly.
14:10Okay.
14:11I'm also hosting
14:12a Super Bowl party.
14:13You guys are invited.
14:14Thank you.
14:15Thank you.
14:16But I need to go.
14:17I need to go.
14:18But I need to clean the house.
14:21Can you find me
14:23house cleaners
14:25for next week, please?
14:27Okay.
14:29And, lastly,
14:31and we've all been working
14:32really hard to bring this to you.
14:33The whole team.
14:34The whole team.
14:35We have a big crew here.
14:36Everyone's working.
14:37And we're getting hungry.
14:38I didn't have breakfast.
14:39And I kind of want pizza,
14:40even though it's weird for breakfast.
14:42But that's okay.
14:43And so I'm going to go ahead
14:44and order some pizzas.
14:45I thought I saw that.
14:46Okay.
14:48So we're going to use DoorDash
14:49in this case.
14:50Can you get us
14:52ten medium-sized pizzas?
14:59Goat Hill?
15:00Okay.
15:01Goat Hill.
15:03Can you make sure you have barbecue?
15:05Please add barbecue pizza.
15:10It's so hard not to say please.
15:12I just feel like I have to be
15:13really nice to it.
15:15Which I do.
15:18Okay.
15:19The shop might be closed.
15:20If the restaurant
15:24is closed,
15:26just schedule it.
15:28I love that you're talking to it
15:29just like you would a human.
15:30I know.
15:31I'm thinking inner monologue
15:32and then I'm typing it out.
15:37Okay.
15:38Also, one thing I'll call out,
15:39I think, okay.
15:40Google.
15:41Okay.
15:42So it's asking,
15:43it's just asking me to confirm
15:44basically what I said
15:45in a much better way.
15:46Yes.
15:48We can't see the
15:51notifications popping up
15:52on the live stream,
15:53but for example,
15:54as the other tasks are going on,
15:55if I need assistance,
15:56for example,
15:57in this case,
15:58it asked me,
15:59hey,
16:00is 941100?
16:01I can just say yes.
16:02But I would be getting
16:03notifications, et cetera,
16:04so that whenever
16:06an operator needs help,
16:07we can go back and help.
16:08Looks like in this case
16:09it's already found us
16:10tennis courts.
16:12Okay.
16:13Well, we have some selections
16:14to make.
16:15They're amazing.
16:16I know.
16:17Why do I believe
16:18374 is better than 262?
16:19That's an interesting thing.
16:20But it's lower rated.
16:21Which one should we add?
16:22Row six?
16:23I think row one.
16:24Row one is good.
16:25Row one?
16:26Okay, let's do that.
16:27Let's do
16:28section
16:29214.
16:30Row one.
16:32So this is a good time
16:33to talk about
16:34the human in the loop
16:35interaction mode
16:36that we've been developing.
16:37You can see that
16:38operator comes back
16:39and asks for confirmation
16:40when it's about to do
16:41anything kind of
16:42impactful.
16:43And,
16:44yeah, so I think
16:45we're all very excited
16:46about this vision
16:47of operator
16:48doing your chores for you.
16:49But it is
16:50one of the first agents
16:51that we're putting out
16:52in the world
16:53and which has
16:54real world side effects.
16:55And so we
16:56thought carefully
16:57about how to
16:58deploy this safely.
16:59The framework we used
17:00to think about this
17:01was one centered
17:02around misalignment.
17:03So, for example,
17:04what if the user
17:05is misaligned?
17:06So maybe they're
17:07asking for
17:08a harmful task
17:09like buy a weapon
17:10or something like that.
17:11In that case,
17:12fortunately,
17:13we were able
17:14to bring over
17:15a lot of the same mitigations.
17:16So, for example,
17:17we refuse harmful tasks
17:18including harmful
17:19agentic tasks.
17:20We have
17:21moderation models.
17:22We have
17:23post-hoc detection.
17:24We have
17:25blocked websites.
17:26And, you know,
17:27I'm kind of
17:28rattling off
17:29these mitigations,
17:30but that's really
17:31how we think about it.
17:32It's this stack
17:33of mitigations
17:34that each
17:35incrementally
17:36reduce the risk
17:37to the point
17:38where we feel
17:39comfortable deploying.
17:40So all the confirmations
17:41that we're saying,
17:42buy the ticket,
17:43those are all examples
17:44of the same thing.
17:45Exactly.
17:46And I'm about
17:47to talk about
17:48the confirmations.
17:49So another area
17:50of misalignment
17:51is if the agent
17:52is misaligned.
17:53So if the model
17:54makes a mistake,
17:55maybe purchases
17:56the wrong item
17:57or books
17:58the wrong hotel room.
17:59For this,
18:00our main mitigation
18:01is confirmations.
18:02So the operator
18:03will come back
18:04if it's about
18:05to do something
18:06stateful
18:07and ask you
18:08so you can
18:09double check
18:10its details
18:11to make sure
18:12that it's true.
18:13So the other
18:14area of misalignment
18:15is if the website
18:16is misaligned.
18:17So maybe the website
18:18is fraudulent
18:19or it's a fake website
18:20or maybe it's literally
18:21like, operator,
18:22please wire me $100.
18:23We obviously don't want
18:24to follow those instructions.
18:25So we've developed
18:26our model
18:27to try to avoid
18:28those instructions
18:29and not follow them.
18:30But if that fails,
18:31we also have
18:32a separate layer on top.
18:33This is what we call
18:34the prompt injection monitor.
18:35Think of it
18:36as like antivirus
18:37that kind of observes
18:38and watches your trajectory
18:39and sees if there's
18:41So we feel
18:42pretty comfortable
18:43with our approach.
18:44But obviously,
18:45safety is an
18:46ongoing process.
18:47We can't predict
18:48everything.
18:49So we hope
18:50to learn a lot
18:51from this deployment
18:52and iterate
18:53on our mitigations
18:54as we go.
18:55And that is one
18:56of the reasons
18:57we are starting small.
18:58We want to really iterate,
18:59get a lot of feedback
19:00and then gradually
19:01bring it to everyone.
19:02Exactly.
19:03Should we check
19:04on status of our tasks?
19:05Yeah, let's check
19:06on the status.
19:07OK.
19:08So it looks like
19:09yes, please.
19:11OK.
19:12Well, that's happening.
19:13This is good.
19:14You can ask it to book it,
19:15but I'm just going to
19:16close it for now.
19:17Oh,
19:18just once, please.
19:21Continue.
19:23And it looks like
19:24we're adding pizzas.
19:29Oh, cool.
19:30I'm going to go ahead
19:31and log in here really quick.
19:32So this is an example, right,
19:33like where
19:34I obviously need to log in
19:35or enter my
19:36credentials
19:37to actually purchase
19:38these tickets.
19:39And the operator
19:40just asks,
19:41as you just described,
19:42with confirmations
19:43and making sure
19:44the control is
19:45in the right place
19:46and we can take control.
19:47And at this point,
19:48as we talked about earlier,
19:49the session is completely
19:50private as well.
19:51I am going to,
19:52you know what,
19:53log in live.
19:55Let's see how that goes.
20:03I'm going to do
20:04a sign-in with email code
20:05because I don't really remember.
20:06One second.
20:08Pull it up.
20:10Don't try to copy this.
20:18All right, good.
20:19Now, again,
20:20I can sort of continue
20:21the purchase here
20:22or I can ask
20:23operator to do it,
20:24but I am going to
20:25go ahead
20:26and just quickly
20:27do this purchase
20:28for myself.
20:29Click, click, click.
20:30All great.
20:31All great.
20:33Order.
20:34Buy now.
20:38Maybe I don't want
20:39to show that live.
20:40Yeah, maybe.
20:42Let's see.
20:43I kind of want
20:44to buy the tickets.
20:45Okay.
20:46Oops.
20:48All right.
20:49Done.
20:50I am going to cancel
20:51this card.
20:52It's probably fine.
20:54All right.
20:55I can,
20:56I am all set.
20:59Thank you for the help.
21:03Okay.
21:04So how reliable
21:05is this in practice?
21:07Yeah, so we have seen
21:08a lot of cool demos,
21:09but again,
21:10we want to remind you
21:11that operator
21:12is a research preview.
21:13It will make mistakes
21:14and it is not perfect.
21:15That said,
21:16we can look
21:17at a few benchmarks
21:18and kind of quantify
21:19how good operator
21:20is right now.
21:21So one of the first benchmarks
21:23that we are going to look at
21:24is called OS World.
21:25OS World is an eval
21:26that measures
21:27how well AI agents
21:28navigate common
21:29operating systems
21:30like Linux.
21:31On this task,
21:32Kua gets a 38.1% score,
21:34which is higher
21:35than other publicly
21:36published results.
21:37Human performance
21:38in this task
21:39is 72.4%,
21:40so we still have
21:41room to grow definitely.
21:42The other eval
21:43we'll take a look at
21:44is called Web Arena.
21:45Web Arena is an eval
21:46that measures
21:47how well AI agents
21:48navigate some common websites
21:49like e-commerce websites
21:50or social forum websites.
21:52So on this task,
21:53Kua gets 58.1%,
21:55again,
21:56higher than other
21:57publicly published results,
21:58but still falls short
21:59of human performance.
22:01Still a way to go.
22:02Still a way to go.
22:03Yes.
22:04One thing that's important
22:05to remember about Web Arena
22:06is that,
22:07even though it's the web,
22:08we're still just giving it
22:09the same universal interface
22:10of screen,
22:11mouse,
22:12and keyboard.
22:13We're not giving it
22:14any extra information
22:15that might help it
22:16do the task
22:17like the raw text
22:18of the web page
22:19or information about
22:20which buttons are clickable
22:21and all the information
22:22it needs,
22:23just like humans.
22:24It's just in the screenshot.
22:25And so,
22:26right now,
22:27obviously in operator
22:28we're using the browser,
22:29but I could use the model
22:30with the computer as well
22:31with just Ubuntu
22:32or Mac
22:33or whatever else.
22:34So, in the last,
22:35you know,
22:36I don't know,
22:3715 minutes?
22:38I think I did all my errands
22:39for the week.
22:40Got my groceries,
22:41dentist code booked,
22:42cleaner's coming,
22:43hopefully.
22:44We'll see.
22:45We'll check on the status.
22:46We have tickets.
22:47Everyone's coming.
22:48And this is really,
22:49I think,
22:50where we think operator
22:51is very, very valuable.
22:52We can delegate a lot of tasks
22:53that you can do,
22:54obviously,
22:55yourself,
22:56but you can delegate it.
22:57It can make a lot of progress
22:58with you.
22:59Sometimes we'll get stuck.
23:00As we said,
23:01it's early.
23:02We can come back,
23:03but that's the thing.
23:04We're launching this today.
23:05We're going to start
23:06slowly rolling it out
23:07right now.
23:08End of the day,
23:09everyone on Pro in the U.S.
23:10will have access,
23:11but also we're working
23:12on the API.
23:13This model will be available
23:14in the API
23:15and will be launching
23:16in a few weeks.
23:17You guys, congrats.
23:18This is incredible work.
23:19So excited to get this out.
23:20I think people are going
23:21to love it.
23:22It's early,
23:23as we mentioned,
23:24but we have a long
23:25and great history here
23:26of early research previews
23:27developing into products
23:28that people really love.
23:29So, this is really
23:30the beginning of this product.
23:31This is the beginning
23:32of the first step
23:33into Agents Level 3
23:34on our tiers.
23:36And we can't wait
23:38to see how people
23:39are going to use this
23:40and to kind of work with us
23:41to figure out
23:42where exactly it should go.
23:43So, again, congrats.
23:45Hope you enjoy it.
23:46Thank you very much.

Recomendada