Begins at 10am PT
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
Join Sam Altman, Yash Kumar, Casey Chu, and Reiichiro Nakano as they introduce and demo Operator.
Categoría
🤖
TecnologíaTranscripción
00:00¡Buenos días!
00:01¡Tenemos algo muy emocionante para ti hoy!
00:02¡Vamos a lanzar nuestro primer agente!
00:04Los agentes artificiales son sistemas artificiales
00:06que pueden hacer trabajo para ti independientemente.
00:08Te dan una tarea y se van y lo hacen.
00:10Creemos que esto va a ser una gran tendencia en la inteligencia artificial
00:12y realmente va a impactar el trabajo que la gente puede hacer,
00:14cómo productivos pueden ser,
00:15cómo creativos pueden ser,
00:16lo que pueden acompañar.
00:18Comenzamos hoy con Operator.
00:20Operator es un sistema que puede utilizar
00:22la inteligencia artificial,
00:23la tecnología artificial,
00:24la tecnología artificial,
00:25la tecnología artificial,
00:26la tecnología artificial,
00:27la tecnología artificial,
00:28la tecnología artificial,
00:29la tecnología,
00:30y la tecnología artificial.
00:31Operator es un sistema
00:32que puede utilizar un web browser,
00:33en este caso,
00:34un web browser en la nube.
00:36para que se pague la traba que le da.
00:37Te mostraremos una prueba en un segundo más fuertes,
00:39pero es realmente muchas cosas que puede hacer.
00:42Así como tú
00:42puedes usar un web browser,
00:44declarare píxeles
00:46Colocar una pantalla
00:47y el agente puede hacerlo
00:48y después de esto
00:49controlar el apparato del keyboard
00:50y el mouse
00:51hace todo tipo de cosas
00:52Este va a ir a vivo hoy
00:54en los E. E. U.
00:55para los profesionales
00:57a los usuarios de Plus.
00:59Este es un preview de investigación inicial.
01:01Tenemos muchas mejoras que hacer.
01:02Lo haremos mejor, lo haremos más barato,
01:03lo haremos más disponible,
01:05pero realmente queremos ponerlo en las manos de la gente.
01:07También tendremos más agentes para lanzar
01:09en los próximos meses y semanas,
01:10pero, con eso dicho,
01:11hablaremos más después.
01:12Estoy muy emocionado.
01:13Solo quiero mostrarles una demo.
01:14Lo envío a Yash.
01:15¡Gracias, Sam!
01:16Hola, soy Yash.
01:17Este es Casey.
01:18Ese es Ray.
01:19Y trabajamos en la equipo de agentes de computadores.
01:21Y estamos muy emocionados de mostrarles a Operator hoy.
01:23Como Sam dijo,
01:24Operator es un preview de investigación inicial.
01:26Tiene muchas cosas geniales.
01:27También hace errores.
01:28A veces, cosas embarazadoras.
01:29Pero mostremosles lo que puede hacer Operator.
01:32Bien.
01:33Esta es la página web de Operator.
01:35Está en lives.operator.chatgpt.com
01:37y será accesible
01:38a medida que se termine el live stream.
01:40Y, como pueden ver,
01:41la interfaz es muy similar a ChatGPT.
01:43Pueden escribir un promto
01:44y Operator intentará ejecutar la tarea
01:46a lo mejor de su capacidad.
01:48También veremos
01:49una lista de promotos pre-llegados.
01:51Estos no son realmente recomendaciones.
01:53Estos son cosas que,
01:55para darles una idea de lo que puede hacer Operator,
01:57hemos colaborado con varias empresas,
01:59como OpenTable,
02:00Allrecipes,
02:01TubHub,
02:02Uber,
02:03Thumbtack,
02:04Doordash,
02:05eBay,
02:06Target,
02:07para asegurarnos de que Operator funciona bien en estas páginas.
02:09Pero también creemos que los usuarios
02:11encontrarán a Operator muy valioso
02:13en interactuar con estas plataformas.
02:15Así que con eso,
02:16empecemos con la demo.
02:17Voy a empezar con algo bastante simple.
02:19Voy a usar OpenTable
02:21y diré...
02:22Pregúntame una mesa para dos
02:24en Beretta
02:26esta noche
02:28a las siete de la mañana.
02:29Bien.
02:30Así que específicamente elegiste OpenTable.
02:32Sí. En este caso, estoy pidiendo a Operator
02:34que utilice OpenTable para preguntar una mesa para dos en Beretta.
02:36Beretta es un restaurante en San Francisco.
02:38Es genial. Deberías probarlo.
02:40Y a las siete de la mañana.
02:41Y podría...
02:42Estoy usando OpenTable en este caso,
02:44pero podría decir fácilmente
02:45simplemente
02:46hacer Beretta
02:47y probablemente iría a Search Engine
02:49y descubrir cómo hacer una reserva también.
02:51¿Puedes explicar lo que está sucediendo en esto?
02:53Sí.
02:54Voy a expandir esto un poco.
02:56Así que, a medida que escribo en la búsqueda,
02:58Operator instanció un browser completamente remoto.
03:01Este browser está funcionando en el cloud,
03:03y como puedes ver,
03:04ya está funcionando.
03:06Mis manos están fuera del botón.
03:07No estoy escribiendo estas cosas.
03:08Esto es solo el AI clickeando alrededor.
03:10El AI clickeando alrededor.
03:12Comenzó esta sesión de browser.
03:14Sabía dónde estaba el sitio web de OpenTable,
03:16que es opentable.com.
03:17Como puedes ver,
03:18hay una cadena de pensamiento sumarizada aquí también,
03:20se fue a la URL,
03:21buscó Beretta,
03:22y algo genial realmente sucedió,
03:24que por algún motivo,
03:25el operador,
03:26OpenTable pensó que estábamos en Virginia,
03:28y se autocorregió a San Francisco.
03:31Esto es usando,
03:32así como ChatGPT,
03:34en el operador,
03:35también puedes dar instrucciones customizadas.
03:36Voy a mostrar esto muy rápidamente aquí.
03:39Bien.
03:40Le he dado una instrucción customizada
03:41que para las cuestiones necesarias,
03:42yo vivo en San Francisco.
03:44El operador lo reconoció,
03:46y luego se autocorregió
03:47y se autocorregió a Beretta.
03:51Bien, parece que 7 PM no está disponible,
03:53pero ¿sabes qué?
03:547.45 está perfecto,
03:55así que vamos a hacerlo.
03:57En este caso,
03:58el operador regresó,
03:59y este es un buen ejemplo de tasas de obligación,
04:01donde el operador necesita ayuda,
04:03o necesita asistencia,
04:04o solo quiere preguntarte algo,
04:05y vuelve y le responde.
04:06En práctica,
04:07no tendrías que ver esto.
04:08Podrías dejar que saliera
04:09mientras hacías otras cosas,
04:10y luego regresaría y dijera,
04:11hey, no puedo hacer 7.45.
04:12Totalmente.
04:13Y empezamos con una aplicación web,
04:14obtendrás notificaciones, etc.
04:16El operador se convierte en móvil,
04:17obtendrás notificaciones móviles,
04:18mucho como las interacciones que hacemos con las aplicaciones generales.
04:21Bien, sí,
04:22eso es genial,
04:23hagámoslo.
04:25Bien,
04:26de nuevo,
04:27una interacción muy sencilla,
04:28como la que tendrías con un asistente,
04:29que es,
04:30hey,
04:31encontré una reservación,
04:327 PM no está disponible,
04:33hagámoslo a 7.45.
04:34Y, de nuevo,
04:35puedes ver,
04:36el operador,
04:37en este punto,
04:38dice,
04:39bien, ¿debería?
04:40De nuevo,
04:41este es un buen ejemplo
04:42del trabajo de confirmación
04:43que vamos a hablar un poco más tarde,
04:44pero,
04:45que es algo irreversible,
04:46en este caso.
04:47Podemos cancelar la reservación,
04:48obviamente,
04:49pero, de nuevo,
04:50tomando una acción crítica,
04:51el operador nos pregunta antes de hacerlo.
04:53Y, en este caso,
04:54voy a decir,
04:55hagámoslo.
04:58Bien,
04:59fue bastante rápido,
05:00diría,
05:01como,
05:0250 segundos,
05:03y,
05:04de nuevo,
05:05estábamos viendo,
05:06en este caso,
05:07etc.,
05:08pero,
05:09como Sam dijo,
05:10pégalo y vamos.
05:11Bien,
05:12hagámoslo,
05:13algo,
05:14que nunca sucedió antes.
05:16Bien,
05:17hagámoslo a 15 segundos.
05:19Bien,
05:20mientras lo hacemos,
05:21¿qué tal si intentamos algo un poco más complicado?
05:24La comida.
05:25Sí,
05:26me encanta la comida,
05:27así que he estado usando el operador
05:28para comprar todas mis comidas,
05:29me encanta cocinar,
05:30bastante,
05:31y,
05:32he estado usando el operador
05:33exclusivamente para las comidas,
05:34así que vamos,
05:35tengo una lista de compras aquí,
05:36que es,
05:37esta,
05:38veámos qué es.
05:39Huevos,
05:40espinachas,
05:41mantequillas,
05:42patatas de pollo,
05:44Entonces,
05:45esta es la imagen que estás publicando.
05:46Exactamente.
05:47Y voy a usar Instacart,
05:48que es,
05:49de nuevo,
05:50lo que usamos generalmente.
05:51¿Puedes comprar esto para mí,
05:52por favor?
05:53Y también voy a especificar la tienda que me gusta,
05:56que es,
05:57bueno,
05:58veámos si lo logro,
05:59me he equivocado,
06:00por cierto,
06:01veámoslo.
06:02Bien,
06:03en este caso,
06:04de nuevo,
06:05el operador rápidamente,
06:06de hecho,
06:07reconoció,
06:08usando las capacidades de visión de GPT-4,
06:09para entender que la imagen
06:10decía huevos,
06:11espinachas,
06:12patatas de pollo,
06:13y dije,
06:14sí,
06:15eso suena genial.
06:21Bien,
06:22de nuevo,
06:23al igual que OpenTable,
06:24instanció un browser,
06:25y va a empezar a hacer pruebas.
06:27Voy a expandir la visión,
06:29y veámos lo que hace.
06:31Entonces,
06:32en ambos estos casos,
06:33has dicho lo que querías usar.
06:34Si dices,
06:35cómprame estas tiendas
06:36y no especificas Instacart,
06:37¿qué sucede?
06:38Hará una búsqueda,
06:39usará la máquina de búsqueda,
06:40mucho como lo hacemos nosotros,
06:41encontrar,
06:42Instacart,
06:43o el sitio web de Gus,
06:44o lo que sea,
06:45está en la máquina de búsqueda.
06:46Pasa por eso,
06:47pregunta si necesita clarificaciones,
06:49y de ahí va.
06:50Estoy curioso de lo que está pasando aquí.
06:52¿Quieres contarnos un poco de eso?
06:54Ahora que has visto un poco de Operator,
06:56déjame hablar un poco
06:57de la investigación detrás.
06:58Operator es basado
06:59en el nuevo modelo
07:00que hemos entrenado en OpenAI,
07:01que llamamos
07:02el agente de uso de computador,
07:03o CUA,
07:04por corto.
07:05CUA es un modelo
07:06construido a partir de GPT-4,
07:07pero también está entrenado
07:08a usar y controlar
07:09un computador
07:10como los humanos pueden,
07:11simplemente mirando la pantalla
07:12y usando un mouse
07:13y un móvil
07:14para controlarlo.
07:16Antes,
07:17si querías construir algo
07:18como Operator
07:19sin CUA,
07:20tendrías que usar
07:21algunos API especializados.
07:22Por ejemplo,
07:23si querías que tu modelo
07:24comprara cosas de Instacart,
07:25tendrías que descubrir
07:26si Instacart
07:27tenía un API,
07:28tendrías que descubrir
07:29si ese API
07:30tenía todas las funciones
07:31que necesitaba,
07:32y tendrías que dar
07:33a tu modelo
07:34las especificaciones de ese API.
07:35Pero si tu sitio,
07:36como la mayoría de los otros
07:37sitios web,
07:38no tenía un API,
07:39tendrías que descargar
07:40tu modelo
07:41a través de Instacart.
07:42Esto es simplemente
07:43usando imágenes,
07:44sin API,
07:45nada,
07:46simplemente trabajando.
07:47Sin API, sí.
07:48Y ahí es donde
07:49entra CUA.
07:50A través de enseñar
07:51a un modelo
07:52cómo usar
07:53la misma interfaz básica
07:54que usamos
07:55a día a día,
07:56solo desbloquea
07:57una nueva variedad
07:58de software
07:59que antes
08:00era inaccesible.
08:01Así que esto es
08:02mouse y módulo, ¿verdad?
08:03Es como usar
08:04mouse y módulo
08:05como un ser humano.
08:06Exactamente, sí.
08:07Y eso es realmente
08:08lo que está sucediendo
08:09en el mundo digital.
08:10Así que hagámoslo un poco
08:11más concreto
08:12mirando esta tarea
08:13y viendo exactamente
08:14cómo el operador
08:15está usando un computador.
08:16Ya está hecho.
08:17Sí, parece que ya está hecho,
08:18pero volvamos
08:19un poco
08:20al topo aquí.
08:21Bien,
08:22así que
08:23escogí un lugar random.
08:24La primera cosa
08:25que CUA hace
08:26cuando controla
08:27un computador
08:28es que mira
08:29la pantalla.
08:30Así que ahora ves
08:31tal vez
08:32la página de resultados
08:33para huevos
08:34en Instacart.
08:35Así que CUA entiende esto,
08:36solo ve los píxeles
08:37y después
08:38de que CUA ve
08:39esta imagen
08:40decide qué hacer
08:41a continuación.
08:42Así que ahora
08:43está haciendo
08:44algunos monólogos internos
08:45y esto es una cadena
08:46de pensamiento resumida.
08:47Así que lo que CUA está haciendo
08:48es según
08:49seleccionar huevos orgánicos
08:50y agregarlos a la parte.
08:51Es una cosa reasonable
08:52para hacer.
08:53Así que después de que
08:54haga este plan
08:55luego descubre
08:56cuál es la próxima acción
08:57que debe tomar.
08:58Así que veamos
08:59qué hace en el siguiente paso.
09:00Bien,
09:01así que ves
09:02que hace un clic
09:03en este botón de añadir
09:04aquí.
09:05Así que eso es
09:06la siguiente acción.
09:07Toma la siguiente imagen
09:08del computador
09:09para saber
09:10qué efecto
09:11esa acción tuvo
09:12en el computador.
09:13Así que veamos
09:14qué pasa a continuación.
09:15Bien, así que
09:16después de hacer clic
09:17en el botón de añadir
09:18ahora lo ves en la carta.
09:19Y esto
09:20solo sigue
09:21continuando.
09:22Veamos
09:23qué hace a continuación.
09:24Bien, así que crea
09:25el siguiente plan subyacente
09:26que es agregar huevos
09:27y buscar por espinachos.
09:28Así que probablemente
09:29va a buscar por espinachos ahora.
09:30Bien, así que clica
09:31en la barra de búsqueda
09:32de ahí
09:33y escribe espinachos.
09:35Y esta línea
09:36de tomar acciones,
09:37tomar imágenes
09:38y crear nuevos plans subyacentes
09:40solo sigue
09:41hasta que el operador decide
09:42que se acabó con la tarea
09:43y luego
09:44se devuelve a ti.
09:45Es muy genial
09:46ver que el proceso de negocio
09:47se sigue así.
09:48Lo es, sí.
09:49Así que vamos a volver
09:50a Live
09:51y, sí,
09:52el operador se acabó.
09:53Josh, ¿quieres ver
09:54si el operador
09:55se acabó?
09:56Sí, vamos a ver.
09:58¿Sabes qué?
09:59Quiero un poco más de huevos.
10:01Creo que
10:02comemos mucho huevo.
10:03Bien, así que
10:04lo que puedo hacer en este punto
10:05y voy a hacer clic
10:06en este botón
10:07llamado tomar control.
10:08Así que,
10:09como estábamos hablando
10:10de que el operador
10:11empuja a este browser remoto
10:12para hacerlo,
10:13casi lo pensamos
10:14como un área de superficie
10:15donde el operador puede trabajar
10:16y yo puedo trabajar.
10:17Por ejemplo, en este caso
10:18tomé el control
10:19del operador
10:20que también es clave
10:21para cómo pensamos
10:22sobre el usuario
10:23y los controles del usuario.
10:24En cualquier momento
10:25el usuario
10:26debería poder tomar control
10:27y dar instrucciones
10:28del operador
10:29o decir un poco más
10:30o guiar un poco más, etc.
10:31Es como pasar
10:32el computador
10:33como lo hicimos con Ray.
10:34Totalmente, totalmente.
10:35Exactamente.
10:36En este caso
10:37voy a hacer estos dos
10:38y luego voy a decir al operador.
10:40Esto es muy parecido
10:41a cuando tú y yo
10:42estábamos trabajando
10:43y dijimos,
10:44hey, hice esto.
10:45¿Puedes arreglar esto?
10:46Y voy a decir al operador
10:47que agregué
10:48otro huevo.
10:49Está bien.
10:50Está mejor ahora.
10:51¿El operador puede ver
10:52lo que estás haciendo
10:53en el modo de toma?
10:54Buen punto.
10:55Cuando tomas el control
10:56es muy parecido
10:57a una sesión
10:58con tu browser local.
10:59Es completamente privado.
11:00El operador no puede ver.
11:01Y esta es una de las razones
11:02por las cuales
11:03tengo que decirle al operador.
11:04No es necesario.
11:05Puede mirar el último screenshot
11:06y intentar adivinarlo.
11:07Pero es muy bueno.
11:08Es como si tú y yo
11:09estuviéramos trabajando juntos
11:10y salimos y hicimos algo
11:11y volvimos y dijimos,
11:12Ray, me he arreglado
11:13completamente.
11:14¿Puedes arreglar esto?
11:15Tengo que decirte eso.
11:16En este caso
11:17voy a decir al operador
11:18que va,
11:19y ahora estoy pasando
11:20el control
11:21de nuevo al operador.
11:22Es una sesión completamente
11:23privada
11:24cuando tomas el control.
11:25Esto es también...
11:26Notarás que estoy
11:27conectado a Instacart aquí.
11:28Lo hice antes de la demo
11:29y...
11:30o he estado conectado
11:31desde hace un rato.
11:32Y es, de nuevo,
11:33muy parecido
11:34a tu browser local
11:35cuando te conectas
11:36a Instacart
11:37hasta que las galletas
11:38estén vacías,
11:39te quedas conectado
11:40y tenemos muy buenos controles.
11:41Puedes ir a Settings
11:42y Control
11:43y removerlo
11:44en cualquier momento.
11:45Entonces,
11:46veamos.
11:47Bien.
11:48Voy a evitar
11:49los pagos aquí.
11:50Y vamos a...
11:51¿Deberíamos intentar
11:52hacer un par de cosas más?
11:53Vamos.
11:54Sí.
11:55¿Qué queremos hacer?
11:56Seguro que los Lakers
11:57están en la ciudad esta semana.
11:58Los Lakers están en la ciudad,
11:59definitivamente.
12:00Sí.
12:01Vamos a hacerlo.
12:02Bien.
12:03Vamos a usar
12:04StubHub.
12:06Can you get us
12:08four tickets
12:10to the Warriors game,
12:11not the Lakers game.
12:12Excuse me.
12:13You're right.
12:14This weekend
12:16in SF.
12:18Best seats
12:20under
12:21500, please.
12:23Give us a few options.
12:26And so,
12:27what apps are available here?
12:28We have
12:29a lot of apps.
12:30I'll kick it off.
12:31And...
12:32All right.
12:33Let's do it.
12:34So, we have a lot of apps
12:35in various different categories
12:36as was shown on the homepage.
12:38So, it's StubHub,
12:39Target,
12:40Etsy,
12:41and all the verticals.
12:42But also,
12:43Operator is not really restricted
12:44with these apps.
12:45You can use, pretty much,
12:46you know,
12:47Operator with any website.
12:48Oops.
12:49Oh.
12:50What happened?
12:51Oh.
12:52I was watched.
12:53Let's see.
12:54Let's try to fix it.
12:55So, this is a good example
12:56of, you know,
12:57sometimes things happen
12:58in live demos.
12:59We have put
13:00a protection in place
13:01where we only allow
13:03Operator to visit
13:04STPS sites.
13:05And somehow,
13:06I think a redirect
13:07must be happening
13:08where...
13:09Okay.
13:11All set.
13:12Keep going.
13:13All right.
13:14Cool.
13:19So, again,
13:20as we have talked about,
13:21it is...
13:22It's a remote browser,
13:23so it can do a lot of things.
13:24One of the advantages
13:25of doing that
13:26is you can do a lot of tasks
13:27in parallel,
13:28as Sam,
13:29you were talking about earlier.
13:30So, let's try to do
13:31a few more tasks.
13:32Australian Open
13:33is going on,
13:34and I've been very inspired by it.
13:35Did you watch
13:36the quarterfinals?
13:37I've been watching
13:38the quarterfinals.
13:39All right.
13:40Great, great, great.
13:41Okay.
13:42So, I'm going to try
13:43and see if I can get
13:44a tennis coat.
13:45Can you find...
13:46Can you see
13:47if St. Mary...
13:48Okay.
13:50Okay.
13:51I said St. Mary
13:52because I live
13:53in Bernal Heights.
13:54That's pretty close by.
13:55And while that's going,
13:56let's also...
13:57And that time,
13:58you did not specify a website.
13:59I did not specify a website.
14:00I can actually
14:01quickly go back and see.
14:02In this case,
14:03it's doing very much
14:04what we would do,
14:05which is, like, you know,
14:06go to a search engine
14:07and then search for it.
14:08Just use the Internet, like...
14:09Exactly.
14:10Okay.
14:11I'm also hosting
14:12a Super Bowl party.
14:13You guys are invited.
14:14Thank you.
14:15Thank you.
14:16But I need to go.
14:17I need to go.
14:18But I need to clean the house.
14:21Can you find me
14:23house cleaners
14:25for next week, please?
14:27Okay.
14:29And, lastly,
14:31and we've all been working
14:32really hard to bring this to you.
14:33The whole team.
14:34The whole team.
14:35We have a big crew here.
14:36Everyone's working.
14:37And we're getting hungry.
14:38I didn't have breakfast.
14:39And I kind of want pizza,
14:40even though it's weird for breakfast.
14:42But that's okay.
14:43And so I'm going to go ahead
14:44and order some pizzas.
14:45I thought I saw that.
14:46Okay.
14:48So we're going to use DoorDash
14:49in this case.
14:50Can you get us
14:52ten medium-sized pizzas?
14:59Goat Hill?
15:00Okay.
15:01Goat Hill.
15:03Can you make sure you have barbecue?
15:05Please add barbecue pizza.
15:10It's so hard not to say please.
15:12I just feel like I have to be
15:13really nice to it.
15:15Which I do.
15:18Okay.
15:19The shop might be closed.
15:20If the restaurant
15:24is closed,
15:26just schedule it.
15:28I love that you're talking to it
15:29just like you would a human.
15:30I know.
15:31I'm thinking inner monologue
15:32and then I'm typing it out.
15:37Okay.
15:38Also, one thing I'll call out,
15:39I think, okay.
15:40Google.
15:41Okay.
15:42So it's asking,
15:43it's just asking me to confirm
15:44basically what I said
15:45in a much better way.
15:46Yes.
15:48We can't see the
15:51notifications popping up
15:52on the live stream,
15:53but for example,
15:54as the other tasks are going on,
15:55if I need assistance,
15:56for example,
15:57in this case,
15:58it asked me,
15:59hey,
16:00is 941100?
16:01I can just say yes.
16:02But I would be getting
16:03notifications, et cetera,
16:04so that whenever
16:06an operator needs help,
16:07we can go back and help.
16:08Looks like in this case
16:09it's already found us
16:10tennis courts.
16:12Okay.
16:13Well, we have some selections
16:14to make.
16:15They're amazing.
16:16I know.
16:17Why do I believe
16:18374 is better than 262?
16:19That's an interesting thing.
16:20But it's lower rated.
16:21Which one should we add?
16:22Row six?
16:23I think row one.
16:24Row one is good.
16:25Row one?
16:26Okay, let's do that.
16:27Let's do
16:28section
16:29214.
16:30Row one.
16:32So this is a good time
16:33to talk about
16:34the human in the loop
16:35interaction mode
16:36that we've been developing.
16:37You can see that
16:38operator comes back
16:39and asks for confirmation
16:40when it's about to do
16:41anything kind of
16:42impactful.
16:43And,
16:44yeah, so I think
16:45we're all very excited
16:46about this vision
16:47of operator
16:48doing your chores for you.
16:49But it is
16:50one of the first agents
16:51that we're putting out
16:52in the world
16:53and which has
16:54real world side effects.
16:55And so we
16:56thought carefully
16:57about how to
16:58deploy this safely.
16:59The framework we used
17:00to think about this
17:01was one centered
17:02around misalignment.
17:03So, for example,
17:04what if the user
17:05is misaligned?
17:06So maybe they're
17:07asking for
17:08a harmful task
17:09like buy a weapon
17:10or something like that.
17:11In that case,
17:12fortunately,
17:13we were able
17:14to bring over
17:15a lot of the same mitigations.
17:16So, for example,
17:17we refuse harmful tasks
17:18including harmful
17:19agentic tasks.
17:20We have
17:21moderation models.
17:22We have
17:23post-hoc detection.
17:24We have
17:25blocked websites.
17:26And, you know,
17:27I'm kind of
17:28rattling off
17:29these mitigations,
17:30but that's really
17:31how we think about it.
17:32It's this stack
17:33of mitigations
17:34that each
17:35incrementally
17:36reduce the risk
17:37to the point
17:38where we feel
17:39comfortable deploying.
17:40So all the confirmations
17:41that we're saying,
17:42buy the ticket,
17:43those are all examples
17:44of the same thing.
17:45Exactly.
17:46And I'm about
17:47to talk about
17:48the confirmations.
17:49So another area
17:50of misalignment
17:51is if the agent
17:52is misaligned.
17:53So if the model
17:54makes a mistake,
17:55maybe purchases
17:56the wrong item
17:57or books
17:58the wrong hotel room.
17:59For this,
18:00our main mitigation
18:01is confirmations.
18:02So the operator
18:03will come back
18:04if it's about
18:05to do something
18:06stateful
18:07and ask you
18:08so you can
18:09double check
18:10its details
18:11to make sure
18:12that it's true.
18:13So the other
18:14area of misalignment
18:15is if the website
18:16is misaligned.
18:17So maybe the website
18:18is fraudulent
18:19or it's a fake website
18:20or maybe it's literally
18:21like, operator,
18:22please wire me $100.
18:23We obviously don't want
18:24to follow those instructions.
18:25So we've developed
18:26our model
18:27to try to avoid
18:28those instructions
18:29and not follow them.
18:30But if that fails,
18:31we also have
18:32a separate layer on top.
18:33This is what we call
18:34the prompt injection monitor.
18:35Think of it
18:36as like antivirus
18:37that kind of observes
18:38and watches your trajectory
18:39and sees if there's
18:41So we feel
18:42pretty comfortable
18:43with our approach.
18:44But obviously,
18:45safety is an
18:46ongoing process.
18:47We can't predict
18:48everything.
18:49So we hope
18:50to learn a lot
18:51from this deployment
18:52and iterate
18:53on our mitigations
18:54as we go.
18:55And that is one
18:56of the reasons
18:57we are starting small.
18:58We want to really iterate,
18:59get a lot of feedback
19:00and then gradually
19:01bring it to everyone.
19:02Exactly.
19:03Should we check
19:04on status of our tasks?
19:05Yeah, let's check
19:06on the status.
19:07OK.
19:08So it looks like
19:09yes, please.
19:11OK.
19:12Well, that's happening.
19:13This is good.
19:14You can ask it to book it,
19:15but I'm just going to
19:16close it for now.
19:17Oh,
19:18just once, please.
19:21Continue.
19:23And it looks like
19:24we're adding pizzas.
19:29Oh, cool.
19:30I'm going to go ahead
19:31and log in here really quick.
19:32So this is an example, right,
19:33like where
19:34I obviously need to log in
19:35or enter my
19:36credentials
19:37to actually purchase
19:38these tickets.
19:39And the operator
19:40just asks,
19:41as you just described,
19:42with confirmations
19:43and making sure
19:44the control is
19:45in the right place
19:46and we can take control.
19:47And at this point,
19:48as we talked about earlier,
19:49the session is completely
19:50private as well.
19:51I am going to,
19:52you know what,
19:53log in live.
19:55Let's see how that goes.
20:03I'm going to do
20:04a sign-in with email code
20:05because I don't really remember.
20:06One second.
20:08Pull it up.
20:10Don't try to copy this.
20:18All right, good.
20:19Now, again,
20:20I can sort of continue
20:21the purchase here
20:22or I can ask
20:23operator to do it,
20:24but I am going to
20:25go ahead
20:26and just quickly
20:27do this purchase
20:28for myself.
20:29Click, click, click.
20:30All great.
20:31All great.
20:33Order.
20:34Buy now.
20:38Maybe I don't want
20:39to show that live.
20:40Yeah, maybe.
20:42Let's see.
20:43I kind of want
20:44to buy the tickets.
20:45Okay.
20:46Oops.
20:48All right.
20:49Done.
20:50I am going to cancel
20:51this card.
20:52It's probably fine.
20:54All right.
20:55I can,
20:56I am all set.
20:59Thank you for the help.
21:03Okay.
21:04So how reliable
21:05is this in practice?
21:07Yeah, so we have seen
21:08a lot of cool demos,
21:09but again,
21:10we want to remind you
21:11that operator
21:12is a research preview.
21:13It will make mistakes
21:14and it is not perfect.
21:15That said,
21:16we can look
21:17at a few benchmarks
21:18and kind of quantify
21:19how good operator
21:20is right now.
21:21So one of the first benchmarks
21:23that we are going to look at
21:24is called OS World.
21:25OS World is an eval
21:26that measures
21:27how well AI agents
21:28navigate common
21:29operating systems
21:30like Linux.
21:31On this task,
21:32Kua gets a 38.1% score,
21:34which is higher
21:35than other publicly
21:36published results.
21:37Human performance
21:38in this task
21:39is 72.4%,
21:40so we still have
21:41room to grow definitely.
21:42The other eval
21:43we'll take a look at
21:44is called Web Arena.
21:45Web Arena is an eval
21:46that measures
21:47how well AI agents
21:48navigate some common websites
21:49like e-commerce websites
21:50or social forum websites.
21:52So on this task,
21:53Kua gets 58.1%,
21:55again,
21:56higher than other
21:57publicly published results,
21:58but still falls short
21:59of human performance.
22:01Still a way to go.
22:02Still a way to go.
22:03Yes.
22:04One thing that's important
22:05to remember about Web Arena
22:06is that,
22:07even though it's the web,
22:08we're still just giving it
22:09the same universal interface
22:10of screen,
22:11mouse,
22:12and keyboard.
22:13We're not giving it
22:14any extra information
22:15that might help it
22:16do the task
22:17like the raw text
22:18of the web page
22:19or information about
22:20which buttons are clickable
22:21and all the information
22:22it needs,
22:23just like humans.
22:24It's just in the screenshot.
22:25And so,
22:26right now,
22:27obviously in operator
22:28we're using the browser,
22:29but I could use the model
22:30with the computer as well
22:31with just Ubuntu
22:32or Mac
22:33or whatever else.
22:34So, in the last,
22:35you know,
22:36I don't know,
22:3715 minutes?
22:38I think I did all my errands
22:39for the week.
22:40Got my groceries,
22:41dentist code booked,
22:42cleaner's coming,
22:43hopefully.
22:44We'll see.
22:45We'll check on the status.
22:46We have tickets.
22:47Everyone's coming.
22:48And this is really,
22:49I think,
22:50where we think operator
22:51is very, very valuable.
22:52We can delegate a lot of tasks
22:53that you can do,
22:54obviously,
22:55yourself,
22:56but you can delegate it.
22:57It can make a lot of progress
22:58with you.
22:59Sometimes we'll get stuck.
23:00As we said,
23:01it's early.
23:02We can come back,
23:03but that's the thing.
23:04We're launching this today.
23:05We're going to start
23:06slowly rolling it out
23:07right now.
23:08End of the day,
23:09everyone on Pro in the U.S.
23:10will have access,
23:11but also we're working
23:12on the API.
23:13This model will be available
23:14in the API
23:15and will be launching
23:16in a few weeks.
23:17You guys, congrats.
23:18This is incredible work.
23:19So excited to get this out.
23:20I think people are going
23:21to love it.
23:22It's early,
23:23as we mentioned,
23:24but we have a long
23:25and great history here
23:26of early research previews
23:27developing into products
23:28that people really love.
23:29So, this is really
23:30the beginning of this product.
23:31This is the beginning
23:32of the first step
23:33into Agents Level 3
23:34on our tiers.
23:36And we can't wait
23:38to see how people
23:39are going to use this
23:40and to kind of work with us
23:41to figure out
23:42where exactly it should go.
23:43So, again, congrats.
23:45Hope you enjoy it.
23:46Thank you very much.