La profesora de la Universidad de Stanford Fei-Fei Li ya ha ganado su lugar en la historia de la IA. Desempeñó un papel fundamental en la revolución del aprendizaje profundo, trabajando durante años para crear el conjunto de datos y la competencia ImageNet, que desafiaba a los sistemas de IA a reconocer objetos y animales en 1,000 categorías. En 2012, una red neuronal llamada AlexNet causó un gran impacto en la comunidad de investigación de IA al superar rotundamente a todos los demás modelos y ganar el concurso de ImageNet. Desde entonces, las redes neuronales se han disparado, impulsadas por la vasta cantidad de datos de entrenamiento gratuitos disponibles en Internet y las GPU que ofrecen una capacidad de cómputo sin precedentes.
En los 13 años desde la creación de ImageNet, los investigadores de visión por computadora han dominado el reconocimiento de objetos y han avanzado hacia la generación de imágenes y videos. Li cofundó el Instituto para la IA centrada en los humanos (HAI) de Stanford y continuó ampliando los límites de la visión por computadora. Este mismo año, lanzó una startup, World Labs, que genera escenas 3D que los usuarios pueden explorar. World Labs se dedica a dotar a la IA de “inteligencia espacial,” o la capacidad de generar, razonar dentro de, e interactuar con mundos 3D. Li dio una charla principal ayer en NeurIPS, la enorme conferencia de IA, sobre su visión para la visión computarizada, y concedió una entrevista exclusiva a IEEE Spectrum antes de su presentación.
¿Por qué titulaste tu charla “Ascendiendo la escalera de la inteligencia visual”?
Fei-Fei Li: Creo que es intuitivo que la inteligencia tiene diferentes niveles de complejidad y sofisticación. En la charla, quiero transmitir la idea de que, durante las últimas décadas, especialmente en los últimos más de diez años de la revolución del aprendizaje profundo, las cosas que hemos aprendido a hacer con la inteligencia visual son asombrosas. Nos estamos volviendo más y más capaces con la tecnología. También me inspiré en la “escalera de la causalidad” de Judea Pearl [en su libro de 2020 The Book of Why].
La charla también tiene un subtítulo, “De ver a hacer”. Esto es algo que la gente no aprecia lo suficiente: que la visión está estrechamente vinculada con la interacción y con hacer cosas, tanto para los animales como para los agentes de IA. Y esto es un alejamiento del lenguaje. El lenguaje es fundamentalmente una herramienta de comunicación que se usa para transmitir ideas. En mi opinión, estas son modalidades de inteligencia complementarias pero igualmente profundas.
¿Te refieres a que respondemos instintivamente a ciertas imágenes?
Li: No estoy hablando solo de instinto. Si observas la evolución de la percepción y la evolución de la inteligencia animal, están profunda y profundamente entrelazadas. Cada vez que podemos obtener más información del entorno, la fuerza evolutiva impulsa la capacidad y la inteligencia hacia adelante. Si no percibes el entorno, tu relación con el mundo es muy pasiva; si comes o eres comido es un acto muy pasivo. Pero en cuanto puedes tomar señales del entorno a través de la percepción, la presión evolutiva realmente se intensifica, y eso impulsa la inteligencia hacia adelante.
¿Crees que esa es la forma en que estamos creando inteligencias artificiales más complejas? ¿Permitiendo que perciban más del entorno?
Li: No sé si “profunda” es el adjetivo que usaría. Creo que estamos creando más capacidades. Creo que se está volviendo más complejo, más capaz. Creo que es absolutamente cierto que abordar el problema de la inteligencia espacial es un paso fundamental y crítico hacia la inteligencia a gran escala.
He visto las demostraciones de World Labs. ¿Por qué quieres investigar la inteligencia espacial y construir estos mundos 3D?
Li: Creo que la inteligencia espacial es hacia donde se dirige la inteligencia visual. Si hablamos en serio sobre resolver el problema de la visión y también conectarlo con el hacer, hay un hecho extremadamente simple y evidente: el mundo es 3D. No vivimos en un mundo plano. Nuestros agentes físicos, ya sean robots o dispositivos, vivirán en el mundo 3D. Incluso el mundo virtual se está volviendo cada vez más 3D. Si hablas con artistas, desarrolladores de videojuegos, diseñadores, arquitectos, doctores, incluso cuando trabajan en un mundo virtual, gran parte de este es 3D. Si simplemente te detienes un momento y reconoces este simple pero profundo hecho, no hay duda de que resolver el problema de la inteligencia 3D es fundamental.
Tengo curiosidad sobre cómo las escenas de World Labs mantienen la permanencia de los objetos y el cumplimiento de las leyes de la física. Eso parece un avance emocionante, ya que herramientas de generación de videos como Sora aún fallan en tales aspectos.
Li: Una vez que respetas la tridimensionalidad del mundo, mucho de esto es natural. Por ejemplo, en uno de los videos que publicamos en las redes sociales, se dejan caer balones de baloncesto en una escena. Debido a que es 3D, te permite tener esa capacidad. Si la escena consiste en píxeles generados en 2D, el balón no iría a ninguna parte.
O, como en Sora, podría ir a algún lugar pero luego desaparecer. ¿Cuáles son los mayores desafíos técnicos con los que te enfrentas para avanzar en esta tecnología?
Li: Nadie ha resuelto este problema, ¿verdad? Es muy, muy difícil. Puedes ver [en un video de demostración de World Labs] que hemos tomado una pintura de Van Gogh y generado la escena completa a su alrededor en un estilo coherente: el estilo artístico, la iluminación, incluso qué tipo de edificios tendría ese vecindario. Si das la vuelta y de repente hay rascacielos, sería completamente inconvincente, ¿cierto? Y debe ser 3D. Tienes que navegar por él. Así que no son solo píxeles.
¿Puedes decir algo sobre los datos que has usado para entrenarlo?
Li: Muchos.
¿Tienes desafíos técnicos relacionados con la carga de cómputo?
Li: Es mucho cómputo. Es el tipo de cómputo que el sector público no puede permitirse. Esta es parte de la razón por la que estoy emocionada por tomar este año sabático, para hacer esto de una manera del sector privado. Y también es parte de la razón por la que he estado defendiendo el acceso a recursos computacionales en el sector público, porque mi propia experiencia subraya la importancia de la innovación con una cantidad adecuada de recursos.
Sería bueno empoderar al sector público, ya que generalmente está más motivado por el conocimiento en sí mismo y por el beneficio para la humanidad.
Li: El descubrimiento de conocimiento necesita ser apoyado por recursos, ¿cierto? En los tiempos de Galileo, fue el mejor telescopio el que permitió a los astrónomos observar nuevos cuerpos celestiales. Fue Hooke quien se dio cuenta de que las lentes de aumento podían convertirse en microscopios y descubrió las células. Cada vez que hay nuevas herramientas tecnológicas, ayudan a la búsqueda del conocimiento. Y ahora, en la era de la IA, las herramientas tecnológicas incluyen cómputo y datos. Debemos reconocer esto para el sector público.
¿Qué te gustaría que sucediera a nivel federal para proporcionar recursos?
Li: Este ha sido el trabajo del HAI de Stanford durante los últimos cinco años. Hemos estado trabajando con el Congreso, el Senado, la Casa Blanca, la industria y otras universidades para crear el NAIRR, el Recurso Nacional de Investigación en IA.
Suponiendo que podamos lograr que los sistemas de IA realmente comprendan el mundo en 3D, ¿qué nos brinda eso?
Li: Liberará mucha creatividad y productividad para las personas. Me encantaría diseñar mi casa de una manera mucho más eficiente. Sé que muchos usos médicos implican comprender un mundo 3D muy particular, que es el cuerpo humano. Siempre hablamos de un futuro donde los humanos crearán robots para ayudarnos, pero los robots navegan en un mundo 3D y requieren inteligencia espacial como parte de su cerebro. También hablamos de mundos virtuales que permitirán a las personas visitar lugares, aprender conceptos o entretenerse. Y esos mundos usan tecnología 3D, especialmente los híbridos, lo que llamamos RA [realidad aumentada]. Me encantaría caminar por un parque nacional con un par de gafas que me den información sobre los árboles, el camino, las nubes. También me encantaría aprender diferentes habilidades con la ayuda de la inteligencia espacial.
¿Qué tipo de habilidades?
Li: Mi ejemplo trivial es si tengo una llanta pinchada en la carretera, ¿qué hago? En este momento, abro un video de “cómo cambiar una llanta”. Pero si pudiera ponerme unas gafas y ver qué está pasando con mi coche y luego seguir ese proceso, sería genial. Pero ese es un ejemplo trivial. Puedes pensar en cocina, en esculpir—cosas divertidas.
¿Qué tan lejos crees que llegaremos con esto en nuestra vida?
Li: Oh, creo que esto sucederá en nuestra vida porque el ritmo del avance tecnológico es realmente rápido. Has visto lo que han traído los últimos 10 años. Es definitivamente un indicador de lo que viene después.