Google anunció el jueves que “pausará” algunas funciones de su generador de imágenes de inteligencia artificial Gemini después de una reacción violenta por su descripción de la diversidad étnica y de género, pero la compañía tiene varios competidores, como OpenAI, Microsoft y Adobe, en este sector de rápido crecimiento.

Google presentó Gemini, el nombre de su asistente de chatbot Bard, a finales de 2023, un modelo que la firma ha entrenado en múltiples modalidades , incluidas imagen, voz y texto (la mayoría de los rivales entrenan modelos para generar o comprender contenido en diferentes formatos, como audio o imagen, por separado) y lanzó una suscripción de paga para mejores capacidades en febrero.

Meta lanzó en diciembre un generador de imágenes de inteligencia artificial independiente llamado Imagine with Meta (se basa en el modelo Emu de la compañía y es de uso gratuito), ampliando el acceso a la herramienta generativa que anteriormente estaba limitada a chatbots dentro de aplicaciones para Facebook, Instagram y WhatsApp.

Anuncios

OpenAI, la empresa respaldada por Microsoft, y responsable de los generadores de texto y video ChatGPT y Sora, lanzó el año pasado la tercera generación de su plataforma visual DALL-E, integrando finalmente la herramienta de imágenes con su chatbot de inteligencia artificial para simplificar el proceso de creación del texto necesario. indicaciones que convierten las ideas de los usuarios en realidad visual.

Midjourney ha sido una herramienta de imágenes de inteligencia artificial popular desde su primer publicación a finales de 2022 (lanzó la versión 6 del modelo Midjourney en diciembre, que ofrece detalles mejorados y mejores respuestas a las indicaciones) y, aunque es relativamente pequeña en tamaño, la empresa sigue siendo uno de los actores más conocidos en el campo.

Adobe cuenta con un generador de imágenes de inteligencia artificial “comercialmente seguro”, Firefly, que las empresas pueden utilizar sin temer reclamos de derechos de autor, ya que el modelo ha sido entrenado en imágenes que la compañía tiene licencia o tiene licencia abierta, un punto de venta único en el panorama legal de la inteligencia artificial, que de otro modo sería turbio.

Microsoft ofrece generación de imágenes a través del asistente de inteligencia artificial Copilot, que ha integrado en sus aplicaciones de Office como Word, PowerPoint y Excel, y que utiliza el modelo DALL-E 3 de OpenAI para generar contenido.

Stability AI, líder desde hace mucho tiempo en generación de imágenes de inteligencia artificial y una alternativa más abierta a las herramientas patentadas, lanzó una serie de modelos de generación de imágenes desde 2022 y presentó una vista previa de su Stable Diffusion 3 el jueves, aunque los detalles son escasos y la compañía no dio indicación de cuándo se lanzará (aunque hay una lista de espera en la que la gente puede inscribirse).

¿Cuál es la preocupación por los generadores de imágenes de IA?

Diversidad, autenticidad y propiedad. Las herramientas de inteligencia artificial generativa se entrenan en vastos conjuntos de datos para producir contenido a partir de indicaciones basadas en lo que se ha “aprendido”. 

Como el resultado de un modelo refleja los datos con los que fue entrenado, también refleja los sesgos dentro de esos datos, mostrando una y otra vez sesgos étnicos y de género en sus productos, como borrar identidades indígenas y no binarias, una tendencia a mostrar a hombres de piel clara con trabajos altamente pagados y prisioneros como negros.

En un esfuerzo por contrarrestar esto, muchos modelos intentan activamente dar cuenta y corregir este sesgo para representar mejor el mundo real, aunque puede resultar contraproducente, como demuestra el reciente furor sobre Géminis, y crear un sesgo en la otra dirección. 

Dado que el contenido se vuelve cada vez más detallado y realista, cada vez es más difícil saber qué es real y qué no, lo que genera temores de que las herramientas puedan ayudar a crear deepfakes, difundir información errónea peligrosa o material dañino. 

Esta es una preocupación clave de las empresas que fabrican inteligencia artificial generativa, especialmente de cara a unas elecciones en EU acaloradas, y muchas están trabajando en herramientas como marcas de agua que permitirían a las personas distinguir lo falso de lo real. 

Los datos que pueden crear sesgos también son polémicos en términos de propiedad (Meta, por ejemplo, utiliza imágenes en publicaciones en redes sociales) y muchos de los principales generadores de imágenes y texto están defendiéndose de importantes demandas de artistas y organizaciones de medios que impugnan los términos y la compensación en torno al uso de su contenido. 

Estas demandas aún no se han resuelto (y es probable que se presenten más en el futuro) y los resultados podrían desempeñar un papel importante en la configuración del panorama futuro de las herramientas de inteligencia artificial generativa.

Gemini de Google fue ampliamente criticado por sus imágenes inexactas y sesgadas cuando se le pidió que mostrara algunos escenarios históricos, y la compañía no ha dado un cronograma sobre cómo “ajustará” su servicio para tener en cuenta el contexto histórico o cuándo restaurará la capacidad de generar imágenes. 

Publicidad