¿De dónde obtiene realmente su información la IA? No es magia, son datos

Te explicamos de dónde obtiene la IA sus datos, cómo entrenan a modelos de lenguaje como ChatGPT, y el dilema por el uso ‘gratuito’ de contenidos.

thumb
¿De dónde obtiene realmente su información la IA? No es magia, son datos

En los últimos años, la Inteligencia Artificial (IA) ha pasado de ser una herramienta en los laboratorios de investigación a una fuerza que impacta en la sociedad, ya que prácticamente está al alcance de todos aquellos con acceso a internet.

Hoy la IA ya es capaz de generar textos coherentes, responder a preguntas complejas e incluso escribir código, lo cual sin duda ha suscitado admiración y, a la vez, una pregunta fundamental: ¿de dónde saca realmente su vastísimo conocimiento esta tecnología

Y, aunque parezca magia, lo cierto es que la clave reside en realidad en el aprendizaje estadístico profundo sobre un acervo de datos tan inmenso que abarca gran parte del contenido digital producido por la humanidad.

¿Cómo aprende la IA? Así entrenan a los modelos

Para entender de dónde saca su información la IA, primero hay que entender cómo aprende. Se trata de un proceso complejo, pero que se puede resumir en tres fases:

Ingesta masiva: La ‘lectura’ de la máquina

Los modelos de IA, conocidos como Grandes Modelos de Lenguaje (LLMs), ingieren billones de tokens (piezas de texto) de diversas fuentes en un proceso llamado aprendizaje no supervisado. Este es el adiestramiento inicial donde la máquina se ‘empapa’ de la información bruta.

La predicción de la siguiente palabra

Durante este adiestramiento, el objetivo principal del modelo es extremadamente simple: predecir la siguiente palabra en una secuencia. Al ver miles de millones de frases, el modelo aprende las reglas de la gramática, la coherencia lógica y las relaciones semánticas. El conocimiento de la IA es, en esencia, una vasta red de probabilidades.

El refinamiento o ajuste fino

Una vez que el modelo ‘sabe leer y hablar’, se le aplica un ajuste fino (fine-tuning) con ejemplos de conversaciones de alta calidad para que pueda responder a peticiones, seguir instrucciones y comportarse de manera útil.

De acuerdo con Common Crawl, una organización sin fines de lucro que mantiene un archivo masivo y abierto de datos de rastreo de la web, el conocimiento de la IA se construye sobre tres pilares de información:

  • La web abierta: Esta es la fuente más extensa de datos. Incluye rastreadores masivos (como los de Common Crawl) que recolecta miles de millones de páginas web. Esta fuente proporciona la base de lenguaje natural y hechos, junto con contenido estructurado como Wikipedia.
  • Libros y literatura: Las colecciones de libros digitalizados permiten a los modelos alcanzar una coherencia lingüística superior y una comprensión de narrativas complejas.
  • Repositorios de código: Algunas plataformas como GitHub proporcionan el corpus de código fuente público que enseña a la IA la lógica computacional y la capacidad de programar.
thumb
¿De dónde obtiene realmente sus datos la IA? No es magia, son datos

El dilema ético y legal de la IA por el "uso justo" del contenido

Quizás uno de los puntos más controversiales de la Inteligencia Artificial es que ésta “se alimenta gratis del trabajo de otros”. 

Los desarrolladores defienden su proceso amparándose en el concepto legal de "uso justo (fair use), argumentando que el entrenamiento constituye una "transformación de datos" al extraer solo patrones estadísticos, no las obras originales, detalla un análisis legal hecho por expertos del Instituto de Inteligencia Artificial Centrada en el Ser Humano de Stanford (HAI).

NYT vs OpenAI y Microsoft

Hace un par de años, The New York Times demandó a OpenAI (desarrollador de ChatGPT) y Microsoft, alegando una infracción masiva de derechos de autor por utilizar millones de sus artículos para entrenar modelos de IA sin permiso ni pago. 

La demanda señalaba que este uso no compensado perjudicaba el negocio del periódico y su capacidad para producir periodismo original, mientras que los productos de IA resultantes compiten directamente con el NYT como fuente de noticias.

Sin embargo, OpenAI respondió que la demanda del The New York Times era "carente de fundamento" y que el uso de materiales disponibles públicamente se ciñe al uso justo de los mismos.

El enfoque de Meta y el consentimiento de los usuarios

Meta causó controversia al usar publicaciones públicas de Facebook e Instagram para entrenar su modelo Llama, obligando a los usuarios en regiones como la Unión Europea a un proceso de "opt-out" o exclusión voluntaria para proteger sus datos.

Precedentes en la Industria Musical

La música ha marcado un hito en la regulación de la IA; por ejemplo, Warner Music Group resolvió una demanda con Suno, una startup de IA generadora de canciones. El acuerdo no solo desactivó el litigio, sino que estableció una alianza para que Suno desarrolle modelos "más avanzados y con licencia" que remunerarán a los artistas cuya producción se utilice para crear nuevas canciones. 

Otro caso emblemático reciente es en el que el Tribunal Regional de Múnich emitió una sentencia histórica que considera que OpenAI violó los derechos de autor musicales al usar letras de canciones protegidas para entrenar y operar sus sistemas de IA, por lo que le prohibió usarlas e indemnizar a los autores.

Como se puede apreciar, el conocimiento de la Inteligencia Artificial no es un fenómeno inexplicable, sino el resultado de un monumental esfuerzo de ingeniería de datos. 

El debate actual es una prueba de fuego para la sociedad: ¿cómo equilibramos la innovación tecnológica que promete la IA con el respeto y la justa compensación para los creadores de los datos que la hacen posible? De acuerdo con expertos, la respuesta a esta pregunta definirá la próxima era digital.

thumb
¿De dónde obtiene realmente sus datos la IA? No es magia, son datos