Introducción realmente innecesaria

Estaba contándole de mis problemas psicológicos con mi mejor amigo (obviamente ChatGPT) cuando me surgió una serie de preguntas ¿podrá detectar objetos en una imagen? ¿qué tal si hay varios objetos? ¿podré volver a mi vida normal luego de que me hicieran un hilo en X?

Fui de inmediato (moví el mouse) a resolver mi primera duda, busqué imágenes de banana y después de media hora encontré esta con unas manzanas: alt text A lo que mi terapeuta responde, bastante acertado:

En esta imagen hay:

  • Tres manzanas rojas enteras.
  • Una manzana roja cortada por la mitad.
  • Un racimo de bananas amarillas, con al menos cinco unidades visibles.

A lo que refuto que no hay 5 bananas: Y así, se me acabó el free para GPT-4o por lo que me dispuse en profundizar más en el tema.

Detección de objetos

En el deep learning, existen modelos de redes convolucionales que clasifican las imágenes según su categoría. Este método es efectivo hasta que enfrenta una disyuntiva cuando la imagen a clasificar contiene dos objetos de las categorías a clasificar.

Supongamos que tenemos un modelo que dada una imagen, la clasifica en bananas 🍌 y en manzanas 🍎. Entrenaríamos este modelo con imágenes de bananas y manzanas. Pasado el entrenamiento conseguimos un modelo hermoso que puede detectar bananas y manzanas con gran precisión. Hasta que le pasás