Cuando fotografías un plato de comida y tu app devuelve un desglose nutricional detallado 10 segundos después, acaba de ocurrir una secuencia de eventos sorprendentemente compleja. Entender cómo funciona el reconocimiento de alimentos con IA te ayuda a usar estas herramientas de forma más efectiva, y a apreciar por qué funcionan tan bien en algunas situaciones y necesitan un poco de ayuda en otras.
La comida es genuinamente una de las categorías de objetos más difíciles de analizar para la visión artificial. A diferencia de identificar un modelo de automóvil o leer una señal de tráfico, el reconocimiento de alimentos enfrenta un conjunto único de desafíos que lo hacen técnicamente exigente incluso para los sistemas de IA más avanzados.
Un "salteado de pollo" puede verse completamente diferente en docenas de tradiciones culinarias regionales. El mismo ingrediente preparado de distinta manera cambia su apariencia, color y textura de forma dramática.
Las comidas reales no se presentan como en una sesión de fotografía gastronómica. Las salsas cubren las proteínas, las verduras se mezclan entre sí y las guarniciones ocultan el plato debajo.
Un bol puede contener 200 calorías u 800 calorías del mismo plato. Sin puntos de referencia, estimar el tamaño de la porción solo a partir de una foto requiere que la IA haga inferencias sofisticadas.
Las cocinas del mundo abarcan miles de platos, ingredientes y métodos de preparación distintos. Un modelo entrenado principalmente con comida occidental falla con platos del Sudeste Asiático, Latinoamérica o África.
A pesar de estos desafíos, los modelos modernos de aprendizaje profundo han alcanzado una precisión en el reconocimiento de alimentos que habría parecido imposible hace una década. La innovación clave no fue ningún algoritmo individual, sino la combinación de vastos datos de entrenamiento, arquitecturas de redes neuronales convolucionales y la potencia de cómputo para entrenarlas a escala. Para una visión más amplia de esta tecnología, consulta nuestra guía completa de reconocimiento de alimentos con IA.
En el núcleo de todo sistema de reconocimiento de alimentos con IA hay un tipo de red neuronal llamada red neuronal convolucional (CNN, por sus siglas en inglés). Las CNN son especialmente adecuadas para el análisis de imágenes porque están diseñadas para detectar patrones en múltiples niveles de abstracción simultáneamente, desde características de bajo nivel como bordes y colores hasta conceptos de alto nivel como "salmón a la plancha con espárragos".
Entrenar una CNN de reconocimiento de alimentos requiere un conjunto de datos enorme de imágenes de alimentos etiquetadas. Investigadores y empresas han reunido conjuntos de datos que contienen millones de fotografías, cada una etiquetada con información precisa sobre qué contiene la imagen, cómo se preparó la comida y qué ingredientes son visibles. La red neuronal aprende a asociar patrones visuales con categorías específicas de alimentos procesando estos ejemplos repetidamente, ajustando sus parámetros internos hasta que sus predicciones coinciden con las etiquetas de forma confiable.
Los modelos modernos de reconocimiento de alimentos típicamente combinan varias redes especializadas trabajando juntas:
Los resultados de estos modelos se alimentan entre sí para producir una comprensión coherente de la escena: qué hay en la foto, dónde se ubica cada elemento y aproximadamente cuánto hay de él.
Identificar qué hay en la imagen es solo la primera mitad del problema. La segunda mitad es convertir el reconocimiento visual en datos nutricionales. Esto sucede a través de un proceso de cuatro etapas:
La identificación de alimentos produce una lista de ingredientes y platos visibles en la imagen, cada uno con una puntuación de confianza. Las identificaciones de alta confianza se utilizan directamente; los elementos de menor confianza pueden desencadenar preguntas aclaratorias al usuario o marcarse para revisión.
La estimación de porciones es donde se realiza la investigación más activa en la actualidad. Los modelos estiman el volumen 3D de cada alimento a partir de una imagen 2D usando señales de profundidad, objetos de referencia (como el tamaño estándar de un plato) y asociaciones aprendidas entre el área visual y el tamaño típico de la porción. Esto es inherentemente impreciso, pero la precisión ha mejorado drásticamente con modelos entrenados en conjuntos de datos que incluyen tamaños de porción conocidos junto a las imágenes.
La consulta a la base de datos hace coincidir cada alimento identificado con su perfil nutricional. Los sistemas de alta calidad cruzan referencias con múltiples fuentes de datos, la base de datos de alimentos del USDA, las declaraciones nutricionales de los restaurantes, la literatura científica sobre nutrición, para garantizar que los datos sean precisos y estén actualizados.
El cálculo nutricional combina los pesos estimados de las porciones con los datos nutricionales por gramo para producir el resultado final: calorías, proteínas, carbohidratos, grasas y, opcionalmente, fibra, azúcar y micronutrientes.
Los platos mixtos, guisos, cazuelas y comidas en capas presentan un desafío particular porque los ingredientes individuales no son visibles ni distinguibles. Cuando la IA no puede observar directamente qué hay en un plato, usa una estrategia diferente: asociaciones aprendidas entre tipos de platos y sus composiciones típicas de ingredientes.
Un modelo que ha procesado miles de imágenes de lasaña, por ejemplo, ha aprendido que la lasaña típicamente contiene carne molida, láminas de pasta, salsa de tomate y queso en proporciones aproximadas. Cuando identifica un plato como lasaña, aplica estas composiciones típicas aprendidas para estimar el contenido nutricional, incluso si las capas individuales no son visibles.
Para los elementos sobre los que la IA tiene incertidumbre, las apps bien diseñadas piden aclaraciones al usuario en lugar de hacer una suposición silenciosa. Este es el comportamiento correcto: una respuesta incorrecta con confianza es peor que una incierta reconocida.
Una nota sobre la precisión: Ningún sistema de reconocimiento de alimentos con IA tiene un 100% de precisión, y las apps honestas te lo dirán. El objetivo es ser consistentemente lo suficientemente cercano como para ser útil como herramienta de seguimiento, al mismo tiempo que se facilita a los usuarios la corrección de estimaciones que parezcan incorrectas. Tus correcciones también mejoran el sistema con el tiempo.
Uno de los aspectos más importantes pero menos visibles de los sistemas modernos de reconocimiento de alimentos es el ciclo de retroalimentación entre las correcciones del usuario y la mejora del modelo. Cada vez que un usuario ajusta una estimación de porción, corrige un alimento identificado incorrectamente o añade un elemento que la IA omitió, esos datos pueden usarse para mejorar el modelo subyacente.
Por eso los sistemas de seguimiento calórico con IA tienden a mejorar para los usuarios individuales con el tiempo: el modelo aprende de tus patrones alimentarios específicos, los platos que comes habitualmente y las correcciones que haces. Un sistema que ha visto el arroz con frijoles casero de un usuario docenas de veces será más preciso en ese plato que en un primer encuentro.
A nivel agregado, estas correcciones también mejoran el modelo para todos los usuarios. Los errores sistemáticos, una cocina con la que el modelo tiene dificultades de forma consistente, una categoría de platos donde las estimaciones de porciones son sistemáticamente incorrectas, se detectan a través de las correcciones de los usuarios y se incorporan a las actualizaciones de entrenamiento del modelo.
La tecnología continúa mejorando rápidamente en varios frentes. La estimación de profundidad usando las cámaras de los teléfonos se está volviendo más precisa, lo que aborda directamente la parte más difícil del problema de estimación de porciones. Los modelos multimodales que pueden combinar contexto textual (como la descripción de un plato en el menú de un restaurante) con análisis visual están añadiendo otra capa de inteligencia para situaciones donde la imagen sola es ambigua.
El análisis en tiempo real, que proporciona retroalimentación nutricional mientras la comida aún se está preparando, no solo cuando está servida, se está volviendo práctico a medida que la inferencia de modelos en el dispositivo se acelera. Y la expansión continua de los datos de entrenamiento para cubrir las cocinas globales subrepresentadas está mejorando gradualmente la precisión para la diversidad completa de lo que las personas realmente comen en todo el mundo.
La tecnología subyacente sigue mejorando más rápido de lo que la mayoría de los usuarios se dan cuenta. La diferencia entre lo que el reconocimiento de alimentos con IA puede hacer hoy y lo que podía hacer hace un año es sustancial, y la trayectoria apunta a sistemas significativamente más precisos, rápidos y culturalmente completos en un futuro cercano. Para conocer cómo la IA también está transformando la orientación nutricional personalizada, lee sobre el coaching nutricional con IA.
Descarga PlateLens y experimenta el reconocimiento de alimentos con IA de primera mano. Fotografía tu próxima comida y mira lo que la tecnología puede hacer.