¿Cómo ve una maquina? :: MaestroVictorGarcia

A simple vista, la fotografía parece magia: apuntas tu teléfono hacia algo, presionas un botón y el mundo queda atrapado en una pantalla. Pero detrás de ese instante existe un proceso físico y matemático fascinante — y mucho más lógico de lo que imaginas.

Todo empieza con una pregunta fundamental: ¿qué es exactamente una imagen? Para un ingeniero, la respuesta es precisa y elegante: una imagen es una función matemática que describe cuánta luz llega a cada punto del espacio. Y esa función tiene nombre.

La ecuación que lo explica todo

f(x,y) = i(x,y) · r(x,y)

f = imagen · i = iluminación · r = reflectancia · (x,y) = posición del píxel

Antes de que te vayas: esta ecuación no es tan intimidante como parece. De hecho, ya la usas todos los días sin saberlo. Vamos a desarmarla pieza por pieza.

Los dos ingredientes obligatorios

Imagina que estás viendo una pared. Para que tus ojos —o una cámara— puedan capturar cualquier cosa, se necesitan exactamente dos ingredientes. Si falta uno, la imagen simplemente no existe.

El primero es i(x,y), la iluminación: la luz que "baña" la escena. Puede ser el sol, el foco de tu habitación o el flash de un celular. Sin luz, no hay nada que ver — literalmente. Si i = 0, entonces 0 × cualquier cosa = 0. Oscuridad total.

El segundo es r(x,y), la reflectancia: el porcentaje de esa luz que el objeto decide "rebotar" hacia tus ojos en lugar de absorberla. El terciopelo negro se traga casi toda la luz (r ≈ 0). La nieve blanca la devuelve casi completa (r ≈ 1). La mayoría de los objetos del mundo están en algún punto intermedio.

Y f(x,y) —la imagen resultante— es simplemente el producto de ambos: la luz que efectivamente llega a tu retina o al sensor de la cámara, en cada punto (x,y) de la escena.

Si estás en un cuarto completamente oscuro, no importa si tienes el papel más blanco del mundo frente a ti: 0 × 1 = 0. No verás absolutamente nada.

Un ejemplo de todos los días

Imagina que estás leyendo un libro impreso de noche bajo una lámpara de escritorio. La lámpara arroja luz blanca y pareja sobre toda la página — eso es tu i(x,y). La página tiene dos materiales: el papel blanco es excelente rebotando luz (r ≈ 1), pero la tinta negra de las letras absorbe casi todo (r ≈ 0).

Cuando la luz de la lámpara choca con la página, el papel blanco te devuelve mucha luz — ves la hoja brillante. En las zonas con tinta, la luz es absorbida y no regresa nada — ves las letras oscuras. Esa diferencia de luz rebotada es exactamente la imagen f(x,y) que llega a tus ojos. La ecuación funcionando en tiempo real.

· · ·

Los sensores: cómo atrapar la luz

El ojo humano usa células biológicas para atrapar esta luz. Las máquinas usan sensores electrónicos — pequeños componentes que se "llenan" de fotones y los convierten en señal eléctrica, como cubetas que atrapan lluvia y miden cuánta cayó.

Dependiendo de cómo estén organizados estos sensores, existen tres arquitecturas fundamentales para capturar una imagen:

◾

Sensor Único

El ciego con bastón

Una sola "cubeta" que debe moverse punto por punto para barrer toda la escena, como leer braille letra por letra. Alta precisión, velocidad bajísima.

Escáneres cilíndricos de artes gráficas.

▬

Sensor en Línea

La barredora

Una regla larga con miles de sensores en fila que se desplaza de arriba hacia abajo para leer la imagen completa.

Fotocopiadoras y escáneres de cama plana.

⊞

Arreglo 2D

El snapshot instantáneo

Un mosaico completo donde cada casilla es un sensor. No hay que mover nada: millones de puntos atrapan la luz al mismo tiempo.

El sensor CCD/CMOS dentro de tu celular.

Ingeniería detrás de la fotografía

Como puedes ver, la ingeniería detrás de una fotografía consiste fundamentalmente en entender cómo la luz rebota en las cosas y usar pequeños componentes electrónicos para atraparla. Toda la complejidad de una cámara de 50 megapíxeles es, en esencia, 50 millones de cubetas midiendo luz al mismo tiempo.

· · ·

Muestreo y cuantificación: las dos decisiones críticas

Ya tenemos la luz capturada. Ahora viene el paso que convierte esa señal física en datos digitales que una computadora puede procesar. Y requiere tomar exactamente dos decisiones — ninguna más, ninguna menos.

Primera decisión: el muestreo

Imagina que vas a crear el retrato de tu mascota, pero en lugar de dibujarlo con un lápiz, lo vas a construir sobre un tablero usando piezas de Lego. Antes de empezar, tienes que decidir: ¿de qué tamaño serán las piezas?

❌ Mal muestreo

4 bloques gigantes

No verás a tu mascota. Solo verás 4 cuadros de colores. No hay forma de dibujar un ojo o un bigote con bloques tan grandes. La imagen se pierde en el tamaño del píxel.

✓ Buen muestreo

10,000 piececitas minúsculas

Ahora sí puedes formar la curva de su oreja, el brillo de sus ojos y hasta sus pelitos. Más píxeles = más detalle = más fidelidad a la realidad.

Eso es exactamente el muestreo: decidir en cuántos cuadritos (píxeles) vamos a dividir nuestra imagen. Es "digitalizar el espacio". Si tu muestreo es deficiente — pocos píxeles muy grandes — la imagen se verá pixelada, cuadrada, y perderás todos los detalles finos.

Segunda decisión: la cuantificación

Ya tienes 10,000 piececitas minúsculas de Lego. Ahora hay que pintarlas. Vas a la papelería a comprar colores. ¿Cuántos tonos de gris compras?

❌ Mala cuantificación

Caja de 2 crayones

Solo blanco y negro. Tu mascota se verá sin sombras, extraña y dura — como el código de barras de un producto. No hay tonos intermedios.

✓ Buena cuantificación

Caja Premium de 256 tonos

Ahora puedes pintar sombras suaves: gris clarito para el lomo iluminado, gris oscuro para la sombra del cuello. La imagen se ve real y natural.

La cuantificación define el número de niveles de intensidad disponibles, determinado por la profundidad de bits. Con 8 bits tienes 256 niveles — suficientes para que el ojo humano no note las transiciones. Con menos bits, aparece un artefacto visual muy particular.

Mueve el control — observa qué pasa con el degradado según los bits:

1 bit · 2 niveles 2 bits · 4 niveles 8 bits · 256 niveles

Falso contorneo visible — franjas planas en lugar de degradado

Esas "franjas planas en lugar de degradados suaves" que ves con pocos bits tienen nombre técnico: falso contorneo (false contouring). Imagina que quieres pintar el cielo al atardecer, pero solo tienes 4 colores. Donde debería haber una transición suave, aparecen bandas abruptas de color — como un mapa topográfico mal pintado.

· · ·

Las imágenes son matemáticas puras

Aquí está el momento en que todo se vuelve poderoso. Una imagen digital no es otra cosa que una hoja de cálculo de Excel — una tabla gigante donde cada celda es un píxel y adentro hay un número entre 0 (negro) y 255 (blanco).

Y si las imágenes son matrices de números, podemos hacer exactamente lo que hacemos con cualquier número: sumarlas, restarlas y multiplicarlas. La única regla es que la operación se aplica píxel a píxel — la celda (3,2) de la imagen A se opera con la celda (3,2) de la imagen B.

Demo interactivo — Selecciona una operación:

Imagen A

Imagen B

Resultado

Suma/Promedio: el ruido se cancela estadísticamente. La señal real sobrevive.

Suma — El truco para callar el ruido

f = (f₁ + f₂) / 2 · Promedio de múltiples capturas

Imagina que estás en una fiesta ruidosa y quieres escuchar lo que te dice un amigo desde lejos. El ruido es aleatorio: a veces es un grito agudo, a veces un golpe grave. Si pudieras grabar a tu amigo diciendo lo mismo 10 veces y promediar los audios, el ruido se cancelaría a sí mismo — pero la voz de tu amigo se haría más fuerte y clara.

ejemplo numérico — reducción de ruido

Color real:50

Foto 1 (ruido +):50 + 10 = 60

Foto 2 (ruido -):50 - 10 = 40

Promedio:(60 + 40) / 2 = 50 ✓

El ruido desapareció y recuperamos el color real. Esto es lo que hace tu teléfono en modo nocturno: captura varias fotos seguidas y las promedia automáticamente.

Astrofotografía · Fotografía médica · Modo nocturno

−

Resta — El detector de intrusos

f = |f₁ − f₂| · Diferencia absoluta entre capturas

¿Recuerdas el juego de revistas "Encuentra las 7 diferencias"? Tu cerebro tiene que esforzarse. Para una computadora esto es automático: si restamos una imagen de la otra, todo lo que sea idéntico se vuelve cero (negro), y solo lo que cambió brilla en la pantalla.

ejemplo — cámara de seguridad detectando movimiento

Pasillo vacío:120 − 120 = 0 → negro, sin alarma

Pasa un gato:250 − 120 = 130 → ¡silueta iluminada!

Así de simple funcionan los sensores de movimiento en las alarmas de seguridad. No hay magia — solo una resta.

Detección de movimiento · Cámaras de seguridad · Diferencia de fondos

Multiplicación — El molde de galletas

f = f₁ · M · M ∈ {0, 1} — Máscara binaria (ROI)

Imagina que vas a pintar la pared de tu cuarto pero no quieres manchar el marco de la ventana. Le pones cinta adhesiva. Al pintar, la cinta bloquea la pintura exactamente donde no la quieres. En imágenes hacemos lo mismo con una máscara digital.

ejemplo — aislar un rostro del fondo

Píxel del rostro:180 × 1 = 180 → el rostro se conserva

Píxel del fondo:200 × 0 = 0 → el fondo desaparece

Creamos una segunda imagen — la máscara — donde la zona de interés está rellena de unos y el resto de ceros. La multiplicación hace el resto. A esto los ingenieros lo llaman ROI: Región de Interés.

Reconocimiento facial · Placas vehiculares · Segmentación · Cirugía asistida

· · ·

Una imagen es solo una tabla de números. Todo lo demás — reconocimiento facial, diagnóstico médico, autos autónomos — es matemáticas de primaria aplicadas a esa tabla.

La próxima vez que tomes una foto, recuerda que lo que realmente está ocurriendo es que millones de pequeñas cubetas están midiendo cuánta luz rebotó de cada punto de la escena, convirtiendo esa luz en números y guardando esos números en una tabla bidimensional. Eso es todo. Así de elegante es la realidad detrás de la imagen digital.

Para explorar más

Si quieres ver esto en acción con tus propias manos, descarga el archivo CMC.csv — una matriz 32×32 de valores térmicos — ábrelo en Excel, aplica formato condicional con escala de colores, ajusta el ancho de columna a 2 y el alto de fila a 15, reduce el zoom al 15% y observa cómo una tabla de números se transforma en una imagen térmica coherente. La matemática hecha visual.

¿Cómo ve una maquina?

La física, los números y los píxeles

¿Cómo ve una máquina?
La física, los números
y los píxeles

Los dos ingredientes obligatorios

Un ejemplo de todos los días

Sensor Único

Sensor en Línea

Arreglo 2D

Primera decisión: el muestreo

4 bloques gigantes

10,000 piececitas minúsculas

Segunda decisión: la cuantificación

Caja de 2 crayones

Caja Premium de 256 tonos

¿Cómo ve una maquina?

La física, los números y los píxeles

Los dos ingredientes obligatorios

Un ejemplo de todos los días

Sensor Único

Sensor en Línea

Arreglo 2D

Primera decisión: el muestreo

4 bloques gigantes

10,000 piececitas minúsculas

Segunda decisión: la cuantificación

Caja de 2 crayones

Caja Premium de 256 tonos

Configuración avanzada