¿Cómo ve una maquina?
La física, los números y los píxeles
¿Cómo ve una máquina?
La física, los números
y los píxeles
Detrás de cada fotografía, cada escáner médico y cada sensor de movimiento existe una ecuación sorprendentemente simple. Este artículo te la cuenta sin fórmulas intimidantes.
A simple vista, la fotografía parece magia: apuntas tu teléfono hacia algo, presionas un botón y el mundo queda atrapado en una pantalla. Pero detrás de ese instante existe un proceso físico y matemático fascinante — y mucho más lógico de lo que imaginas.
Todo empieza con una pregunta fundamental: ¿qué es exactamente una imagen? Para un ingeniero, la respuesta es precisa y elegante: una imagen es una función matemática que describe cuánta luz llega a cada punto del espacio. Y esa función tiene nombre.
Antes de que te vayas: esta ecuación no es tan intimidante como parece. De hecho, ya la usas todos los días sin saberlo. Vamos a desarmarla pieza por pieza.
Los dos ingredientes obligatorios
Imagina que estás viendo una pared. Para que tus ojos —o una cámara— puedan capturar cualquier cosa, se necesitan exactamente dos ingredientes. Si falta uno, la imagen simplemente no existe.
El primero es i(x,y), la iluminación: la luz que "baña" la escena. Puede ser el sol, el foco de tu habitación o el flash de un celular. Sin luz, no hay nada que ver — literalmente. Si i = 0, entonces 0 × cualquier cosa = 0. Oscuridad total.
El segundo es r(x,y), la reflectancia: el porcentaje de esa luz que el objeto decide "rebotar" hacia tus ojos en lugar de absorberla. El terciopelo negro se traga casi toda la luz (r ≈ 0). La nieve blanca la devuelve casi completa (r ≈ 1). La mayoría de los objetos del mundo están en algún punto intermedio.
Y f(x,y) —la imagen resultante— es simplemente el producto de ambos: la luz que efectivamente llega a tu retina o al sensor de la cámara, en cada punto (x,y) de la escena.
Si estás en un cuarto completamente oscuro, no importa si tienes el papel más blanco del mundo frente a ti: 0 × 1 = 0. No verás absolutamente nada.
Un ejemplo de todos los días
Imagina que estás leyendo un libro impreso de noche bajo una lámpara de escritorio. La lámpara arroja luz blanca y pareja sobre toda la página — eso es tu i(x,y). La página tiene dos materiales: el papel blanco es excelente rebotando luz (r ≈ 1), pero la tinta negra de las letras absorbe casi todo (r ≈ 0).
Cuando la luz de la lámpara choca con la página, el papel blanco te devuelve mucha luz — ves la hoja brillante. En las zonas con tinta, la luz es absorbida y no regresa nada — ves las letras oscuras. Esa diferencia de luz rebotada es exactamente la imagen f(x,y) que llega a tus ojos. La ecuación funcionando en tiempo real.
El ojo humano usa células biológicas para atrapar esta luz. Las máquinas usan sensores electrónicos — pequeños componentes que se "llenan" de fotones y los convierten en señal eléctrica, como cubetas que atrapan lluvia y miden cuánta cayó.
Dependiendo de cómo estén organizados estos sensores, existen tres arquitecturas fundamentales para capturar una imagen:
Sensor Único
El ciego con bastónUna sola "cubeta" que debe moverse punto por punto para barrer toda la escena,
como leer braille letra por letra. Alta precisión, velocidad bajísima.
Escáneres cilíndricos de artes gráficas.
Sensor en Línea
La barredoraUna regla larga con miles de sensores en fila que se desplaza
de arriba hacia abajo para leer la imagen completa.
Fotocopiadoras y escáneres de cama plana.
Arreglo 2D
El snapshot instantáneoUn mosaico completo donde cada casilla es un sensor. No hay
que mover nada: millones de puntos atrapan la luz al mismo tiempo.
El sensor CCD/CMOS dentro de tu celular.
Como puedes ver, la ingeniería detrás de una fotografía consiste fundamentalmente en entender cómo la luz rebota en las cosas y usar pequeños componentes electrónicos para atraparla. Toda la complejidad de una cámara de 50 megapíxeles es, en esencia, 50 millones de cubetas midiendo luz al mismo tiempo.
Ya tenemos la luz capturada. Ahora viene el paso que convierte esa señal física en datos digitales que una computadora puede procesar. Y requiere tomar exactamente dos decisiones — ninguna más, ninguna menos.
Primera decisión: el muestreo
Imagina que vas a crear el retrato de tu mascota, pero en lugar de dibujarlo con un lápiz, lo vas a construir sobre un tablero usando piezas de Lego. Antes de empezar, tienes que decidir: ¿de qué tamaño serán las piezas?
4 bloques gigantes
No verás a tu mascota. Solo verás 4 cuadros de colores. No hay forma de dibujar un ojo o un bigote con bloques tan grandes. La imagen se pierde en el tamaño del píxel.
10,000 piececitas minúsculas
Ahora sí puedes formar la curva de su oreja, el brillo de sus ojos y hasta sus pelitos. Más píxeles = más detalle = más fidelidad a la realidad.
Eso es exactamente el muestreo: decidir en cuántos cuadritos (píxeles) vamos a dividir nuestra imagen. Es "digitalizar el espacio". Si tu muestreo es deficiente — pocos píxeles muy grandes — la imagen se verá pixelada, cuadrada, y perderás todos los detalles finos.
Segunda decisión: la cuantificación
Ya tienes 10,000 piececitas minúsculas de Lego. Ahora hay que pintarlas. Vas a la papelería a comprar colores. ¿Cuántos tonos de gris compras?
Caja de 2 crayones
Solo blanco y negro. Tu mascota se verá sin sombras, extraña y dura — como el código de barras de un producto. No hay tonos intermedios.
Caja Premium de 256 tonos
Ahora puedes pintar sombras suaves: gris clarito para el lomo iluminado, gris oscuro para la sombra del cuello. La imagen se ve real y natural.
La cuantificación define el número de niveles de intensidad disponibles, determinado por la profundidad de bits. Con 8 bits tienes 256 niveles — suficientes para que el ojo humano no note las transiciones. Con menos bits, aparece un artefacto visual muy particular.
Esas "franjas planas en lugar de degradados suaves" que ves con pocos bits tienen nombre técnico: falso contorneo (false contouring). Imagina que quieres pintar el cielo al atardecer, pero solo tienes 4 colores. Donde debería haber una transición suave, aparecen bandas abruptas de color — como un mapa topográfico mal pintado.
Aquí está el momento en que todo se vuelve poderoso. Una imagen digital no es otra cosa que una hoja de cálculo de Excel — una tabla gigante donde cada celda es un píxel y adentro hay un número entre 0 (negro) y 255 (blanco).
Y si las imágenes son matrices de números, podemos hacer exactamente lo que hacemos con cualquier número: sumarlas, restarlas y multiplicarlas. La única regla es que la operación se aplica píxel a píxel — la celda (3,2) de la imagen A se opera con la celda (3,2) de la imagen B.
Imagina que estás en una fiesta ruidosa y quieres escuchar lo que te dice un amigo desde lejos. El ruido es aleatorio: a veces es un grito agudo, a veces un golpe grave. Si pudieras grabar a tu amigo diciendo lo mismo 10 veces y promediar los audios, el ruido se cancelaría a sí mismo — pero la voz de tu amigo se haría más fuerte y clara.
El ruido desapareció y recuperamos el color real. Esto es lo que hace tu teléfono en modo nocturno: captura varias fotos seguidas y las promedia automáticamente.
Astrofotografía · Fotografía médica · Modo nocturno¿Recuerdas el juego de revistas "Encuentra las 7 diferencias"? Tu cerebro tiene que esforzarse. Para una computadora esto es automático: si restamos una imagen de la otra, todo lo que sea idéntico se vuelve cero (negro), y solo lo que cambió brilla en la pantalla.
Así de simple funcionan los sensores de movimiento en las alarmas de seguridad. No hay magia — solo una resta.
Detección de movimiento · Cámaras de seguridad · Diferencia de fondosImagina que vas a pintar la pared de tu cuarto pero no quieres manchar el marco de la ventana. Le pones cinta adhesiva. Al pintar, la cinta bloquea la pintura exactamente donde no la quieres. En imágenes hacemos lo mismo con una máscara digital.
Creamos una segunda imagen — la máscara — donde la zona de interés está rellena de unos y el resto de ceros. La multiplicación hace el resto. A esto los ingenieros lo llaman ROI: Región de Interés.
Reconocimiento facial · Placas vehiculares · Segmentación · Cirugía asistidaUna imagen es solo una tabla de números. Todo lo demás — reconocimiento facial, diagnóstico médico, autos autónomos — es matemáticas de primaria aplicadas a esa tabla.
La próxima vez que tomes una foto, recuerda que lo que realmente está ocurriendo es que millones de pequeñas cubetas están midiendo cuánta luz rebotó de cada punto de la escena, convirtiendo esa luz en números y guardando esos números en una tabla bidimensional. Eso es todo. Así de elegante es la realidad detrás de la imagen digital.
Si quieres ver esto en acción con tus propias manos, descarga el archivo CMC.csv — una matriz 32×32 de valores térmicos — ábrelo en Excel, aplica formato condicional con escala de colores, ajusta el ancho de columna a 2 y el alto de fila a 15, reduce el zoom al 15% y observa cómo una tabla de números se transforma en una imagen térmica coherente. La matemática hecha visual.