Cuando la verdad depende de quién lee
Empecemos con una pregunta
¿quién tiene razón?
Head of AI Engineering en T-Systems Iberia.
Investigador en NLP y sesgo mediático.
Head of AI Engineering en T-Systems Iberia. Liderando proyectos de NLP e IA en producción.
NLP, detección de sesgo mediático, perspectivismo, IA confiable y agentic AI.
Bootcamps, charlas y divulgación. Defensor del open source y open science.
Por qué NLP no tiene respuestas únicas
LeWiDi, Manifiesto, modelos multi-perspectiva
El problema computacional y cómo abordarlo
Federated Learning y privacidad
Multi-agente como sistema distribuido
Los LLMs generan noticias sintéticas indistinguibles. Deepfakes de texto. Necesitamos sistemas que detecten no solo si algo es falso, sino si es sesgado.
EU AI Act (2024): los sistemas de IA de alto riesgo deben ser explicables, auditables y justos. Requiere entender el sesgo en los datos de entrenamiento.
2024: año de elecciones globales. 49 países votaron. Los sistemas de recomendación y la desinformación afectan a millones de decisiones.
El sesgo no es un problema teórico. Es un problema de ingeniería con impacto social directo.
¿Por qué las máquinas no entienden lo que leemos?
NER: "Madrid" → LOC
POS: categorías definidas
Parsing: estructura determinista
κ > 0.8 · Gold label tiene sentido
Sentiment: "El film es interesante" → ¿positivo?
Hate speech: depende del contexto cultural
Media bias: ¿sesgado para quién?
κ < 0.4 frecuente · Gold label destruye información
"El Gobierno malgasta el dinero de todos en subvenciones inútiles mientras los servicios públicos se desmoronan"
Gold label = Sesgado (3/5).
¿Pero los otros 2 se equivocaron?
Cohen's κ = (po - pe) / (1 - pe)
En tareas subjetivas κ < 0.4 es habitual
Votación mayoritaria. Adjudicación por experto. Filtrar anotadores "malos".
Se silencian las minorías.
El modelo aprende solo la perspectiva dominante. La variabilidad legítima se pierde para siempre.
Preservar todas las anotaciones. Modelar la distribución. Predecir incertidumbre.
El modelo refleja la diversidad humana.
Mejor calibración. Más justo para grupos minoritarios. Reconoce la subjetividad inherente.
¿descartamos la opinión
de los otros dos?
En NLP hacemos exactamente eso. Cada día. Con millones de textos.
De la gold label a la distribución: un cambio de paradigma
L = KL(p_soft ‖ p_model)
Plug-and-play. Sin cambios de arquitectura. Hinton et al. (2015).
hₖ(x) = Wₖ·enc(x) + bₖ
Un head por anotador. Captura patrones individuales. Davani et al. (2022).
ŷ = f(enc(x), aₖ ∈ ℝ^d)
Cada anotador como vector. Generaliza a nuevos anotadores. ≈ user embeddings.
p(y|x) ~ Dir(α₁,...,αₖ)
Incertidumbre epistémica + aleatoria. "No sé" vs "es ambiguo". Sensoy (2018).
Todos tratan el desacuerdo como DATO, no como PROBLEMA
Shared task que evalúa modelos contra la distribución completa de juicios humanos, no contra la mayoría.
CED = -Σ p_real(y)·log(p_pred(y))
Penaliza sobreconfianza. Mide distancia real entre distribución predicha y distribución humana.
Hard → soft mejora todos los modelos sin cambios de arquitectura.
Textos controvertidos son también los más difíciles para los modelos.
5 anotadores diversos > 20 similares. La homogeneidad enmascara sesgo.
Soft labels actúan como regularizador natural. Mejor generalización cross-dataset.
La noción de ground truth es un artefacto dañino. Para muchas tareas, es una construcción social que refleja la perspectiva del grupo dominante.
En tareas subjetivas no hay verdad objetiva. La agregación crea ilusión de consenso.
El desacuerdo es información sobre complejidad, no ruido.
Demografía, ideología y experiencia son variables relevantes.
Distribuciones, no clasificaciones binarias. Humildad epistémica.
No contra gold labels artificiales.
Documentar qué perspectivas se privilegian. Model Cards, Datasheets.
Dermatología: ¿es melanoma? Interobserver κ ≈ 0.56. Radiología: desacuerdo clínico legítimo y frecuente. Conducción autónoma: ¿es peligroso? Percepción de riesgo subjetiva.
Ratings subjetivos (1-5 estrellas). User embeddings ≈ annotator embeddings. Cold start = annotator desconocido. ¿Para quién optimizamos la fairness?
COMPAS: predicción de reincidencia. Jueces discrepan entre sí. Hiring algorithms: "buen candidato" es subjetivo. Content moderation: normas culturales variables.
Patrón común: cuando la tarea involucra juicio humano, la "verdad" no es un punto sino una distribución.
Gordon et al. (2022): en lugar de un modelo que aprende una verdad, un jurado de modelos que aprende perspectivas.
Captura la perspectiva individual de cada anotador. Puede predecir cómo un nuevo anotador etiquetaría un texto. Encoder compartido evita sobreajuste.
En datasets de hate speech: mejora 8-15% en CED vs. hard labels. Mejor calibración. El modelo "sabe lo que no sabe".
Mixture of Experts: cada expert = una perspectiva. Router aprende cuándo activar cada perspectiva. Similar a multi-head attention.
El problema, las formas, y cómo abordarlo computacionalmente
4.9B
usuarios en redes sociales
24/7
ciclo de noticias digital
∞
contenido IA generativa
Cámaras de eco · polarización · solo el 40% confía en los medios (Reuters 2024) · desinformación sanitaria masiva
Evento: reforma laboral aprobada por el gobierno
"El Gobierno aprueba la histórica reforma que moderniza el mercado laboral"
→ Sensationalism + subj. adjectives
→ Source selection: solo gobierno
→ Omission: impacto en temporales
"La polémica reforma laboral impuesta por el Ejecutivo entra en vigor"
→ Labeling / word choice
→ Source selection: solo oposición
→ Omission: objetivos económicos
Ambos reportan hechos reales. El sesgo está en el CÓMO, no en el QUÉ.
15+ esquemas distintos en la literatura. Sin benchmark unificado. Cada paper reinventa la rueda.
Mayoría USA-centric. Pocos en español. Contextos políticos no transferibles.
BERT en MBIC → F1=0.76. Mismo modelo en BABE → F1=0.45. Cross-dataset: -30-50%.
Sesgo = juicio + percepción + contexto. Gold labels = perspectiva dominante.
Tendencia 2024-25: perspectivista + holístico + LLMs
Las mejoras vienen de cambiar QUÉ modelamos (distribuciones), no solo CÓMO (más parámetros)
BoW, TF-IDF, lexicones de sentimiento. Interpretable y rápido pero sin contexto. Recasens et al. (2013). Baseline clásico.
BERT, RoBERTa, DeBERTa fine-tuned. SOTA en benchmarks cerrados. Caja negra. No generaliza cross-dataset. Spinde (2021).
GPT-4, Claude con few-shot + CoT. Explicable, flexible. Pero costoso, inconsistente y con alucinaciones. Fan et al. (2024).
Heurísticas + Transformers + LLMs. Ensemble y stacking. Más robusto y mejor generalización. Línea más prometedora.
La tendencia: perspectivismo + multi-nivel + LLMs como evaluadores
Las mejoras más grandes vienen de cambiar la formulación del problema, no la arquitectura
¿Por qué el sesgo mediático es la tarea perspectivista por excelencia?
Un votante de izquierdas y otro de derechas perciben sesgo en textos diferentes. El sesgo existe en la relación texto-lector.
Ideología, cultura y experiencia profesional afectan la percepción del sesgo. Un κ bajo no indica datos malos: indica un fenómeno genuinamente subjetivo.
"Recortes presupuestarios" puede ser informativo o sesgado según el contexto. Sin contexto, la anotación es incompleta.
3 perciben sesgo, 2 no. Gold = "sesgado" (100%). Soft = P(sesgado) = 0.6. La segunda es más honesta y más útil.
Entrenar IA sin mover los datos
Hospitales, bancos, móviles: los datos más valiosos son los que no puedes centralizar. GDPR, HIPAA, regulación.
Traer el modelo
a los datos
No los datos al modelo
Los datos NUNCA abandonan el dispositivo
Nodos con distribuciones distintas. Hospital rural ≠ urbano. → FedProx: L + (μ/2)‖w-wₜ‖²
Millones de parámetros × N × R. → Gradient compression, quantización, top-k sparsification.
No enviar datos ≠ privacidad total. Model inversion attacks. → Differential Privacy + Secure Aggregation.
Un nodo envía gradientes maliciosos. → Robust aggregation: median, trimmed mean, Krum.
¿El modelo global es justo para todos? Nodos pequeños infrarepresentados. → Agnostic FL (Mohri 2019).
¿Un modelo sirve a todos? → Per-FedAvg (meta-learning), local fine-tuning, FedBN.
Predicción de texto en Android. Millones de dispositivos. Primer despliegue masivo (2017). Datos de escritura nunca salen del móvil.
20 hospitales entrenando detector de tumores sin compartir historiales. Nature Medicine 2022. HIPAA by design.
Bancos colaboran sin compartir transacciones. WeBank: primer banco FL. OpenFL de Intel para el sector.
Framework open source: Flower (flower.ai)
FL con PyTorch / TensorFlow / JAX en ~15 líneas de Python
Flower soporta PyTorch, TensorFlow, JAX
flower.ai — open source, producción-ready
¿El modelo global converge aunque los nodos tengan datos distintos? Análogo al problema de consistencia eventual en bases de datos distribuidas (CAP theorem).
¿Qué pasa si un nodo se cae o envía basura? Byzantine fault tolerance. Robust aggregation. Misma teoría que en Paxos/Raft.
El cuello de botella no es el cómputo sino la red. Gradient compression, async FL. Mismos trade-offs que en MapReduce o Spark.
Si entendéis sistemas distribuidos, ya entendéis la mitad de FL.
Consenso · replicación · particionado · serialización · idempotencia — todo aplica
Sistemas autónomos que razonan, planifican y actúan
Prompt → respuesta. Sin estado. Sin acciones. Sin decisiones.
Analogía: una calculadora
Objetivo → planifica → ejecuta → evalúa. Memoria. Herramientas. Autonomía.
Analogía: un empleado junior competente
GPT-4, Claude, Gemini. Razonamiento, planificación. Chain-of-Thought, Tree-of-Thought.
APIs, código, web, filesystem. Function calling. MCP protocol.
Corto plazo: buffer. Largo plazo: vector DB. Episódica, semántica, procedimental.
Descomponer → priorizar → ejecutar → replanificar. ReAct, Reflexion, Plan-and-Execute.
Hub-and-spoke. ≈ microservicios con API gateway. CrewAI, AutoGen.
Sin coordinador. Resiliente, escalable. ≈ blockchain, gossip protocol.
Flujo en grafo. ≈ CI/CD pipelines, MapReduce. LangGraph, DSPy.
Agentes argumentan. ≈ sistema judicial, consenso Bizantino.
paso de mensajes · tolerancia a fallos · consenso · escalabilidad · observabilidad
> "Añade autenticación con Google OAuth a mi app Next.js"
LangGraph · Claude Agent SDK · CrewAI · AutoGen · DSPy · Smolagents
Fiabilidad (alucinaciones) · Coste ($30/1M tokens × N agentes) · Seguridad (prompt injection) · Gobernanza (EU AI Act)
Computer use · Agentes persistentes 24/7 · Agentic OS · La interfaz desaparece
Yao et al. (2023). Thought → Action → Observation, en bucle. Base de LangChain, Claude tools. El patrón más usado en producción hoy.
Shinn et al. (2023). El agente evalúa su propio output. Si es subóptimo: genera crítica → reintenta. Mejora ~30% en coding tasks.
Fase 1: plan completo. Fase 2: ejecutar paso a paso. Separa planning de execution. Más predecible. Usado en Claude Code, Devin.
Toolformer (Schick 2023). El LLM decide cuándo y qué herramienta usar. Function calling (OpenAI, Anthropic). MCP protocol.
En la práctica se combinan: ReAct + Tool Use + Reflexion + Planning
Los LLMs alucinan → el agente actúa mal. Un error se propaga y amplifica. No-determinismo: misma entrada ≠ misma salida. Solución: guardrails, validación, sandboxing.
GPT-4: ~$30/1M tokens. Un agente complejo: 50K-500K tokens/tarea. Multi-agente: ×N agentes. Solución: routing inteligente, modelos más pequeños para subtareas.
¿Qué decidió el agente y por qué? Traces, logs estructurados, métricas. LangSmith, Langfuse, Arize. Debugging agéntico ≈ debugging de sistemas distribuidos.
Prompt injection: manipular al agente. Tool misuse: acciones no autorizadas. Data exfiltration. Solución: principio de mínimo privilegio, sandboxing.
¿Cómo medir si un agente es "bueno"? No hay test set: tareas abiertas. Benchmarks: SWE-bench, WebArena, GAIA. Human eval sigue siendo gold standard.
¿Quién es responsable si el agente falla? Autonomía vs. control humano. EU AI Act: sistemas de alto riesgo. Human-in-the-loop vs. human-on-the-loop.
Coding: Devin, Claude Code, Cursor. Research: Elicit, Consensus. Data: Julius. DevOps: auto-deploy. Cada dominio tendrá su agente.
Agentes que usan GUI como humanos. Click, type, scroll. Anthropic Computer Use (2024). Cualquier software = herramienta del agente.
No solo responder: ejecutar 24/7. Monitorizar, reaccionar, aprender. Background agents en CI/CD. De asistente a empleado digital.
El sistema operativo como orquestador. Apple Intelligence, Windows Copilot. Inter-app agent communication. La interfaz desaparece.
La pregunta no es si los agentes cambiarán la informática...
...sino con qué garantías. Fiabilidad, seguridad y gobernanza son los cuellos de botella.
Pero hasta que lleguemos ahí, necesitamos ingenieros que entiendan LLMs y sistemas distribuidos. Es decir: vosotros.
El lenguaje es subjetivo
Y eso no es un bug, es un feature. Nuestros modelos deben reflejarlo.
El desacuerdo es información
Cuando los anotadores discrepan, están mostrando la complejidad del fenómeno.
El sesgo mediático es el test definitivo
Subjetivo, cultural, político. Si resolvemos esto, avanzamos en IA justa.
FL: IA distribuida sin exponer datos
Privacidad como derecho, no como trade-off.
Los agentes son sistemas distribuidos
Multi-agente = paso de mensajes + consenso + tolerancia a fallos. Vuestro futuro.
TFGs/TFMs en perspectivismo, detección de sesgo, NLP multilingüe. Contribuir a shared tasks (SemEval). Publicar en workshops. Open source: datasets, modelos, código.
Sistemas de fact-checking automático. Dashboards de transparencia mediática. Pipelines de ML distribuido (FL). Agentes IA para tareas complejas. DevOps para IA.
Herramientas para periodistas. Extensiones de navegador anti-sesgo. Educación mediática con IA. Auditoría algorítmica participativa. IA responsable aplicada.
Recursos para empezar hoy
LeWiDi
semeval.github.io
Flower
flower.ai
LangGraph
langchain-ai.github.io
HuggingFace
huggingface.co
Esa es la tarea. Vuestra y nuestra.