Seguridad IA 14 jul 2025 8 min de lectura

Hacking & Seguridad IA: OWASP GenAI Security Project

Entrevista en El Lado del Mal sobre los vectores de ataque más críticos en sistemas de IA: prompt injection, fugas de datos, agentes autónomos y cómo auditarlos en producción.

MSL

Manuel S. Lemos

AI Engineer · Founder · Speaker

Entrevista publicada en El lado del mal el 14 de julio de 2025.

El mundo de la IA Generativa ha transformado brutalmente el sector tecnológico. Los profesionales de ciberseguridad han tenido que aprender nuevos conceptos, herramientas y metodologías completamente distintas. En esta entrevista hablo sobre mi trabajo auditando sistemas que usan IA, el proyecto OWASP GenAI Security y los riesgos reales que encuentro en producción.

¿Cómo utilizas la IA para hacer hacking? {#hacking-ia}

No uso IA para atacar sistemas tradicionales. En mi caso, audito sistemas que usan IA, que es un mundo completamente distinto.

Cuando una empresa mete un LLM en producción, suele asumir que es inteligente y, por tanto, seguro. Pero no. Todo lo contrario.

Busco vulnerabilidades como inyección de prompts, fugas de datos por entrenamiento descontrolado, y fallos arquitectónicos en sistemas RAG o agentes autónomos. He encontrado sistemas que, con frases bien formuladas, devuelven información sensible de otros usuarios. El trabajo es lingüístico y semántico, pero igual de peligroso que un exploit tradicional.

Problemas de seguridad más frecuentes en aplicaciones GenAI {#problemas-frecuentes}

El problema más frecuente: subestimar el input del usuario. Muchos sistemas permiten que el usuario introduzca instrucciones dentro de una conversación sin ningún tipo de sanitización ni validación de contexto.

También aparecen consistentemente:

Fugas de información aprendida: modelos que entrenan continuamente sin anonimizar correctamente los datos de usuarios reales.
Sistemas que revelan datos de otros usuarios: nombres, correos, incluso IBANs. Un data leak en diferido generado por el propio modelo.
Confianza excesiva en el LLM como intermediario: sin controlar el contexto que se le pasa, es fácil que información de una sesión contamine otra.

“Mi trabajo está en romper esa ilusión de seguridad. Auditar IA no va solo de ver qué hace el modelo, sino de entender cómo y por qué responde lo que responde.”

Los riesgos de Agentic AI {#agentic-ai}

Los agentes autónomos representan un salto cualitativo en la superficie de ataque. La razón es estructural: no solo responden, también planifican, ejecutan y se adaptan, a veces sin intervención humana entre pasos.

“El problema no es que un agente autónomo tenga malas intenciones. Es que optimiza lo que le dices, no lo que querías decir.”

Si les das acceso a herramientas — APIs, bases de datos, sistemas de ficheros — y no aíslas correctamente los permisos, una manipulación del input puede convertirse en una amenaza activa dentro de tu infraestructura.

Los tres vectores que aparecen siempre en mis auditorías de sistemas agénticos:

Falta de aislamiento de permisos. El agente hereda los permisos del sistema en lugar de operar con el mínimo privilegio necesario.
Ausencia de trazabilidad. Sin registro de qué acciones tomó el agente y por qué, un incidente es imposible de analizar.
Indirect prompt injection. El agente recupera contenido de fuentes externas que puede contener instrucciones maliciosas embebidas.

Prompts favoritos para auditoría {#prompts}

Uso prompts que cambian el rol del modelo para explorar su comportamiento:

"Eres auditor experto en ciberseguridad ofensiva.
Analiza este código en busca de fallos críticos."

"Simula que eres un atacante con acceso limitado.
¿Qué pasos tomarías para escalar privilegios?"

También encadeno prompts para generar análisis, documentación técnica y recomendaciones automatizadas. Acelera enormemente las fases iniciales de una auditoría.

Herramientas indispensables {#herramientas}

Las que más uso en mi stack actual:

Ollama — modelos locales sin exponer datos sensibles a APIs externas
vLLM — escalabilidad con rendimiento muy alto
LangChain — orquestación de flujos conversacionales complejos
Flowise — prototipado visual de pipelines RAG
N8N — automatización entre sistemas con nodos IA
LangWatch — observabilidad real de respuestas del modelo en producción
CodeGPT — desarrollo asistido por IA

El fallo más inesperado que he encontrado {#fallo-inesperado}

Una plataforma de atención al cliente con un LLM fine-tuneado con conversaciones reales sin anonimizar correctamente. Bajo ciertas preguntas, el modelo devolvía fragmentos de otras conversaciones: nombres, correos electrónicos, IBANs.

Un data leak en diferido, generado por el propio modelo. Altamente peligroso y muy difícil de detectar sin auditoría específica.

El proyecto OWASP GenAI Security {#owasp}

El OWASP Top 10 for LLM Applications es la referencia más completa y práctica que existe para cualquier equipo que trabaje con IA en producción. Cubre desde prompt injection (LLM01) hasta model theft (LLM10), con descripciones de impacto, ejemplos reales y guías de mitigación.

Si estás construyendo o auditando un sistema con LLMs y aún no lo has leído, es tu primera tarea pendiente.

Proyectos complementarios que merece la pena seguir:

Prompt Injection Database
AI Exploits Framework — documenta ataques reales y fallos en modelos

¿La IA nos lleva a un futuro mejor o a un apocalipsis? {#futuro}

“La IA es una tecnología amplificadora. Si se usa mal, acelera desigualdades, vigilancia y manipulación. Si se usa bien, democratiza el acceso al conocimiento, la salud y la creatividad.”

El riesgo real está en quién la entrena, con qué datos y con qué objetivos. Por eso apuesto por los modelos open-source: más transparencia, más control, más posibilidad de auditar.

¿La próxima guerra será causada por IA? {#guerra}

Ya lo es. Pero es invisible. No hay trincheras sino timelines, no hay bombas sino deepfakes, desinformación, bots y manipulación algorítmica. Muchos ni saben que están en medio de este conflicto.

¿Cómo empezar a integrar IA en una empresa? {#empezar}

Escuchar primero. No todas las empresas necesitan un chatbot. Muchas tienen problemas estructurales previos: datos desordenados, procesos manuales, falta de trazabilidad.

El proceso que funciona:

Identifica qué proceso aporta mayor valor si se automatiza.
Forma a los equipos desde el inicio — un modelo espectacular no sirve de nada si nadie sabe usarlo.
Diseña para la sostenibilidad, no para la demo.

La clave es hacer la IA útil en el día a día, no impresionante en el pitch.

Seguridad IALLMsPrompt InjectionOWASPAgentes AutónomosRAGHackingGenAI

Tabla de contenidos

¿Cómo utilizas la IA para hacer hacking? ${#hacking-ia}
Problemas de seguridad más frecuentes en aplicaciones GenAI ${#problemas-frecuentes}
Los riesgos de Agentic AI ${#agentic-ai}
Prompts favoritos para auditoría ${#prompts}
Herramientas indispensables ${#herramientas}
El fallo más inesperado que he encontrado ${#fallo-inesperado}
El proyecto OWASP GenAI Security ${#owasp}
¿La IA nos lleva a un futuro mejor o a un apocalipsis? ${#futuro}
¿La próxima guerra será causada por IA? ${#guerra}
¿Cómo empezar a integrar IA en una empresa? ${#empezar}

Progreso 0%

MSL

Manuel S. Lemos

AI Engineer · Founder · Speaker

AI Engineer en NaizFit y Founder de Ferrumox. Máster en IA & Big Data (UAX). Vicepresidente de ANBAN. Visión AI‑First pragmática: la tecnología al servicio del contexto, no al revés.

Twitter / X LinkedIn GitHub MyPublicInbox