Datos de entrenamiento y prueba

Durante la investigación en papers sobre IDS, lo primero que se busca son los datos de entrenamiento y de prueba. Para datos de entrenamientos de un IDS, las opciones más utilizadas en estos trabajos son las siguientes:

  1. KDD' 99 (link)
  2. DARPA 98 (link)
  3. Datos de redes propias.

Cada uno de los cuales tienen sus pros y contras.

Pros:

KDD'99: utilizados en la mayoría de los paper sobre IDS, con los cuales se prueban y se comparan diferentes técnicas de clasificación (Redes neuronales, logica difusa, arboles de decisión...)

DARPA 98: seis semanas de entrenamiento y dos de testing de lunes a viernes. Gran cantidad de datos e información en bruto de los datos de la red.

Datos de redes propios: datos con etiquetados con ataques actuales.

Contras

KDD'99: las características utilizadas no pueden ser reproducidas en linea (se requeriria una maquina muy poderosa). Pero si se pudiera, los ataques solo se detectarían una vez realizados.

DARPA '98: Ataques muy antiguos, por lo que la mayoría de IDS basados en firmas (ej: snort), los detectan.

Datos de redes propias: muy costoso de implementar, dado el etiquetamiento de los ataques que se deben realizar y eliminar datos privados que pueden aparecer en el payload del paquete snifeado.

Conclusión

Creo que los IDS, se deben probar con estos tres conjuntos de datos de pruebas, ya que con los KDD' 99 se puede probar y comparar la técnica utilizada, con los Darpa'98, si el IDS es basado en anomalías, no interesa que sean antiguos los datos, las anormalías lo son antes y ahora. Con un conjunto de datos reales para evaluar el IDS en escenarios reales.