Introducción
Los clasificadores de archivos de prevención de pérdida de datos (DLP) basados en aprendizaje automático proporcionan una forma rápida y eficaz de identificar datos confidenciales en tiempo real, lo que permite a las organizaciones disponer de controles de políticas DLP granulares y en tiempo real. Netskope Advanced DLP ofrece una amplia gama de clasificadores de archivos predefinidos, como pasaportes, permisos de conducir, cheques, tarjetas de pago, capturas de pantalla, código fuente, formularios fiscales y acuerdos comerciales. Aunque estos clasificadores predefinidos son notables por sí mismos, son necesariamente algo genéricos si se tiene en cuenta la enorme diversidad de datos sensibles en los distintos sectores y organizaciones. Para abordar mejor los documentos específicos de una empresa o de un sector, como los documentos de identidad, los archivos de recursos humanos o las imágenes de infraestructuras críticas, Netskope ha desarrollado un novedoso enfoque patentado que permite a los clientes entrenar sus propios clasificadores manteniendo la privacidad de los datos. Esta innovación permite a las organizaciones centrarse en proteger su información más crítica.
Este proceso de entrenamiento, conocido como “entrene a su propio clasificador” (Train Your Own Classifier o TYOC), está diseñado para ser eficiente, ya que no requiere ni una gran cantidad de datos etiquetados ni un entrenamiento prolongado de un modelo de clasificación supervisado. Los clientes pueden cargar un pequeño conjunto de imágenes de ejemplo (aproximadamente 20-30) en Netskope Security Cloud. Estos ejemplos se utilizan para extraer atributos importantes y entrenar un clasificador personalizado utilizando el motor de aprendizaje automático de Netskope.
Una vez entrenado el clasificador personalizado, se despliega en el propio inquilino del cliente para detectar información sensible en cualquier lugar donde se utilice Netskope DLP, incluidos el correo electrónico y Endpoint DLP. Es importante destacar que las muestras originales no se conservan y que el clasificador entrenado no se comparte con ningún otro cliente, lo que garantiza la protección de los datos confidenciales del cliente durante todo el proceso.
Similitud de imágenes y aprendizaje contrastivo
TYOC resuelve un problema de similitud de imágenes utilizando técnicas de aprendizaje contrastivo.
La similitud de imágenes aborda el reto de identificar imágenes que se parecen a una imagen de referencia, incluso cuando existen pequeñas diferencias en aspectos como el color, la orientación, el recorte y otras características. Este proceso puede gestionarse eficazmente mediante técnicas avanzadas de aprendizaje contrastivo.
El aprendizaje contrastivo está diseñado para extraer representaciones significativas contrastando pares de instancias similares (positivas) y disímiles (negativas). Se basa en el concepto de que las instancias similares deben colocarse más cerca en un espacio de incrustación aprendido, mientras que las instancias disímiles deben colocarse más lejos. El aprendizaje contrastivo consiste en entrenar modelos de imágenes mediante aprendizaje no supervisado, aumentando cada imagen de forma que se preserve su contenido semántico. Este aumento incluye operaciones como rotaciones aleatorias, distorsiones de color y recortes, garantizando que el área recortada siga siendo una parte significativa de la imagen original. Estas muestras aumentadas se utilizan para entrenar un modelo codificador de imágenes basado en una red neuronal convolucional (CNN). Este codificador toma una imagen como entrada y produce un vector de características, también conocido como representación o incrustación.
Netskope TYOC combina un codificador de imágenes preentrenado construido por Netskope con un pequeño número de imágenes de entrenamiento proporcionadas por un cliente. Esta combinación permite a la nube de seguridad de Netskope realizar clasificaciones de similitud de imágenes en archivos relevantes para el cliente con un rendimiento similar al que se consigue con los clasificadores integrados de archivos (predefinidos).
Entrenamiento con aprendizaje contrastivo
El modelo codificador aprende a identificar similitudes entre imágenes estableciendo que los pares de imágenes coincidentes, denominados pares positivos, presentan la mayor similitud. Por el contrario, a los pares no coincidentes o pares negativos – extraídos del resto del conjunto de datos de imágenes – se les asigna la menor similitud. A continuación, ilustramos este concepto con ejemplos de pares positivos y negativos.
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-1.png)
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-2.png)
El codificador de imágenes, entrenado con aprendizaje contrastivo, mapea cualquier imagen a una incrustación de alta dimensión para un hash semántico, capturando eficazmente el significado semántico de la imagen. La siguiente ilustración muestra la aplicación de este codificador de imágenes preentrenado en el conjunto de datos "perros y muffins", compuesto por ocho imágenes de perros y ocho imágenes de muffins, todas ellas muy parecidas entre sí en apariencia. A la derecha, presentamos una proyección tridimensional de las incrustaciones de alta dimensión generadas para cada imagen. Esta visualización muestra claramente la separación de las dos categorías en el espacio de incrustación, lo que subraya la eficacia del codificador para captar y diferenciar la esencia semántica de las imágenes.
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-3-1024x503.png)
Usar el entrenamiento de su propio clasificador
Al utilizar el modelo de codificador de imágenes preentrenado, nuestro sistema permite a los clientes cargar sus imágenes de entrenamiento o referencia con el fin de entrenar un clasificador a medida. Para obtener un rendimiento óptimo, se recomienda proporcionar al menos 20-30 imágenes de referencia para cada categoría. El codificador de imágenes procesa estas imágenes de referencia, convirtiéndolas en incrustaciones de alta dimensión. Para garantizar la privacidad, las imágenes originales se eliminan tras la codificación. Estas incrustaciones de referencia se utilizan después para construir un índice de vecinos más cercanos aproximados (Approximate Nearest Neighbors o ANN), que actúa como clasificador personalizado.
Durante la fase de inferencia, las nuevas imágenes se codifican para generar incrustaciones utilizando el mismo modelo de codificador de imágenes. A continuación, el modelo ANN identifica la etiqueta de clase de la incrustación de referencia más cercana. Si la distancia a esta incrustación más cercana es inferior a un umbral predefinido, se asigna a la imagen la etiqueta prevista correspondiente de la incrustación de referencia. Si no, la imagen se clasifica bajo la etiqueta predicha "otro".
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-4-1024x390.png)
Casos de Éxito
Tarjetas de acceso
En esta evaluación, adoptamos la metodología TYOC para clasificar las tarjetas de acceso, como se detalla a continuación. Inicialmente, nuestro conjunto de datos constaba sólo de tres ejemplos auténticos (de muestra), ilustrados a la izquierda. Para aumentar nuestros datos de entrenamiento, generamos 30 imágenes sintéticas. Esta ampliación consistió en sustituir los retratos de las tarjetas de muestra por una serie de retratos aleatorios, como se muestra a la derecha. Posteriormente, asignamos 20 de estas imágenes al entrenamiento del clasificador, mientras que las 10 restantes, junto con 1.000 ejemplos negativos seleccionados al azar, se utilizaron para las pruebas. En la fase de prueba, el clasificador personalizado demostró un rendimiento excepcional, alcanzando una tasa de exhaustividad o detección del 100% con una precisión del 99,3%.
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-5-1024x319.png)
Firmas manuscritas
Para este experimento se utilizó un conjunto de datos públicos de firmas manuscritas. El conjunto de datos incluye firmas de 64 personas, con aproximadamente 25 imágenes para cada nombre. De ellas, unas 10 imágenes por nombre representan falsificaciones. Todas las imágenes se transformaron en incrustaciones utilizando el codificador de imágenes preentrenado, sin ningún otro reentrenamiento. Para cada individuo, se incorporaron a los vecinos más cercanos aproximados seis incrustaciones como imágenes de referencia, mientras que las aproximadamente 20 incrustaciones restantes por nombre sirvieron como muestras de prueba. Al evaluar las imágenes de prueba de las firmas, se pudieron emparejar con exactitud con el nombre correspondiente con una precisión del 87%, siempre que las falsificaciones se consideraran coincidencias válidas. Si se excluían las falsificaciones, la tasa de precisión disminuía ligeramente hasta el 84%.
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-6.png)
Preocupación por la privacidad
Nuestro codificador de imágenes preentrenado traduce las imágenes en incrustaciones semánticas de alta dimensión – representaciones vectoriales compactas del significado esencial de una imagen y sus equivalentes visualmente similares. Como estas incrustaciones contienen datos semánticos, existe el riesgo teórico de que las imágenes puedan reconstruirse parcial o totalmente a partir de sus incrustaciones, lo que podría comprometer la privacidad del usuario en nuestro sistema.
Para mitigar estas preocupaciones, hemos realizado experimentos exhaustivos y hemos descubierto que, aunque en teoría es posible reconstruir imágenes a partir de incrustaciones de alta dimensión en situaciones extremadamente improbables, las versiones resultantes serían de muy baja fidelidad. Esta limitación restringe significativamente la cantidad de información recuperable, proporcionando una sólida salvaguarda contra posibles violaciones de la privacidad.
En el peor de los casos, intentamos reconstruir imágenes a partir de sus incrustaciones TYOC de alta dimensión utilizando un modelo generativo de IA que tiene acceso al codificador TYOC. A continuación, se muestran algunos de los resultados. Aunque es muy poco probable que la arquitectura del modelo, los archivos de pesos y las incrustaciones reales de las imágenes sean totalmente accesibles, nuestras reconstrucciones siguen mostrando una calidad muy pobre, sin reproducir ningún detalle preciso.
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-7-1024x622.png)
Resumen
Entrene a su propio clasificador (Train Your Own Classifier o TYOC) ya está disponible de forma general como parte de Advanced DLP de Netskope (captura de pantalla a continuación). Para obtener más información sobre la solución de DLP en la nube más completa y avanzada del sector, visite la página de prevención de pérdida de datos de Netskope.
![](https://www.netskope.com/wp-content/uploads/2024/05/TYOC-Blog-Image-8-1024x678.png)