A lo largo del último año, hemos publicado varios artículos de blog en los que hablábamos de NewEdge, la red o infraestructura sobre la que prestamos los servicios de la Nube de Seguridad de Netskope, y la comparábamos con otros enfoques que han adoptado los proveedores de seguridad en la nube. Hemos hablado largo y tendido sobre la estrategia fundamental de Netskope para superar las limitaciones de rendimiento inherentes a la Internet pública, así comosobre por qué el retorno de tráfico (o "hairpinning") dentro de la nube es una mala estrategia, por qué la cobertura no consiste sólo en contar los centros de datos, y lo importante que es el peering y una estrategia de interconexión agresiva para obtener el mejor rendimiento y la mejor experiencia de usuario.
Un tema que surge con frecuencia en las conversaciones con los líderes de redes e infraestructuras, y que suscita mucho interés, es el enfoque que estamos adoptando en Netskope para construir y escalar realmente NewEdge. Personalmente, me entusiasma contar esta historia, ya que mis responsabilidades diarias implican hacer que esto suceda y se alinea con mis experiencias anteriores en AWS, la nube pública más grande y conocida del mundo. Ahora estamos en un punto en el que queremos desmitificar NewEdge y tomar el entusiasmo que nuestra gente siente por NewEdge y compartir los detalles con nuestros clientes y socios.
Construimos NewEdge con una serie de principios de diseño en mente, y el objetivo es equilibrar eficazmente la disponibilidad, el rendimiento y la escalabilidad. Dado que estos aspectos pueden ser contradictorios entre sí, no sólo tenemos que tomar decisiones intencionadas sobre el hardware y el software que debemos utilizar ahora, sino también prever a la vuelta de la esquina y predecir lo que vamos a necesitar antes de que lo necesitemos. Nuestros más de 50 puntos de presencia actuales utilizan una infraestructura que tiene menos de tres años de antigüedad en su ubicación más antigua y que ha sido probada a fondo por terceros y por nuestros propios equipos de control de calidad. Utilizamos funciones avanzadas de la plataforma cuando es necesario, pero no nos lanzamos a por las funcionalidades más avanzadas proporcionadas por terceros. Cuando necesitamos una funcionalidad específica, la creamos nosotros mismos. Sobre-aprovisionamos la red para tener un colchón que nos permita escalar antes de que sea necesario y operamos en un modo de no bloqueo para que, incluso con todos los servicios disponibles, la aplicación de nuestras funcionalidades de seguridad no estrangule el tráfico de los clientes hacia y desde sus aplicaciones SaaS. En Netskope, todo lo que diseñamos, desarrollamos e implantamos se rige por un conjunto de principios o valores fundamentales en los que creemos firmemente, y nuestra cultura dicta que midamos nuestro progreso en función de esos principios. Queremos ser capaces de responder si hemos mejorado o empeorado la vida de nuestros clientes, y para ello utilizamos datos.
En este artículo de blog voy a dedicar algún tiempo a desentrañar la estrategia de los centros de datos de NewEdge, presentando la "fábrica de centros de datos" que hay detrás de NewEdge. No sólo profundizaré en lo que hemos hecho, sino también en porqué lo hemos hecho así, y compartiré también algunas de nuestras mejores prácticas. El objetivo no es sólo ser transparente y convencerle del poder de NewEdge, sino también compartir ideas que pueda incorporar a medida que su organización realiza la importante transición a la nube y busca aprovechar los aprendizajes clave de los pioneros de la nube y de la hiperescalabilidad.
Sacar ventaja de un impacto reducido
Desde la introducción de NewEdge hace aproximadamente dos años, hemos rediseñado completamente el impacto de nuestro centro de datos encontrando e implementando optimizaciones en toda nuestra infraestructura y portfolio de software. Nuestra arquitectura anterior requería una mezcla híbrida de varios bastidores físicos en las instalaciones, así como una presencia física sustancial en entornos informáticos alojados. Al igual que muchos de nuestros competidores, confiamos en la nube pública durante un tiempo, y pudimos comprobar el rendimiento imprevisible de estas arquitecturas cuando se trataba de la prestación de servicios de seguridad en línea y en tiempo real. Por ejemplo, antes de NewEdge, experimentamos una importante variabilidad en el rendimiento, ya que los proveedores de nube pública enrutaban el tráfico en función de sus necesidades de negocio, coste o lo que fuera. Con una latencia para el tráfico de usuarios que oscilaba entre un solo dígito y decenas de milisegundos (ms) en algunas ubicaciones, los clientes experimentaban problemas con las aplicaciones, especialmente cuando éstas eran sensibles a las fluctuaciones. Hoy en día, en cuanto al impacto de NewEdge, nos esforzamos por conseguir una latencia constante de un solo dígito de milisegundos. Por lo tanto, necesitábamos una solución que fuera optimizada, simplificada y centrada—que proporcionara más capacidad, flexibilidad y rendimiento en un solo rack. Además, el enfoque de un solo rack nos permitiría movernos con rapidez si necesitábamos escalar en una zona geográfica concreta o abordar un patrón de uso cambiante. Este enfoque sólo era posible con una inversión significativa en capital y conocimiento, y para ello, Netskope invirtió en 100 personas (incluyéndome a mí) y 100 millones de dólares para realizar la construcción inicial de la nube privada de seguridad NewEdge.
Crear centros de datos sin personalidades
Hemos trabajado muy duro para que nuestra infraestructura sea única, unificada y 100% homogénea, de modo que ningún centro de datos tenga un aspecto diferente de otro. Como parte de la transición a un impacto reducido y centrado en el rendimiento, hemos implementado el concepto de racks integrados en nuestra estrategia de fábrica de centros de datos. Construimos, preparamos, configuramos, probamos y enviamos un centro de datos como un rack pre-construido, con cada rack construido exactamente de la misma manera. Esta estrategia garantiza una coherencia total en cada centro de datos en lo que respecta a los servicios disponibles y la configuración relacionada con la infraestructura circundante y los componentes subyacentes.
Este nivel de consistencia y uniformidad se extiende hasta garantizar que los cables se conectan exactamente a los mismos puertos en todos los centros de datos del mundo. Esto nos permite utilizar la automatización para acelerar el despliegue y emplear la auto-reparación cuando sea necesario. Hasta este punto, mientras la mayor parte del mundo estaba en medio de una pandemia global en 2020, gracias a nuestro uso de la automatización, fuimos capaces de desplegar más de 20 centros de datos a nivel mundial, incluyendo cuatro centros de datos en América Latina en aproximadamente 30 días. Se trata de un ritmo de despliegue y escalado inaudito, incluso para las empresas líderes de la nube y de la hiperescalabilidad. Se acabaron los días de cablear cajas físicas y enviar personal costoso por todo el mundo para poner en marcha un centro de datos.
Llevar a cabo extensas pruebas previas y posteriores al despliegue
Aunque la configuración de los centros de datos de NewEdge está automatizada y se ejecuta exactamente de la misma manera cada vez, sabemos que las cosas se romperán y los problemas ocurrirán inevitablemente. Para reducir el riesgo de nuestras implantaciones, antes de que un centro de datos NewEdge salga hacia su destino final, recopilamos y evaluamos más de 2.000 métricas únicas que son indicativas del estado general del sistema. Esto incluye el voltaje de cada fuente de alimentación y la paridad y el nivel de rendimiento de la memoria, la carga simulada en nuestra infraestructura y las pruebas granulares de la funcionalidad del servicio. Un centro de datos no se envía hasta que todos los elementos están en el estado esperado y se han cumplido todos los criterios. Las mismas pruebas se vuelven a realizar después de que el centro de datos llegue a la región. Y el centro de datos no se lanza y entra en producción hasta que todas las métricas están alineadas al 100% y las pruebas se completan con éxito.
Una vez en producción, es inevitable que el centro de datos llegue a sus límites de utilización y es entonces cuando se repite el proceso. Este es un punto importante, ya que no nos limitamos a añadir capacidad a un centro de datos existente. En su lugar, el enfoque de NewEdge consiste en ampliarlo a una ubicación diferente en la misma región, lo que maximiza la resiliencia general de nuestra red por diseño. Por ejemplo, hemos tenido que hacer esto en el Reino Unido, primero con nuestro centro de datos de Londres y luego añadiendo Manchester. Algo parecido ocurre en Francia, con París seguido de Marsella, o en Alemania, con Frankfurt seguido pronto de Dusseldorf. También vale la pena mencionar que, mientras que muchos proveedores llevan su utilización hasta, y a menudo más allá del "punto de ruptura", el 20% es el objetivo de utilización que desencadena un evento de expansión de NewEdge. La razón de esto es asegurar que podemos manejar picos de tráfico inusuales, tener la capacidad de incorporar decenas o cientos de miles de usuarios empresariales a toda velocidad con facilidad y, en general, fortalecer nuestra infraestructura subyacente para lograr el mejor rendimiento y resiliencia del servicio.
Tener más control sobre la experiencia del cliente
Ya sea con nuestra estrategia de fábrica de centros de datos, con las decisiones sobre los componentes que conforman nuestros bastidores o racks integrados (por ejemplo, servidores sin sistema operativo inicial, SSD NVMe o conmutadores de red de gran ancho de banda), con las ubicaciones de los centros de datos, con las relaciones de peering o de tránsito, asumimos toda la responsabilidad de la experiencia del cliente y es nuestro trabajo diseñar la arquitectura en torno a estos problemas. Es importante reconocer que la gran mayoría de nuestro compromiso con los clientes implica tratar con el tráfico que atraviesa Internet, ya sea para acceder a contenidos web, cargas de trabajo en la nube pública o aplicaciones SaaS. Hoy en día, el tráfico web domina, representando el 90% de la mayor parte del tráfico empresarial, con el 53% del tráfico relacionado con la nube. Es un hecho conocido que el uso de Internet sin ninguna configuración especial o sin pensar en el enrutamiento, por ejemplo, da lugar a una experiencia que está en gran medida fuera del control del emisor o del receptor. Todos hemos experimentado la lentitud (o, en el peor de los casos, los cortes) de nuestros sitios web o aplicaciones favoritas que nos dejan desamparadoshasta que nuestro proveedor de servicios de Internet o el personal del servicio de asistencia técnica de TI son capaces de solucionar el problema.
Fundamentalmente, todos dependemos de Internet para conectarnos con los demás, y esto es más acuciante para el negocio, donde Internet es absolutamente fundamental para conectar a los empleados entre sí y con sus clientes, socios comerciales y proveedores. Estos problemas, relacionados con la lentitud o las interrupciones son un gran problema. Por eso, con la arquitectura NewEdge, hemos adoptado el enfoque de crear un "carril exprés" que se superpone a la Internet pública tradicional (y menos predecible). De esto se ha hablado ampliamente en artículos de blog anteriores, pero nuestro enfoque técnico y de negocio se alinea con nuestros clientes, socios comerciales y proveedores de web, nube y SaaS, y les da prioridad a la hora de enrutar el tráfico de la forma más directa y determinista posible. Por ejemplo, para ir del punto A al punto B, mantenemos el tráfico en enlaces privados durante el mayor tiempo posible y, en algunos casos, durante toda la ruta de tráfico. Por ejemplo, hoy en día, Netskope envía menos tráfico a través de la Internet pública que a través de nuestros enlaces semiprivados o privados. Este control de extremo a extremo es precisamente lo que permite a NewEdge ofrecer una experiencia de usuario y un rendimiento de las aplicaciones superiores. Puede comprobarlo por sí mismo realizando la prueba de velocidad de NewEdge, que destaca la rapidez de entrada a nuestra red, líder en el sector. Esta es también la razón por la que colaboramos directamente con Microsoft y Google, como dos ejemplos destacados, en todas las ubicaciones de los centros de datos de NewEdge.
Acercándonos a nuestros clientes
Gracias a la naturaleza ligera y modular de la huella física de NewEdge, hemos podido situar nuestros centros de datos en más lugares del mundo (y más rápidamente) que nuestros competidores. Hemos ejecutado un plan extremadamente ambicioso de cobertura global y hemos construido una red con más ubicaciones con recursos informáticos para el procesamiento del tráfico de seguridad que los mayores proveedores de nube. Esto nos ha obligado a establecer una presencia física en zonas del mundo que, debido a las restricciones de espacio, a un suministro de energía limitado o inestable, a la agitación geopolítica o a otros problemas, normalmente han presentado una barrera de entrada insuperable para la mayoría de las organizaciones. La buena noticia es que, dado que hacemos el arduo trabajo de colocar nuestros racks en estas ubicaciones físicas—en lugar de proporcionar sólo una representación visual de estar en una ubicación, por ejemplo, a través de POP (puntos de presencia) virtuales que son incapaces de procesar realmente el tráfico—podemos conectar NewEdge directamente a las redes de los usuarios finales o a los proveedores de web, nube y SaaS que tienen presencia en el mercado. En consonancia con el principio anterior de tener "más control sobre la experiencia del cliente", esto es precisamente lo que nos da nuestra ventaja de rendimiento y experiencia del usuario.
Reducir el radio de una explosión
Como otro principio fundamental de NewEdge, para ofrecer una alta disponibilidad y maximizar la resiliencia de nuestra red, se realiza un trabajo importante para planificar y reducir el alcance potencial de cualquier incidente que pueda degradar el rendimiento. Dado que muchos de nuestros competidores utilizan centros de datos grandes y concentrados (y en menor número) combinados con una presencia en el mercado local sólo en papel (con vPOPs, por ejemplo), el impacto potencial de cualquier interrupción individual puede ser muy significativo. Si un solo centro de datos se cae o se desconecta, la experiencia de un subconjunto mayor de clientes (potencialmente millones de usuarios) puede verse afectada, lo que a su vez repercute en las operaciones de su negocio. Este es un resultado totalmente inaceptable y es precisamente la razón por la que los acuerdos de nivel de servicio (SLA) son tan importantes para que los clientes respalden las afirmaciones de los proveedores. (Para que conste, Netskope ofrece un SLA de 5-9s o 99,999% de tiempo de actividad/disponibilidad como parte de cada contrato para garantizar nuestros servicios en línea, como gateway de seguridad web, agente de seguridad de acceso a la nube o acceso a la red basado en confianza cero.)
Siguiendo con el escenario, aparte del evento de interrupción en sí, el Problema se vuelve aún más complejo -casi como una bomba proverbial que estalla en la red- cuando se reconoce la cantidad significativa de tráfico, detalles de configuración o Política, u otros Datos críticos que necesitan ser trasladados inmediatamente a la ubicación secundaria o de respaldo. Para abordar este problema de frente, una de las elegantes características de diseño de NewEdge es minimizar estos posibles radios de explosión, de modo que si un centro de Datos se ve afectado por cualquier motivo, la conmutación por error se produce de forma rápida, automática y elegante con el menor impacto "en cadena" para el resto de la red o el tráfico de otros clientes. En resumen, este enfoque permite que los centros NewEdge Datos actúen cada uno como unidades fungibles de capacidad, por lo que el diseño hace que dejar fuera de servicio un centro Datos sea un "no evento". Esto podría deberse a una interrupción inesperada o incluso a una simple tarea administrativa diaria, como aplicar parches de seguridad, realizar actualizaciones de software o reparar hardware dañado o al final de su vida útil. En cualquiera de los casos, NewEdge se ha diseñado teniendo en cuenta este radio de explosión reducido para eliminar cualquier impacto en la experiencia del usuario. Esto nos permite minimizar (o en la mayoría de los casos eliminar) los largos periodos de inactividad o de mantenimiento que resultan molestos para los clientes. A fin de cuentas, nuestra estrategia con NewEdge y nuestro enfoque de "fábrica de centros de datos" consiste en ofrecer un servicio que "simplemente funcione" y sea fiable a nivel de operador, como el tono de llamada del pasado. Cuando se trata de la seguridad y la protección de los valiosos activos digitales y Datos de la empresa moderna, no hay sacrificios ni concesiones aceptables. Para obtener más información sobre Netskope y nuestra nube privada de seguridad denominada NewEdge, visite: https://www.netskope.com/netskope-one/newedge.