Detecção eficaz de sinalização de CO2

Introdução Estruturas C2 adversárias Abordagens de detecção atuais

Assinaturas IPS Listas de bloqueio de IP/URL Heurística de tráfego de rede Eficácia

Sinais abrangentes Detecção de Anomalias Dados de treinamento Métricas de risco granulares Avaliação e testes Considerações de design

Benefícios

Detecção de anomalias de novas ameaças desconhecidas Análise abrangente de sinais Detecção do kit de ferramentas do adversário Eficácia de detecção

Conclusão References

Introdução

Os atacantes estão adicionando novos e sofisticados recursos de comando e controle (C2) em seus malwares, que facilmente evitam as defesas estáticas comuns com base em assinaturas IPS ou listas de bloqueio de IP/domínio/URL usando ferramentas comuns e amplamente disponíveis da estrutura C2, como Cobalt Strike, Brute Ratel, Mythic, Metasploit, Sliver e Merlin. Essas ferramentas fornecem recursos pós-exploração, incluindo comando e controle, escalonamento de privilégios e ações no host, e foram originalmente projetadas para testes de penetração e operações de equipe vermelha.

No entanto, os atacantes sequestraram e incorporaram esses mesmos kits de ferramentas para fins maliciosos, pois muitos produtos são de código aberto, como Mythic e Merlin, enquanto outros produtos comerciais, como Cobalt Strike e Brute Ratel, foram roubados pelos atacantes por meio de cópias hackeadas ou código-fonte vazado. Isso efetivamente transformou essas mesmas ferramentas em estruturas C2 adversárias para pós-exploração maliciosa.

As ferramentas podem facilmente moldar e alterar muitos parâmetros das comunicações C2, permitindo que o malware evite as defesas atuais com ainda mais facilidade e por períodos mais longos, causando maiores danos nas redes das vítimas, incluindo: roubo de mais dados, descoberta de dados mais valiosos, indisponibilidade de aplicativos/serviços comerciais e manutenção do acesso oculto às redes para danos futuros.

As abordagens atuais para detectar o malware mais recente usando estruturas C2 utilizam assinaturas e indicadores estáticos, incluindo detecção de executáveis de implantes, assinaturas IPS para detecção de tráfego C2 e filtros IP/URL que são inadequados para lidar com os perfis dinâmicos e maleáveis das ferramentas da estrutura C2 amplamente disponíveis.

É necessária uma nova abordagem que não esteja tão rigidamente vinculada a ataques conhecidos, mas baseada na detecção de anomalias de um conjunto abrangente de sinais alimentados em modelos treinados de aprendizado de máquina com rastreamento detalhado do risco do dispositivo e do usuário. Essa abordagem complementará as abordagens existentes, mas pode aumentar drasticamente as taxas de detecção, mantendo baixos os falsos positivos e protegendo o futuro contra a evolução dos padrões de tráfego de C2, que são facilmente ativados por essas mesmas ferramentas da estrutura C2.

Este artigo discute as lacunas nas abordagens atuais e o aumento da eficácia do uso de uma abordagem focada em aprendizado de máquina com sinais de rede adicionais e métricas de risco refinadas com base em modelos no nível do usuário e da organização. Também discutimos alguns dos principais desafios em testar a eficácia de qualquer solução de detecção de farol C2.

Estruturas C2 adversárias

Cobalt Strike, Metasploit, Mythic e Brute Ratel são algumas das ferramentas comerciais e de código aberto de simulação de adversários originalmente projetadas para testes de detecção de malware pela equipe vermelha. Esses kits de ferramentas às vezes são chamados de ferramentas de emulação de ameaças ou estruturas C2, pois fornecem um rico conjunto de recursos (Gill) para simular a atividade real de ameaças durante as operações da equipe vermelha, com foco nas partes de comando e controle pós-exploração da cadeia de ataque.

Podemos usar alguns desses termos de forma intercambiável ao longo do artigo, mas geralmente usamos estruturas C2 para enfatizar que essas ferramentas estão sendo usadas por agentes mal-intencionados para impactar os ambientes de produção e que o problema a ser resolvido é muito mais do que simulações ou emulações feitas por equipes vermelhas internas amigáveis.

Essas ferramentas da estrutura C2 foram incorporadas, hackeadas ou roubadas e usadas por vários atacantes (“Cobalt Strike: operação policial internacional aborda o uso ilegal da ferramenta de teste de canivetes suíços”), incluindo atores estatais como o APT29 da Rússia na SolarWinds (“O ataque à cadeia de suprimentos da SolarWinds usa o SUNBURST Backdoor”) e o TA415 da RPC (Larson e Blackford) para aprimore e desenvolva os recursos de comunicação furtiva de vários RATs, botnets e malwares habilitados para C2.

O Cobalt Strike é a ferramenta de estrutura C2 mais popular e a usamos como um exemplo específico ao longo deste artigo, embora as observações se apliquem a todas as ferramentas semelhantes. O diagrama de arquitetura de alto nível do Cobalt Strike a seguir mostra seus componentes básicos (Rahman) e o fluxo de ataque em tempo de execução.

Figura 1: Arquitetura de alto nível Cobalt Strike

#	Etapa de ataque	Description
1	Acesso inicial/infecção	Vetor de infecção inicial, incluindo o downloader e o loader para a carga útil do beacon.
2	Ligue para casa (C2)	O Beacon chama o Team Server normalmente utilizando HTTP/HTTPS/DNS. Pode utilizar ofuscação de domínio/IP por meio de redirecionadores, como proxies, fronting de domínio (por exemplo. CDNs) ou mascaramento de domínio. Os beacons também podem encadear as comunicações para contornar a segmentação interna da rede.
3	Comando e controle do atacante	O atacante controla o Beacon, emitindo vários comandos. Pode utilizar Aggressor Scripts para automatizar/otimizar o fluxo de trabalho.
4	Executar comandos	O Beacon pode usar Execute Assembly (executáveis.NET) em um processo separado ou arquivos de objeto Beacon dentro da sessão/processo do Beacon, estendendo os recursos pós-exploração. A injeção de memória é usada para evitar a detecção das defesas de terminais focadas em arquivos e atividades de disco associadas a arquivos maliciosos.
5	Ações no host	Várias ações integradas são fornecidas para novos recursos por meio de extensões como BOFs ou Execute Assembly.

Tabela 1: Cadeia de ataque usando o Cobalt Strike C2 Framework

O Cobalt Strike e kits de ferramentas similares permitem uma ampla e fácil configuração no tráfego HTTP/S, produzindo tráfego C2 que geralmente parece benigno, parece tráfego HTTP/Web normal e é semelhante ao tráfego de navegadores da Web ou aplicativos populares. Há configurações padrão fornecidas com as ferramentas que emulam malwares conhecidos e aplicativos válidos conhecidos.

Embora o DNS também seja suportado como um protocolo C2, focaremos a discussão no HTTP/S C2, pois ele reflete a maior parte do tráfego de rede entrada/saída de uma organização, é mais complexo devido à variedade de aplicativos que usam HTTP/S e atrai a maioria dos agentes mal-intencionados que estão tentando se esconder em meio ao ruído da rede, incluindo beacons C2 benignos legítimos.

Os kits de ferramentas são altamente configuráveis (por meio de perfis maleáveis) e podem variar facilmente o tempo, a frequência, o volume, os protocolos do aplicativo, os IPs/domínios de destino, os agentes do usuário, os cabeçalhos HTTP, os verbos HTTP, os URIs, os parâmetros, os certificados SSL/TLS, o atraso de sinalização com instabilidade aleatória e a carga/conteúdo. As ferramentas da estrutura C2 também permitem um grande número de ações pós-exploração, que são criptografadas, baixadas e executadas na memória, tornando a atividade pós-comprometimento muito difícil de detectar nos endpoints.

Vamos nos concentrar nos recursos específicos de comunicação C2 das ferramentas da estrutura C2 (por exemplo, beaconing C2) e na facilidade com que as comunicações são alteradas (por exemplo, por meio dos perfis maleáveis C2 da Cobalt Strike) e nos desafios colocados às organizações que tentam detectar malware furtivo.

Existem vários bons recursos que discutem a funcionalidade dos perfis maleáveis (Gill) do Cobalt Strike, mas destacaremos alguns dos recursos mais usados. Aqui está um trecho do perfil maleável para imitar o aplicativo de navegador Gmail no Cobalt Strike (Mudge):

Figura 2: Perfil maleável C2 (gmail)

Algumas das principais funcionalidades e áreas do perfil são:

Seção \| Configurações	Descrição \| Capacidades
`certificado https`	# Use um certificado existente ou gere um certificado autoassinado, conforme mostrado neste # exemplo.
`opções globais`	# As opções globais abaixo definem o tempo de sono do farol C2 para 60 segundos com uma variação aleatória # de +/- 15%, mostrando a capacidade de variar o tempo de chamada para casa para evitar # fácil detecção. `set sleeptime " 60000 "; set jitter " 15 ";` # Outras opções globais especificam parâmetros de ação pós-exploração no host, como o nome do processo # gerado para executar comandos usando injeção na memória ou o # pipename usado para comunicações IPC. Eles não são relevantes para o C2. `defina o nome do tubo " interprocess_## "; defina spawn como " userinit.exe ";`
`http-get`	# O caminho uri usado para comunicações com o servidor beacon- > pode ser variado com um conjunto de listas uri " /_/scs/mail-static/_/js/ "; # As comunicações do cliente (servidor beacon- >), incluindo cookies, cabeçalhos e codificação #, podem ser especificadas e variadas facilmente no nível do protocolo HTTP, cliente {metadata {}} # Da mesma forma, servidor- As comunicações do beacon > também podem ser variadas no servidor de nível de protocolo HTTP # `{ header {}} }` # O Cobalt Strike permite moldar o fluxo de comunicação bidirecional entre o cliente # Beacon e o C2 Team Server (“Um passo a passo da transação HTTP do Beacon”): `# 0. http-stager {} opcional stager para baixar o Beacon # 1 completo. http-get {client} cliente -- ligue para casa → servidor nº 2. http-get {server} servidor -- cmds → cliente nº 3. http-post {client} cliente -- saída cmd → servidor nº 4. http-get {server} servidor -- confirm → client`

Tabela 2: Descrição do perfil maleável C2 (gmail)

Como pode ser visto acima, modificações simples desses perfis podem facilmente alterar o comportamento das comunicações C2 para imitar aplicativos comuns, seus beacons e tráfego da web. Existem mais de 240 perfis públicos maleáveis somente para o Cobalt Strike, prontamente disponíveis para uso ou que podem ser facilmente modificados.

Abordagens de detecção atuais

As abordagens atuais para detectar tráfego C2 malicioso tendem a corresponder a assinaturas de bytes codificadas ou usar expressões regulares para corresponder à carga útil ou aos cabeçalhos (assinaturas IPS), ou são baseadas na correspondência de listas de IP/domínio/URL. Essas abordagens são estáticas e facilmente evitadas pela natureza dinâmica e configurável dos kits de ferramentas da estrutura C2 incorporados pelos atacantes.

Assinaturas IPS

Para ilustrar os desafios das soluções IPS, aqui está uma das regras do Snort para detectar o Zeus Trojan (Snort):

Figura 3: Regra do Snort (Zeus Trojan)

O Snort e muitas soluções IPS permitem várias combinações de conteúdo ou cabeçalhos nas camadas 3 e 4, bem como no nível do aplicativo, conforme indicado pelos verbos de ação na regra. Muitas correspondências, como a opção de regra de conteúdo, são correspondências estáticas de byte/caractere, enquanto a opção de regra pcre é uma correspondência de expressão regular.

Ao olhar lado a lado tanto para o lado adversário (por exemplo, o perfil maleável C2 para o Gmail visto anteriormente) quanto para o lado defensivo (por exemplo, a regra de bufo de Zeus), a correspondência estática e a fragilidade codificadas ficam claras. Imagine que um invasor tenha criado e implantado uma nova variante do Zeus que usava o Cobalt Strike e um Snort IPS tivesse a regra Zeus acima em vigor que detectou efetivamente o novo malware. O invasor poderia facilmente alterar um caractere no perfil, como adicionar um espaço no MSIE para evitar a correspondência: content: " |3B 20|MSIE|20| "; e o malware poderia escapar da assinatura IPS.

Embora haja consciência contextual e rastreamento de estado, a abordagem de assinatura IPS é inerentemente limitada devido à sua correspondência estática, que resulta em falsos negativos e fácil evasão (alterar literalmente um caractere em um campo pode ignorar uma regra de IPS).

Isso não quer dizer que as soluções IPS não sejam úteis. Em vez disso, as assinaturas IPS devem ser mantidas, pois servem como uma defesa de perímetro útil, bloqueando muitas explorações de rede conhecidas de maneira rápida e eficiente. Nesse caso, mesmo que um IPS alcance taxas de detecção de apenas 60%, esses 60% podem ser bloqueados/alertados facilmente, evitando o dispendioso processamento posterior.

Listas de bloqueio de IP/URL

Outras abordagens tradicionais, como o uso de listas de bloqueio (IP ou URLs), geralmente são aplicadas em um esforço para impedir o acesso ou o download inicial de malware durante a navegação na web, bem como para bloquear o tráfego potencial de C2.

Um desafio comum com as listas de bloqueio é que elas geralmente estão desatualizadas, causando falsos positivos e são reativas, pois são atualizadas após o comprometimento da meta #1 ou do paciente zero.

Isso é exacerbado pelas técnicas de indireção de IP/domínio usadas para ocultar o domínio ou endereço IP do servidor C2. O Cobalt Strike tem redirecionadores, que podem ser tão simples quanto proxies IP, para ofuscar o verdadeiro domínio ou IP do servidor C2. Também existem outras técnicas, como fronting de domínio usando CDNs ou mascaramento de domínio, que aproveitam as incompatibilidades entre TLS (SNI) e HTTPS (host) para ocultar o domínio malicioso final de alguns filtros de segurança de URL.

Heurística de tráfego de rede

Uma abordagem diferente envolve o uso de heurística, normalmente aplicada a padrões de tráfego de rede com base no volume ou no tempo. O exemplo clássico é detectar comunicações de saída regulares (por exemplo, a cada 60 minutos), talvez para um endereço IP sem registro DNS A registrado.

Para evitar a detecção, os kits de ferramentas da estrutura C2 permitem a fácil configuração de um fator aleatório no atraso de sinalização usando a configuração de jitter em um perfil maleável Cobalt Strike:

Figura 4: Configurações do perfil maleável C2 (tempo de sinalização)

Essas configurações especificam um intervalo de call home de 60 segundos +/- 15%, o que significa que o intervalo real variará de 51 a 69 segundos, evitando verificações simples de sinalização recorrente em intervalos constantes.

Eficácia

O problema com as abordagens atuais é que elas não detectam com eficácia as comunicações C2 maleáveis e são facilmente evitadas, mesmo se ajustadas especificamente. Eles servem para detectar com eficiência técnicas de ataque que são estáticas com indicadores conhecidos, mas perdem ataques mais dinâmicos ou sofisticados ou criam um grande número de falsos positivos.

Como ponto de dados, ao testar os perfis maleáveis Cobalt Strike C2 mais comuns em repositórios públicos, soluções IPS prontas para uso, como Snort e Suricata, detectaram substancialmente menos de 20% das comunicações C2 dos kits de ferramentas de estrutura C2 mais comuns.

Mesmo depois de adicionar regras específicas para corresponder ao maior número possível de perfis públicos, otimizando para esse teste específico, a cobertura só poderia aumentar razoavelmente para ~ 60% sem introduzir falsos positivos significativos que seriam muito problemáticos em um ambiente de produção.

Existem vários problemas de eficácia: não apenas falsos positivos mais altos, mas também a configuração resultante é construída rigidamente para o teste específico em questão e é facilmente evitada por meio de pequenos ajustes nos perfis. E no final do dia, ainda existem ~ 40% dos perfis que permanecem sem serem detectados, o que é uma taxa de falsos negativos muito alta. Sem falar nos falsos negativos adicionais de um determinado atacante que personaliza os perfis C2 para imitar aplicativos conhecidos existentes de uma forma um pouco diferente.

Nova abordagem de detecção

É necessária uma abordagem mais eficaz, baseada não apenas em indicadores estáticos, mas em modelos focados de aprendizado de máquina que possam detectar anomalias no tráfego da rede usando uma infinidade de sinais de rede que indicam atividades suspeitas de comando e controle em comparação com o que os aplicativos válidos normalmente fazem para os usuários específicos dentro da organização específica. Além disso, métricas de risco refinadas devem ser rastreadas no nível do usuário para fornecer as ações de mitigação mais precisas e eficazes. Inovações nessas três áreas são necessárias para fazer grandes melhorias na detecção de sinalização furtiva de C2 a partir das ferramentas da estrutura C2:

Figura 5: Nova abordagem de detecção de farol C2

Sinais abrangentes

É necessário um conjunto abrangente de sinais e deve incluir características de origem, destino e tráfego, como certificados SSL/TLS usados na origem (malware dentro do ambiente) e no destino (servidor C2), domínio/IP/URL, características de origem, como características do agente de usuário/processo, tamanho/burstinência/padrões do tráfego, cabeçalhos/carga útil/URI HTTP, para citar apenas alguns.

Ao analisar vários sinais ao longo do tempo, volume, camadas de rede e perfis gerais de tráfego, a detecção comportamental pode fornecer um mecanismo geral e eficaz para detectar o malware mais recente por meio de atividades suspeitas e maliciosas de sinalização C2.

Figura 6: Sinais abrangentes

Existem várias dimensões nos tipos de sinal:

Fluxo de rede: atributos de origem e destino, bem como padrões de tráfego
Camadas de rede: sinais diferentes da camada 3 a 7 (anomalias nos cabeçalhos TCP/IP, impressões digitais SSL/TLS, cabeçalhos/cargas úteis HTTP e conteúdo no nível do aplicativo)
Tempo: frequência, padrões de tempo anômalos para detectar atividades lentas e infrequentes
Dados: conteúdo e volume (tamanhos de pacotes anômalos, intermitências, estatísticas cumulativas)

Além disso, existem vários tipos de sinal:

Baseado em padrões de tráfego (volume, tempo, conteúdo), incluindo sinalização repetida em conjunto com um agente de usuário ou domínio incomum.
Heurística (por exemplo, registradores suspeitos ou impressões digitais SSL maliciosas conhecidas)
Anomalias (domínio incomum, agentes de usuário ou impressões digitais SSL)

Um ponto importante é que alguns dos sinais acima fazem parte das abordagens atuais e das soluções existentes. Isso reforça o ponto de que um sinal específico, como pico de tráfego (grande volume), não é bom nem ruim, eficaz ou ineficaz por si só. Em vez disso, o contexto e o processamento do sinal são o fator determinante. Quando usado em um perímetro de rede para bloquear/permitir tráfego, um sinal propenso a falsos positivos pode causar graves problemas operacionais. No entanto, quando inserido em um sistema de detecção de anomalias que incorpora esse sinal em uma métrica de risco granular (discutida abaixo) e em um modelo bem treinado, ele pode ser extremamente eficaz na detecção de novas ameaças de maneira robusta com baixos falsos positivos.

Detecção de Anomalias

A detecção eficaz do beaconing de C2 a partir dos kits de ferramentas da estrutura C2 requer modelos de aprendizado de máquina baseados em uma gama mais abrangente de sinais para identificar os kits de ferramentas da estrutura C2 atuais e o comportamento suspeito futuro da rede que possa indicar atividade de C2.

Figura 7: Detecção de anomalias

A detecção de anomalias deve ser baseada em modelos no nível do usuário/dispositivo, função e organização. Ou seja, as anomalias presumem que temos uma linha de base “normal” válida de atividade ou comportamento para comparar. A detecção de atividades suspeitas pode ocorrer em diferentes circunstâncias. Existem anomalias com base nas ações de um usuário versus sua linha de base “normal” histórica ou versus a linha de base “normal” da organização ou versus indivíduos em funções semelhantes. Todos têm seus casos de uso válidos que são exclusivos dos outros, e uma boa abordagem incorporará vários modelos com escopos diferentes.

Dados de treinamento

Os conjuntos de dados de treinamento devem incluir tráfego malicioso e benigno:

O tráfego malicioso pode ser simulado usando ferramentas gerais de teste de C2, testes específicos de sinalização adversária de C2 com base em configurações publicamente disponíveis das ferramentas da estrutura C2, bem como configurações personalizadas da perspectiva da equipe vermelha e exercícios oficiais da equipe vermelha.
É melhor coletar tráfego benigno ou válido de um número significativo de usuários reais em organizações reais em tempo suficiente para se normalizar contra preconceitos organizacionais e de usuários.

Os conjuntos de dados de treinamento são o outro lado dos conjuntos de dados de teste, e muito tempo deve ser gasto analisando e validando bons dados de treinamento e teste. Alguns dos fatores para criar bons conjuntos de dados de teste são discutidos em uma seção subsequente.

Métricas de risco granulares

A saída da detecção de anomalias é crítica. A melhor abordagem não realiza determinações simples de bloqueio/permissão ou alerta/silencioso com base em um sinal bruto, mas rastreia e ajusta métricas de risco refinadas no nível do usuário, da função e da organização, que podem então ser usadas para ações de remediação, como alertas, treinamentos ou bloqueios.

Essa abordagem para rastrear e agir de acordo com o risco é fundamentalmente diferente da que é normalmente usada atualmente. A maioria das defesas perimetrais que são preventivas e normalmente bloqueiam/alertam/permitem o tráfego geralmente são estáticas e propensas a altas taxas de falsos positivos. O resultado líquido é que essas soluções são habilitadas com uma política conservadora para bloquear riscos certos e conhecidos, o que então abre um grande número de falsos negativos. Com firewalls, vemos problemas falsos positivos com ações de bloqueio excessivamente agressivas com base na inteligência de ameaças de IP. Com as soluções IPS, discutimos os desafios dos falsos positivos com assinaturas estáticas tentando detectar tráfego C2 altamente configurável e dinâmico.

Mas falsos positivos em uma camada perimetral podem ser muito úteis como sinal para uma camada mais inteligente. Nesse cenário, não o usaríamos para uma avaliação binária (permitir/bloquear, alertar/ignorar), mas como uma métrica de risco refinada ajustada ao longo do tempo (por exemplo. pontuação de risco do usuário) com um limite ajustado antes de agir. Uma métrica de risco granular, por exemplo, uma pontuação de risco de 1000 (sem risco) a 0 (risco extremo) em um usuário, dispositivo ou mesmo endereço IP, nos permite modelar o espectro de cinza associado às ameaças do mundo real, onde raramente há avaliações claras 100% maliciosas ou 100% benignas.

Conceitualmente, isso é capturado na ilustração a seguir, onde três sinais diferentes podem ser detectados, os quais, por si só, seriam propensos a falsos positivos. No entanto, quando associados ao risco incremental e avaliados por um modelo de aprendizado de máquina ajustado, os mesmos sinais avaliam o risco cumulativo ao longo do tempo e, por fim, fornecem uma detecção de anomalias de alta confiança.

Figura 8: Métricas de risco granulares

Observe que os sinais neste exemplo podem não ser tão simples quanto os sinais estáticos. Por exemplo, um “agente de usuário não reconhecido de domínio incomum e certificado SSL/TLS” pode ser uma anomalia quando comparado com a linha de base de tráfego “normal” anterior para esse usuário específico ou com funções de trabalho semelhantes dos usuários ou de toda a organização. Um “registrador suspeito” pode ser uma fusão da reputação do domínio correlacionada ao longo do tempo. E o “sinalizador periódico” não é mais uma simples combinação de uma taxa ou duração fixa, mas pode detectar atividades anormais, mas regulares e repetidas, em uma janela de tempo semelhante à atividade relacionada ao bot, em oposição às chamadas válidas do daemon do aplicativo.

Na prática, isso nos permite ajustar uma pontuação de risco de forma incremental e adequada com base em um sinal de baixa fidelidade. Ela não causa nenhuma ação de bloqueio ou alerta até que a pontuação de risco cumulativa exceda um limite alto e ajustado. Isso nos permite capturar casos em que há muitos indicadores levemente arriscados de baixa fidelidade que, quando combinados com um indicador de maior fidelidade e maior risco para um usuário ou dispositivo específico, geram cumulativamente um alerta de risco crítico e uma ação com uma chance drasticamente menor de falsos positivos.

Avaliação e testes

Teoricamente, uma nova abordagem pode ser sólida e, na prática, falhar miseravelmente, e a prova geralmente se resume a dados ou testes. Os fornecedores que fornecem soluções e as organizações que buscam soluções exigem uma abordagem robusta para testar novas ameaças e avaliar soluções. Para obter resultados precisos, é essencial testar com um conjunto de dados diversificado que inclui tráfego malicioso e benigno.

Tráfego
benigno O tráfego benigno deve ser realista, abrangente e semelhante à produção em termos de número de usuários e atividades. Um bom tráfego, geralmente dependente do usuário, deve ser estudado em uma grande amostra de usuários e em um período de tempo razoável. Esse conjunto de dados de teste medirá as taxas de falsos positivos (FP). A principal variação nos conjuntos de dados serão os sinais do cliente, como os aplicativos, os agentes de usuário e os certificados SSL/TLS do cliente que estão sendo usados, os sinais de destino vistos nos domínios/endereços IP de destino e os sinais do padrão de tráfego nos cabeçalhos, carga útil, tamanho e tempo.

A boa notícia é que um bom tráfego benigno é facilmente obtido nas operações diárias dos usuários da organização, enquanto a má notícia é que ele precisa ser validado como benigno. A abordagem prática é amostrar estatisticamente o tráfego benigno até um determinado fator de confiança razoável e, em seguida, passar a maior parte do tempo focando nos alertas da solução de detecção de C2 que está sendo testada, verificando os alertas como verdadeiros positivos ou falsos positivos. Em outras palavras, faça uma amostra inicial e verifique para formar uma linha de base, suponha que o conjunto de dados benigno esteja limpo e, em seguida, prossiga com a identificação de falsos positivos com base nos testes.

Figura 9: Teste benigno de tráfego

Tráfego malicioso
O uso de perfis públicos de ferramentas populares da estrutura C2 fornece uma base sólida para testar tráfego ruim. Esses perfis representam configurações práticas e usadas com frequência que evitam as defesas e ajudam a medir as taxas de falsos negativos (FN). No entanto, deve-se considerar muito a criação de um conjunto de dados representativo de “tráfego ruim”, pois há potencialmente vários níveis na cobertura e no que os conjuntos de dados testam, conforme ilustrado no diagrama a seguir:

Figura 10: Teste de tráfego malicioso

Ferramentas de simulação de violações e ataques, como o SafeBreach, são excelentes para testes de cobertura e testes repetidos. Seus casos de teste C2 normalmente incluem pelo menos alguma simulação da atividade de estruturas C2. A vantagem é que uma grande variedade de funcionalidades está disponível, incluindo ataques gerais de malware, com GUIs e arquiteturas bem projetadas e procedimentos e relatórios de teste repetíveis. Essas ferramentas podem oferecer uma ampla gama de cenários, incluindo: atividade de baixa lentidão, infraestrutura de IaaS/CSP, tráfego HTTP e não HTTP para tráfego SSL/HTTPS e falsificação de uma variedade de agentes de usuário.
Ferramentas de estrutura C2 (perfis públicos). O teste aprofundado de estruturas C2 exige um trabalho focado. Uma abordagem é criar um conjunto de dados de teste com base nos perfis públicos específicos das ferramentas da estrutura C2, por exemplo, Cobalt Strike. Esses perfis públicos maleáveis tendem a ser amplamente compartilhados e usados por muitos usuários e agentes mal-intencionados, pois incluem emulações úteis de aplicativos benignos, como o Gmail. Essa abordagem geralmente fornece testes mais abrangentes em torno das estruturas C2 específicas.
Ferramentas de estrutura C2 (perfis personalizados). A personalização interna dos perfis maleáveis C2 pode fornecer testes ainda mais realistas das estruturas C2. Essas configurações personalizadas podem ser feitas durante as operações internas da equipe vermelha. Isso exige mais trabalho e investimento, pois os operadores da equipe vermelha devem ser fluentes nas ferramentas da estrutura C2.
Ataques realistas. Os testes mais realistas envolvem testes de caixa preta com programas externos de teste de caneta ou de recompensa por bugs. Nesses cenários, os requisitos do exercício são cuidadosamente construídos para exigir ou incentivar explorações reais de POC que usem ferramentas específicas da estrutura C2 ou qualquer comportamento de sinalização C2, com a ressalva de evitar a detecção por um período de tempo. Os objetivos dos exercícios não são apenas testar os vetores de acesso inicial, que são a norma, mas focar na atividade pós-violação, mostrando a capacidade de instalar uma carga útil de backdoor com a atividade C2 demonstrada. Isso enriquece o conjunto de dados de teste além das estruturas C2 e pode testar o código POC backdoor com comunicações C2 personalizadas, além de ser um excelente teste da resiliência de qualquer ferramenta de detecção a um “invasor” habilidoso que utiliza TTP diferente ou personalizado.

Os testes podem envolver algumas ou várias abordagens, mas devem ser feitas escolhas explícitas sobre como criar, reunir e validar os conjuntos de dados do teste e como medir os resultados esperados. Criar e coletar os conjuntos de dados de teste é muito importante para que os testes possam ser automatizados e facilmente repetidos.

Também é crucial medir métricas completas durante o teste: positivos verdadeiros e falsos, negativos verdadeiros e falsos negativos. Embora a coleta de todas as métricas pareça óbvia, é difícil ser preciso na definição e claro e repetível na metodologia de medição, o que leva a resultados enganosos.

Alvos falsos positivos e falsos negativos
Com as novas ameaças evasivas criadas pelas estruturas C2, qualquer solução de detecção mais recente não terá taxas de FP e FN amplamente aceitas. No entanto, é vital criar metas de FP e FN. Com conjuntos de dados de teste de qualidade conhecidos, linhas de base podem ser criadas para o ambiente atual e usuários/dispositivos, o que permite a criação de metas razoáveis em relação a essas linhas de base.

Por exemplo, suponha que uma organização com apenas um IPS esteja iniciando uma avaliação de novas soluções de detecção de C2 e não esteja claro quais taxas de FP/FN são aceitáveis. A organização ainda pode definir metas razoáveis seguindo uma metodologia de teste, como:

Crie dados de teste de qualidade para tráfego benigno com base em dados de produção e tráfego malicioso com base, por exemplo, em perfis maleáveis C2 públicos para o Cobalt Strike e validando amostras desses conjuntos de dados manualmente.
Crie uma metodologia de teste clara e repetível definindo ferramentas de teste e medição.
Meça todas as métricas (TP/TN/FP/FN) durante o teste
Teste novas soluções e compare métricas. Por exemplo, o IPS pode ser ajustado especificamente para obter melhores taxas de TP para o tráfego malicioso, mas garantir que as taxas de FP/TN/FN também sejam medidas e validadas. Então, a eficácia de diferentes soluções pode ser avaliada adequadamente, especialmente no impacto total na organização, conforme descrito na seção Impacto abaixo.
Teste novos conjuntos de dados e compare. Procure personalizar os conjuntos de dados para refletir os ajustes razoáveis feitos por um invasor. Há várias maneiras de fazer isso.
- Por exemplo, ao testar o Cobalt Strike, seus perfis maleáveis C2 podem ser facilmente modificados para emular aplicativos benignos de forma um pouco diferente ou aplicativos benignos completamente novos que são usados na organização específica. Isso pode ser feito detectando o tráfego de saída HTTP/S por meio de um proxy.
- Teste não apenas uma, mas várias ferramentas da estrutura C2, pois elas diferem em recursos e técnicas. Usar uma ferramenta de estrutura C2 diferente também é uma boa mudança, pois sua modelagem de tráfego C2 será diferente.
- Criar uma carga de teste personalizada com suas próprias comunicações C2 codificadas manualmente é outra forma de alterar os conjuntos de dados de teste, mas exige mais tempo e investimento.

Teste de resiliência
Ao testar com novos conjuntos de dados em diferentes soluções, também obtemos informações valiosas sobre a rigidez versus resiliência de diferentes soluções. Neste artigo, levantamos a questão de que as abordagens codificadas e baseadas em assinaturas não são apenas menos eficazes para detectar estruturas C2, mas também são rígidas, resultando em altas taxas de FP/FN e permitem um fácil desvio com mudanças de ataque simples, como mudanças de perfil maleáveis.

A resiliência de qualquer solução pode ser testada garantindo que os conjuntos de dados sejam modificados dentro do razoável (ou seja, permanecendo na mesma categoria de TTP). Em outras palavras, podemos realizar um teste de resiliência realista alterando as comunicações C2 no conjunto de dados de tráfego malicioso usando perfis maleáveis C2 e monitorando as taxas de TP/TN/FP/FN. Vemos como a cobertura varia e também entendemos quais mudanças na solução de detecção precisam ser feitas para manter a cobertura de alvos específicos de TP/TN/FP/FN.

Testar novamente com conjuntos de dados alterados dessa forma é análogo a um invasor alterar seu TTP. Ele avalia a resiliência e a eficácia da nova solução de detecção, pois podemos ver se ela ainda é capaz de detectar alterações na mesma categoria de técnica de ameaça (comunicações C2 por HTTP/S).

Impacto falso positivo e falso negativo
A medição das taxas de FP/FN é boa e permite uma melhoria relativa, mas também precisamos medir ou pelo menos estimar o impacto de FPS e FNs, caso contrário, é impossível avaliar a verdadeira utilidade de qualquer solução de detecção. Em outras palavras, uma taxa de 1% de PF ou uma melhoria de 5% na taxa de PF não tem contexto, a menos que possamos medir o impacto desse 1% ou +5% de alguma forma que faça sentido para os tomadores de decisões orçamentárias de segurança.

Aqui estão duas abordagens que podem ajudar a traduzir as taxas de TP/TN/FP/FN em um impacto mais quantificável:

Impacto do usuário ao longo do tempo: veja o número absoluto de falsos positivos que são equivalentes às taxas de FP e normalize como uma taxa por usuário ao longo do tempo. Essa é uma medida qualitativa, mas geralmente faz mais sentido do que taxas percentuais ou números absolutos. Por exemplo, em vez de 1% de FPs ou 2.437 falsos positivos, pode ser mais fácil avaliar o impacto de 0,1 falsos positivos por usuário por dia. Se fosse um gateway web seguro, alguém na organização poderia determinar se uma determinada meta de FP é aceitável com base no impacto do usuário ao longo do tempo. Nesse caso, o malware habilitado pela estrutura C2 resulta em violações, e o impacto no usuário é mais caracterizado como tempo de inatividade ou perda de dados por usuário durante um período de tempo. Temos uma chance de N% de perda de $ X por usuário a cada ano. Geralmente, essas são estimativas aproximadas, mas qualquer início é útil, pois pode ser revisado e aprimorado com iterações regulares. Se o impacto for avaliado em termos de usuários ao longo do tempo, fica fácil avaliar as soluções de detecção ou proteção, que geralmente têm como preço o número de usuários por ano.
Impacto das operações de segurança em termos de tempo, dinheiro e probabilidade de violação. Além do impacto no usuário final, o impacto administrativo deve ser avaliado, especialmente as pessoas de operações que geralmente gastam tempo lidando com alertas de detecção. O tempo gasto em responder a alertas ruidosos pode ser traduzido diretamente em custo salarial FTE. O fator adicional de fadiga de alerta é um impacto real que pode ser estimado em termos de eficácia (tempo para responder) e, mais importante, como a perda de tempo e atenção a ameaças de maior impacto que são perdidas ou não investigadas. Esse último impacto se torna um fator no impacto da violação: é mais provável que as violações ocorram quando as operações de segurança têm muitos falsos positivos para investigar e excluir.

Uma avaliação de impacto geralmente é a única maneira de entender insights cruciais, como o custo real da eficácia da detecção. Por exemplo, uma solução de detecção excessivamente agressiva com uma configuração de FNs baixos e FPs altos é inútil e prejudicial porque as operações de segurança perdem uma quantidade excessiva de tempo respondendo a alertas de baixa fidelidade em vez de se envolverem em atividades de maior alavancagem. Da mesma forma, uma solução de detecção excessivamente conservadora com baixos FPs, mas altos FNs, expõe a organização a um alto risco de uma possível violação, o que pode ser inaceitável do ponto de vista geral da avaliação de risco.

O impacto deve ser estimado e avaliado ao mesmo tempo que as principais métricas de TP/FP/TN/FN.

Testes realistas

Equipe vermelha com humanos, não apenas ferramentas automatizadas de violação ou teste aberto. É altamente recomendável usar não apenas usuários e ambientes de produção para testar soluções de sinalização C2, mas também usar cenários adversários realistas, como testes de caneta ou recompensas por bugs. Ao ajustar os valores e os requisitos das recompensas para mostrar a implantação explícita e as ações bem-sucedidas de pós-exploração dos populares kits de ferramentas do framework C2, podemos tornar o “tráfego malicioso” real e mensurável. Isso pode ser ampliado para qualquer atividade de sinalização C2, incluindo código personalizado para testar a resiliência da solução de detecção, e o requisito de teste deve incluir a demonstração de uma atividade de beacon diária bem-sucedida e a execução de comandos durante uma semana, sem detecção.

Se um pen test externo ou um programa de recompensa por bugs for repetido, as diferenças nas taxas de detecção serão mensuráveis e úteis para avaliar a eficácia e o ROI.

Com uma abordagem rigorosa aos testes, não apenas a eficácia do teste será medida de forma abrangente, mas metas e metas contínuas podem ser criadas em relação a uma linha de base atual/histórica. E, certamente, se os mesmos testes e medições forem realizados para várias soluções, é trivial comparar o desempenho e tomar decisões de compra/implementação.

Considerações de design

A pesquisa e o design envolvendo esses conceitos e a abordagem geral são discutidos com mais detalhes em: Sistemas de segurança e métodos para detectar comando e controle maleáveis (Mulugeta).

Benefícios

Detecção de anomalias de novas ameaças desconhecidas

Essa abordagem reduz efetivamente as ameaças desconhecidas, aproveitando modelos de aprendizado de máquina treinados no comportamento de aplicativos exclusivo dos usuários de uma organização. A métrica granular de risco do usuário reduz significativamente os falsos positivos.

Por outro lado, as abordagens reativas existentes dependem da identificação da primeira vítima ou do paciente zero (um cordeiro sacrificado por um bem maior), seguida pela análise e pesquisa do fornecedor, que podem levar dias ou até meses, até que um fornecedor lance uma nova assinatura ou regra para bloquear a nova ameaça para os clientes que ainda não foram atacados. Por design, essa abordagem é ineficaz para bloquear ameaças maleáveis novas e emergentes.

Uma abordagem de detecção de anomalias, aproveitando modelos de aprendizado de máquina específicos e ajustados, pode detectar de forma exclusiva comportamentos suspeitos sem exigir um ciclo de análise, lançamento e atualização. A abordagem mantém a robustez mesmo com a evolução das táticas de ameaças.

Análise abrangente de sinais

A detecção de anomalias em um conjunto abrangente de sinais, como tempo, volume, comunicações TCP/IP, impressão digital SSL/TLS e cargas úteis do protocolo de aplicativo, pode detectar com eficácia comunicações maleáveis C2 sofisticadas.

Detecção do kit de ferramentas do adversário

Essa abordagem pode detectar com eficácia o uso das ferramentas de estrutura C2 e estruturas C2 mais recentes, bem como atividades novas e suspeitas de beaconing C2, contando com a detecção de anomalias usando uma variedade de sinais de rede específicos para os usuários no ambiente e comparando com o tráfego válido e benigno no ambiente.

Eficácia de detecção

As abordagens atuais (assinaturas IPS mais blocos de IP/domínio/URL) perdem um alto grau de comunicação C2 avançada no malware mais recente (40% a 80%, dependendo dos cenários de teste).

Usando uma nova abordagem com um modelo de aprendizado de máquina ajustado, detecção de anomalias de um rico conjunto de sinais e uma métrica de risco granular, mais de 85 a 95% desses ataques atualmente evitados podem ser detectados.

Isso resulta em uma taxa geral de detecção de positivos verdadeiros de mais de 95% com o mínimo de falsos positivos.

Conclusão

Os kits de ferramentas da estrutura C2 capacitaram os atacantes com técnicas sofisticadas para evitar a detecção de comando e controle (C2). Notavelmente, kits de ferramentas amplamente disponíveis, como Cobalt Strike, Brute Ratel e Mythic, podem ser acessados como código comercial de código aberto ou hackeado/roubado.

As abordagens estáticas tradicionais, que dependem fortemente de assinaturas e indicadores estáticos, como listas de bloqueio de IP/URL, enfrentam severas limitações e são facilmente contornadas por essas ameaças em evolução.

Para enfrentar esse desafio, é necessária uma abordagem fundamentalmente diferente que aproveite os modelos de aprendizado de máquina. Esses modelos incorporam um conjunto abrangente de sinais de rede, treinados especificamente nos níveis de usuário e organizacional. Além disso, eles utilizam métricas de risco de usuário refinadas para reduzir os falsos positivos e medir o cinza frequentemente associado às ameaças.

A eficácia das abordagens de aprendizado de máquina deve ser cuidadosamente avaliada pelos usuários. Testes rigorosos em um banco de testes robusto de tráfego malicioso e benigno são essenciais para determinar sua eficácia na detecção e mitigação dessas novas ameaças.

References

“Cobalt Strike: operação policial internacional combate o uso ilegal da ferramenta de pré-teste de 'canivetes suíços'.” The Record from Recorded Future News, 3 de julho de 2024, https://therecord.media/cobalt-strike-law-enforcement-takedown. Acessado em 23 de agosto de 2024.

Gill, Andy. “Entendendo os perfis do Cobalt Strike — Atualizado para o Cobalt Strike 4.6.” Blog da ZSEC, 13 de abril de 2022, https://blog.zsec.uk/cobalt-strike-profiles/. Acessado em 23 de agosto de 2024.

Larson, Selena e Daniel Blackford. “Cobalt Strike: ferramenta APT favorita para Crimeware.” Proofpoint, 29 de junho de 2021, https://www.proofpoint.com/us/blog/threat-insight/cobalt-strike-favorite-tool-apt-crimeware.

Judge, Rafael. “Perfis C2 maleáveis: gmail.” Perfis C2 maleáveis normais gmail.profile, rsmudge, 28 de fevereiro de 2018, https://github.com/rsmudge/Malleable-C2-Profiles/blob/master/normal/gmail.profile.

Mulugeta, Dagmawi. “Sistemas e métodos de segurança para detectar comando e controle maleáveis.” Sistemas e métodos de segurança para detectar comando e controle maleáveis, Free Patents Online, 20 de agosto de 2024, https://www.freepatentsonline.com/12069081.html.

Rahman, Alyssa. “Cobalt Strike | Definindo os componentes do Cobalt Strike & BEACON.” Google Cloud, 10 de dezembro de 2021, https://cloud.google.com/blog/topics/threat-intelligence/defining-cobalt-strike-components/.

Bufar. “DISSE 1:25050.” Regra Snort: conexão de saída da variante MALWARE-CNC Win.Trojan.Zeus, Snort, https://www.snort.org/rule_docs/1-25050.

“O ataque à cadeia de suprimentos da SolarWinds usa o SUNBURST Backdoor.” Google Cloud, 13 de dezembro de 2020, https://cloud.google.com/blog/topics/threat-intelligence/evasive-attacker-leverages-solarwinds-supply-chain-compromises-with-sunburst-backdoor/.