0:00:00.7 Max Havey : Bonjour et bienvenue dans cette nouvelle édition de Security Visionaries, un podcast consacré au monde de la cyberinfrastructure, des données et de la technologie, qui réunit des experts du monde entier et de différents domaines. Je suis votre hôte, Max Havey. Aujourd'hui, nous plongeons dans le monde des lacs de données avec Troy Wilkinson, RSSI du groupe Interpublic, également connu sous le nom d'IPG. Troy, bienvenue dans l'émission.
0:00:21.5 Troy Wilkinson : Merci Max. C'est un réel plaisir d'être ici.
0:00:23.8 Max Havey : Heureux de vous rencontrer. Pour commencer, pouvez-vous nous expliquer le concept des lacs de données et pourquoi ils sont importants ? En tant qu'aspect de la sécurité moderne.
0:00:34.2 Troy Wilkinson : Oui, absolument. Je pense qu'il est important de prendre un peu de recul et de parler de la raison pour laquelle nous collectons des données en premier lieu, tout ce que nous faisons, voyons, touchons et la technologie a un certain type d'enregistrement machine qui en découle. Certains de ces journaux d'événements ne sont que des connexions et des déconnexions normales, mais d'autres constituent une télémétrie de sécurité très importante. Au cours des 25 ou 30 dernières années, nous avons essayé de déterminer ce qui était important pour nous du point de vue des opérations de sécurité, quelles données nous devions collecter, quelles données étaient importantes pour un événement ou un incident, puis nous avons plongé dans la logique ou la science des données pour relier ces incidents ou ces événements entre eux, On nous a demandé de placer ces données dans un endroit unique, ce que j'aime appeler le SIM hérité, où vous acheminez vos données dans une énorme base de données, puis vous effectuez l'analyse par-dessus pour recueillir des informations sur tous vos incidents. Maintenant, avec la structure du lac de données, la possibilité de placer vos données dans un schéma commun dans un lac de données vous permet de découpler ces données de votre analyse, de sorte que si la prochaine solution d'intelligence artificielle arrive et que vous voulez appliquer cette intelligence artificielle à...
0:01:55.3 Troy Wilkinson : Cet ensemble de données, c'est génial. Il suffit d'appuyer sur un bouton, vous n'avez pas besoin de déplacer vos données dans une nouvelle solution, vous n'avez pas besoin de les porter quelque part, vous pouvez simplement appliquer ces nouvelles analyses, et je pense que cela donne vraiment aux responsables de la sécurité et aux opérateurs sécurisés de la flexibilité sur la façon dont ils font des opérations de sécurité et des recherches de corrélation dans leurs lacs de données, et donc je pense vraiment que cette flexibilité, cette transparence et la propriété des données, et vraiment être en mesure de décider combien de temps vous conservez ces données est un critère de décision vraiment important pour les lacs de données et la façon dont ils vont changer l'industrie des opérations de sécurité.
0:02:30.5 Max Havey : Dans une certaine mesure, c'est une sorte d'endroit qui sert de dépôt pour toutes ces données que les organisations ont créées au cours de toutes ces années, et qu'elles peuvent maintenant utiliser à toutes les fins dont elles ont besoin, que ce soit avec un modèle d'IA ou d'analyse ou autre, mais c'est essentiellement quelque chose qui les aide à garder tout cela contenu de manière à ce qu'elles puissent également le garder en sécurité.
0:02:51.7 Troy Wilkinson : Si vous réfléchissez au coût des données, il a énormément baissé. Le stockage des données dans le nuage coûte aujourd'hui moins de quelques centimes par gigaoctet, ce qui vous permet de stocker plus de données, alors que dans le passé, vous deviez vraiment être conscient des données que j'introduis dans mon SIM et des données sur lesquelles je peux faire des corrélations, Il y avait donc des limites, et je peux décider, en tant que responsable de la sécurité, que je ne peux pas introduire cette source de données très volumineuse parce que c'est trop cher, mais je voulais vraiment le faire.
0:03:17.7 Troy Wilkinson : Et donc maintenant, avec la structure du lac de données, vous êtes en mesure de l'intégrer à un coût bien moindre et de l'utiliser pour effectuer des recherches par corrélation, ce que vous n'avez jamais pu faire auparavant. Par exemple, les journaux DNS sont généralement très bruyants et très inhabituels, de sorte que de nombreux responsables de la sécurité ne les utilisent pas. Cependant, ils sont très utiles en cas d'incidents ou si vous voulez revenir en arrière et voir si un utilisateur s'est rendu sur un site particulier, et vraiment aller au fond des choses. Le fait d'avoir ces données dans un lac de données, où le stockage est très bon marché, vous permet de mener des enquêtes à long terme et très approfondies, en particulier dans le cadre d'une enquête médico-légale après un incident.
0:03:51.5 Max Havey : En fait, l'avènement d'un stockage bon marché et la possibilité d'avoir toutes ces données créent de nouvelles opportunités pour les utiliser au mieux. Le fait d'avoir plus de stockage conduit à plus d'innovation avec ces données, et à des choses plus excitantes que les gens de la sécurité et d'ailleurs peuvent faire avec ces données.
0:04:08.7 Troy Wilkinson : Absolument, et une autre chose à mentionner est que le fait de pouvoir stocker ces données au fil du temps permet au responsable de la sécurité d'y appliquer différents types d'analyses. À titre d'exemple, nous disposons aujourd'hui de plusieurs types de recherches et d'événements de corrélation générés par l'IA, et nous sommes en mesure d'assembler des données télémétriques provenant de toutes vos sources de données à grande échelle et à grande vitesse, ce que nous n'avons jamais pu faire auparavant. C'était la promesse du SIM dans le passé, de rassembler toutes vos données en un seul endroit, de faire toutes ces interprétations fantaisistes, mais je pense que nous n'y sommes jamais arrivés du point de vue des opérateurs de rue à cause des dépenses, des connaissances nécessaires pour faire fonctionner cela et de l'entretien, nous avons été sur place pendant longtemps, donc le centre de données plein de serveurs que vous deviez entretenir, puis nous sommes passés à l'ère du nuage, et maintenant votre SIM est dans le nuage, et c'est très cher avec la puissance de calcul nécessaire pour faire ces analyses très complexes, être capable de découpler vos données et plus important encore, avoir ces données dans un schéma commun ou le schéma de cadre de cybersécurité ouvert, de sorte que chaque source de log soit dans le même schéma, de sorte qu'un nom d'hôte soit un nom d'hôte et qu'un ordinateur soit un ordinateur, et qu'une adresse IP soit une adresse IP, vous n'avez pas besoin de traduire cela, vous n'avez pas besoin de regarder à travers de multiples index ou sources de données et de les traduire.
0:05:24.2 Troy Wilkinson : En d'autres termes, tout est dans le même langage, vous pouvez poser des questions à vos données à grande échelle et à plusieurs endroits différents, ce qui aide vraiment à trouver l'aiguille dans la pile d'aiguilles, comme nous aimons le dire, pour trouver les acteurs de la menace qui font de mauvaises choses, qui se déplacent latéralement en exportant votre infrastructure, vos serveurs, votre nuage, en liant vraiment le tout là où vous auriez pu manquer ces aperçus auparavant.
0:05:45.8 Max Havey : Tout à fait. Et cela m'amène à ma prochaine réflexion : quels sont les défis que vous avez rencontrés en tant que RSSI lorsqu'il s'agit d'utiliser et de protéger les lacs de données ?
0:05:54.6 Troy Wilkinson : Je pense que les défis sont les mêmes que pour n'importe quel type de source de données : vous devez mettre en place des protections de données, vous devez avoir la propriété des données et leur lignage, vous devez vous assurer que vous dépréciez les données dans le bon délai, conformément aux exigences réglementaires que vous avez. Vous avez donc les mêmes préoccupations en matière de protection des données que pour n'importe quelle autre source de données.
0:06:14.5 Max Havey : Absolument, et dans le même ordre d'idées, pourquoi les lacs de données sont-ils devenus une surface de menace de plus en plus importante à protéger contre les acteurs malveillants et d'autres personnes qui essaient d'y pénétrer ou d'empoisonner ces données, pourquoi cela devient-il une surface de menace importante à garder à l'esprit pour les praticiens de la sécurité ?
0:06:31.9 Troy Wilkinson : Oui, bonne question. Je pense que du point de vue des données, les acteurs de la menace sont toujours à la recherche de données à exfiltrer, je pense que nous avons vu que c'est un thème croissant chez les acteurs de la menace au cours des dernières années, les récents incidents du flocon de neige que nous avons vus dans de nombreuses grandes organisations nous montrent que les acteurs de la menace cherchent de grandes sources de données à exfiltrer, et donc les protections de données sont extrêmement importantes, certainement les protections de données et l'exfiltration sont en tête du livre de jeu des acteurs de la menace, et donc nous cherchons toujours à les protéger. Je pense que les acteurs de la menace ont vraiment l'intention d'accéder aux données des entreprises et qu'ils les trouvent très précieuses. Auparavant, les attaques par ransomware consistaient simplement à crypter les serveurs et à demander une rançon aux entreprises ; aujourd'hui, elles exfiltrent les données. Il s'agit donc de données secondaires et même tertiaires, de ransomwares, où l'on dit : "Si vous ne nous payez pas, nous allons rendre vos données publiques", de sorte que les données sont devenues une marchandise monnayable pour les acteurs de la menace et peuvent continuer à être une cible.
0:07:24.6 Max Havey : Je me souviens de Nintendo en particulier, mais il y a eu des fuites de données à grande échelle dans des sociétés de divertissement et dans d'autres secteurs au fil des ans, et je pense que c'est un point intéressant qu'il y ait aujourd'hui des trésors de données qui n'existaient peut-être pas il y a 15 ou 20 ans, simplement parce que nous sommes capables de les conserver.
0:07:49.2 Troy Wilkinson : En ce qui concerne les ensembles de données, nous pensons au piratage de Sony et à l'exfiltration d'informations sur les films. Je pense que chaque ensemble de données est unique et doit être protégé, mais si vous pensez aux lacs de données de sécurité dont nous parlons ici dans la télémétrie de sécurité pour les opérations de sécurité, les acteurs de la menace pourraient avoir une très bonne idée de ce qu'un client fait pour se protéger, en d'autres termes, ils pourraient trouver des moyens d'accéder à leurs sauvegardes, à leurs bases de données, à leurs serveurs, et donc cette télémétrie de sécurité est très précieuse pour les acteurs de la menace également, nous avons donc besoin de mettre plus de garde-fous autour de nos lacs de données.
0:08:29.4 Max Havey : Absolument, et ensuite, je sais que nous parlons de l'idée d'utiliser les lacs de données pour aider à former des modèles d'IA et d'autres choses de ce genre. Je sais que l'idée d'empoisonner les données est un risque réel lorsqu'il s'agit de formation, d'IA générative et d'autres modèles d'IA. En quoi est-ce un problème et quelles sont les façons dont les gens peuvent penser à se protéger contre cela lorsqu'il s'agit de lacs de données ?
0:08:47.5 Troy Wilkinson : Lorsque nous examinons les grands modèles de langage et d'autres types de modèles de base pour l'intelligence artificielle que nous alimentons nous-mêmes, il s'agit donc d'un modèle que vous construisez et maintenez sur site ou dans votre propre nuage. Je pense qu'il est très important de comprendre que cette option d'empoisonnement des données est à la disposition des acteurs de la menace. Vous devez avoir une validation des entrées, vous devez vous assurer que personne n'est en mesure d'empoisonner les entrées et aussi d'exfiltrer, même si vous avez une architecture de chiffon ou une architecture de référence de partage d'un modèle d'IA, vous pouvez toujours avoir un empoisonnement des données au niveau des entrées, et vous pouvez également avoir une exfiltration des données où il y a un échange entre les entrées de l'utilisateur et l'échange avec le modèle de base sous-jacent, donc je pense qu'il est très important de protéger tous les composants de cela.
0:09:32.9 Troy Wilkinson : Et c'est un genre différent de sécurité à ce stade, où nous voyons la protection de l'IA, la protection du modèle de base, la protection et la détection de l'empoisonnement des données, ainsi que le biais, et ce biais peut être un biais inhérent ou un biais inconnu, où vous ne vous rendez même pas compte que votre modèle se transforme en un gros algorithme qui vous emmène sur la mauvaise voie, donc en ce qui concerne la sécurité, les Data lakes et SIM soar et les opérations de sécurité, je pense que nous sommes un peu loin de là, Je pense que nous sommes plutôt en sécurité sur ce point parce que nous ne mettons pas en œuvre ou n'instituons pas de modèles d'IA au-dessus de nos lacs de données de sécurité à l'échelle, mais il y a des fournisseurs qui le font en coulisses, donc ils auraient un grand défi à relever pour protéger ces modèles sous-jacents, mais pour nous, je pense que comme les praticiens dans toute l'industrie, être capable de rassembler toutes nos données dans un lac de données central et impliquer Advanced Analytics est encore ce que je considérerais comme de l'apprentissage automatique et certains types de recherches de corrélation de sécurité de l'ancienne école. L'avantage d'un lac de données, encore une fois, c'est que vos données se trouvent dans un schéma commun et dans un endroit centralisé comme celui-ci, vous êtes en mesure de modifier les analyses, de sorte que si la prochaine solution d'intelligence artificielle arrive, disons dans les 12 prochains mois, où.
0:10:44.9 Troy Wilkinson : Les opérateurs de sécurité disent que je veux appliquer cette nouvelle IA à mon lac de données, il est très facile de basculer ce commutateur et de le faire sans avoir à déplacer ces données, nous avons donc la flexibilité nécessaire, mais je ne pense pas que nous en soyons encore au point de protéger ce modèle de fondation sur notre lac de données.
0:10:58.8 Max Havey : Absolument, et cela nous ramène à ce que vous disiez à propos de l'idée que toutes les données parlent en quelque sorte la même langue, que tout ce qui existe doit être décodé d'une manière qui va confondre vos opérateurs de sécurité et autres. Et je pense que c'est particulièrement intéressant compte tenu de la rapidité avec laquelle la sécurité, l'IA et toutes les innovations technologiques évoluent actuellement, nous voyons de nouvelles solutions apparaître toutes les deux semaines, il me semble, et être capable d'ajuster ces données et de les appliquer en conséquence, si vous voyez une solution qui vient vers vous, je pense que c'est vraiment excitant et vraiment intéressant, et cela en dit long sur ce que vous pouvez faire avec l'innovation à l'avenir ici.
0:11:33.2 Troy Wilkinson : Absolument, je pense que l'un des avantages les plus uniques que j'entrevois à court terme pour l'IA est la possibilité de traduire en langage naturel les requêtes complexes qu'un opérateur de sécurité doit rédiger. Je pense que les équipes chargées des opérations de sécurité sont devenues très habiles à écrire des scripts et des requêtes complexes pour interroger leurs données, mais il sera beaucoup plus facile de former la prochaine génération d'opérateurs de sécurité s'ils peuvent simplement poser des questions à leurs données, me montrer où se trouve ceci, ou me montrer où se trouve cette vulnérabilité - être capable de poser simplement des questions normales et ensuite avoir l'IA qui traduit cela en une requête complexe qui peut rechercher le lac de données très rapidement va nous aider à obtenir de meilleurs résultats et plus rapidement. Je pense également que le lac de données va nous permettre de conserver ces données pendant de plus longues périodes, de sorte que si vous avez une violation, si une entreprise a une violation, vous pouvez regarder en arrière et assembler des données télémétriques que vous n'auriez peut-être pas eu la possibilité de faire auparavant.
0:12:25.6 Troy Wilkinson : Par exemple, l'année dernière, l'Institut Ponemon d'IBM a indiqué que la durée moyenne d'une violation avant détection est d'environ 180 jours, c'est-à-dire six mois avant qu'une entreprise ne se rende compte que des acteurs de la menace sont dans son environnement, et donc si vous ne conservez pas six mois de télémétrie complète de vos pare-feux, de votre détection et réponse des points d'extrémité et de votre antivirus, Le lac de données vous permet de stocker ces données à très faible coût sur des périodes de temps plus longues, ce qui vous permet de revenir en arrière et de les utiliser dans votre enquête pour découvrir exactement ce qui s'est passé depuis le moment de l'entrée jusqu'à aujourd'hui.
0:13:06.3 Max Havey : Et dans le même ordre d'idées, avez-vous vu des incidents de sécurité majeurs qui ont été rapportés et qui résultent de lacs de données mal sécurisés, et si oui, y a-t-il des leçons importantes à tirer de ce genre d'incidents ?
0:13:19.6 Troy Wilkinson : Oui, je pense que le récent problème du flocon de neige en est un bon exemple. Il s'agit donc d'une base de données massive, d'un lac de données que les clients utilisent pour diverses raisons, nous utilisons Ticketmaster, qui est l'un des incidents les plus connus liés au flocon de neige cette année, je pense que c'est un bon exemple de la façon d'utiliser une bonne cyber-hygiène, d'avoir tous vos comptes derrière une authentification multifactorielle, d'avoir les bons pare-feu applicatifs en place pour s'assurer que ces comptes de service sont protégés, je pense donc que ces meilleures pratiques d'accès aux données ou au lac de données sont si importantes dans ce domaine, être capable de créer cela et d'avoir cette bonne cyber-hygiène est la clé du succès.
0:13:57.7 Max Havey : Absolument, vous ne voulez pas vous retrouver dans une situation où vous avez des mots de passe en texte clair, ou des choses qui traînent et qui ne devraient pas traîner lorsque vous traitez des données de ce volume et de cette sensibilité.
0:14:08.3 Troy Wilkinson : Absolument.
0:14:09.1 Max Havey : Amenez-nous ici. Quels sont les stratégies ou les conseils que vous recommanderiez aux RSSI et aux autres praticiens de la sécurité en matière de protection des lacs de données, au-delà de la simple cyberhygiène, y a-t-il d'autres conseils ou stratégies que vous voudriez recommander aux gens ?
0:14:24.8 Troy Wilkinson : Oui, je pense que du point de vue de la protection des lacs de données, vous devez décider ce qui convient le mieux à votre entreprise, vous pouvez l'exécuter sur site, vous pouvez l'exécuter dans le nuage, et toutes les mêmes protections que vous appliqueriez normalement s'appliquent ici, donc l'accès initial, l'authentification multifactorielle, vos identifiants d'administrateur en utilisant un gestionnaire d'accès privilégié, tout le même type de protection que vous mettriez autour de n'importe quel autre logiciel en tant que service ou une application sur site avec une valeur élevée ou des données critiques. Mais surtout, je pense que les lacs de données sont une excellente option pour les personnes qui cherchent à décider comment changer l'avenir de leurs opérations de sécurité, de leurs recherches de corrélation. Je pense que c'est le bon moment dans l'industrie pour SIM et pour monter en flèche pour cette nouvelle génération de lacs de données qui va sortir. Vous en avez tellement sur le marché, je ne veux pas citer de noms, mais il y a beaucoup de vendeurs qui se lancent dans le genre Data lake, et tant que vous avez ce schéma commun, vous êtes en mesure de porter vos données si vous en avez besoin, vous êtes en mesure de les maintenir plus longtemps et vous êtes en mesure de faire des corrélations à la vitesse et à l'échelle, ce qui est si important pour le centre opérationnel de sécurité.
0:15:24.8 Max Havey : Tout à fait. Et pour conclure, Troy, qu'est-ce qui vous enthousiasme le plus dans l'avenir de ce que nous pouvons accomplir en matière de sécurité, de lacs de données et d'autres choses de ce genre ? Qu'est-ce qui vous enthousiasme le plus dans ce type d'innovation en prévision de l'avenir ?
0:15:36.8 Troy Wilkinson : Oui, je pense qu'il y a deux choses à faire. La première est de pouvoir introduire davantage de données télémétriques ou de données de sécurité, ce qui n'était pas le cas auparavant pour diverses raisons, et de les intégrer dans ce schéma commun afin de pouvoir effectuer une recherche sur Advanced Analytics. Premièrement, cela a clairement montré que nous augmentons nos capacités à l'échelle ici avec l'aide des lacs de données et aussi avec l'avènement de l'IA et de certaines des analyses que nous appliquons ici, mais deuxièmement, c'est vraiment le coût, être capable de réduire votre coût de données est utile pour apporter plus de données et les stocker afin que vous puissiez faire ces corrélations à travers un ensemble de données plus large, et c'est très important lorsque vous pensez à toutes les grandes quantités de sources de données très bruyantes provenant de vos logs de parcours dans le nuage, de vos logs de flux et de vos logs DNS, des choses que les gens ne collectaient traditionnellement pas ou ne stockaient pas pendant un certain temps, mais que vous pouvez maintenant stocker et faire des recherches de corrélation.
0:16:27.7 Troy Wilkinson : La raison pour laquelle les entreprises stockent ce type de données et les conservent au fil du temps est de trouver les méchants plus rapidement, de trouver l'acteur de la menace qui essaie de profiter de votre entreprise plus rapidement, et je crois que les lacs de données renforcent vraiment cela en ayant la capacité de faire Advanced Analytics sur de plus grands ensembles de données et à la vitesse et à l'échelle, je le répète souvent, j'aime ce terme, parce que si nous sommes capables de le faire à plus grande échelle et d'apporter ces données et de le faire plus rapidement, vous allez permettre aux opérateurs de sécurité d'agir plus rapidement et d'arrêter les méchants plus rapidement et de les faire sortir de votre système plus rapidement, donc juste nous donner une longueur d'avance, les acteurs de la menace sont toujours en évolution, nous devons rester en phase avec eux, et je pense que cela nous donne une très bonne opportunité de le faire.
0:17:09.0 Max Havey : Absolument, Troy, je pense que nous arrivons à la fin de nos questions, et je tiens à vous remercier de vous être joints à nous aujourd'hui. Cette conversation a été passionnante et je pense que nous avons beaucoup appris sur les lacs de données et sur les perspectives d'innovation dans ce monde.
0:17:23.4 Troy Wilkinson : Absolument, Max, merci de m'avoir invité. Et j'attends avec impatience le prochain.
0:17:26.1 Max Havey : Oui, absolument. Et vous avez écouté le podcast des Visionnaires de la sécurité. Je suis votre hôte, Max Havey, et si vous avez apprécié cet épisode, partagez-le avec un ami et abonnez-vous aux Visionnaires de la sécurité sur votre plateforme de podcast préférée, où vous pourrez écouter notre catalogue d'épisodes et garder un œil sur les nouveaux épisodes qui paraîtront toutes les deux semaines. Animé soit par moi, soit par ma co-animatrice, la merveilleuse Emily Wearmouth. Sur ce, nous vous donnons rendez-vous pour le prochain épisode.