Le monitoring de l'infrastructure passe au niveau supérieur

Le paradoxe du monitoring des infrastructures modernes

L'infrastructure informatique n'a jamais été simple. Mais il fut un temps où tout se trouvait au même endroit.

Aujourd'hui, la réalité est toute autre, et les équipes DevOps et SRE sont confrontées à un réseau éparpillé de systèmes complexes et d'environnements changeants. Et c'est là où le bât blesse : cette infrastructure à la complexité grandissante est plus que jamais un élément essentiel de la réussite de l'entreprise, car les logiciels eux-mêmes sont devenus indispensables à cette réussite.

Plus le monitoring de l'infrastructure est capital, plus il devient complexe et difficile à gérer, et c'est là tout le paradoxe. Ainsi, les temps d'indisponibilité des applications génératrices de CA ou en interface avec le client sont encore plus préjudiciables pour l'entreprise. Mais avec une architecture distribuée et de grosses équipes, il est encore plus difficile de diagnostiquer l'origine des pannes.

Il n'est donc pas étonnant que l'équipe informatique dorme mal la nuit (et pas seulement en raison des alertes à 2 heures du matin).

Il vous faut des temps moyens de résolution (MTTR) plus rapides et une interprétation claire et partagée de ce qui se passe réellement et pourquoi. De cette façon, vous faites de la prévention en toute confiance au lieu de lutter contre les incendies.

La véritable observabilité est cruciale

Dans un environnement moderne, l'accumulation de métriques produites par des outils sans lien entre eux ne suffit pas.

Vous avez besoin de l’observabilité.

Par « observabilité », on entend la collecte, la visualisation, et l'intelligence appliquée proactivement à tous vos événements, métriques, logs et traces afin de comprendre dans sa globalité tout votre système informatique.

Comment y arrivez-vous ? C'est ce que nous verrons dans ce guide. Nous allons examiner les quatre impératifs qui permettent aux équipes DevOps et SRE d'aujourd'hui d'obtenir une véritable observabilité :

Un monitoring moderne pour des environnements modernes
Des dashboards et visualisations personnalisés
Toute la visibilité au même endroit pour tout le stack
Une évolutivité et une efficacité plus importantes

La véritable observabilité

L'observabilité permet de voir comment les problèmes dans une section de votre stack impactent une autre section pour que vous puissiez passer du stade où seul le problème est visible au stade supérieur où vous comprenez pourquoi il s'est produit.

Lorsque vous savez pourquoi les problèmes se produisent, vous pouvez les résoudre beaucoup plus rapidement et faire en sorte qu'ils ne réapparaissent plus.

Le contexte que vous gagnez grâce à la véritable observabilité vous aide également à faire le lien entre impact de la performance et de l'état de santé de l'infrastructure et expérience client. Vous obtenez ainsi une plus grande clarté sur les résultats commerciaux découlant de logiciels et systèmes sains.

Les effets réels de la véritable observabilité

Votre meilleur atout pour le monitoring et la maintenance de votre infrastructure est la rapidité. Une véritable observabilité agit vite là où vous en avez besoin pour que vous puissiez vous concentrer là où vous le voulez.

L'objectif étant de déployer plus rapidement des logiciels plus résilients, de détecter les problèmes sans délais, d'accélérer le MTTR, et de donner à votre équipe la confiance nécessaire pour qu'au moment du déploiement du code, tout le monde sache exactement quelle sera sa performance en production.

Mais le but est également d'avoir une équipe en bonne santé. En travaillant en amont afin de prévenir les problèmes futurs, vous gagnez en contrôle sur les plannings et vous souffrez moins des changements imprévus et des longues nuits passées à les implémenter. Cela rend votre équipe beaucoup plus satisfaite.

Les trois fonctions critiques d'une véri- table plateforme d'observabilité

Elle doit être ouverte
La visualisation de toutes les données télémétriques, qu'elle soit instrumentée via des agents ou des sources tierces, élimine les inconnues.
Elle doit relier les silos
Il ne suffit pas de mettre toutes les données au même endroit, encore faut-il comprendre ce qui se passe dans vos logiciels et sur vos systèmes pour pouvoir vite en déduire la signification, mettre le doigt sur les problèmes plus rapidement, et prendre de meilleures décisions.
Elle doit être programmable
Ce n'est pas une plateforme si vous ne pouvez pas la développer. Mais c'est plus que ça ; « programmable » signifie que vous pouvez créer vos propres visualisations et personnaliser les applications qui sont importantes pour votre entreprise.

User sitting in front of a New Relic Dashboard

Nous allons détailler chacun de ces points un peu plus loin...

Impératif n° 1 : Un monitoring moderne pour des environnements modernes

Si vous voulez conserver un avantage concurrentiel avec vos applicatifs, il est important de moderniser votre infrastructure. Cela signifie toutefois que
vous finirez par utiliser différents outils pour faire le monitoring des hôtes, du réseau, des périphériques de stockage, des logs, etc.

Tout cela empêche la visibilité de bout en bout et résulte en :

Une télémétrie inégale et incomplète
Une faible résolution des données, ce qui se traduit par des pics indétectables et des problèmes qui ne peuvent être gérés que trop tard
Un manque de visibilité sur les applications prête à l'emploi, les applications SaaS dont elles sont responsables, et même les applications personnalisées sans solution APM
Des problèmes impactant les utilisateurs avant que vous ne les remarquiez
Un manque de corrélation entre état de santé et performance des divers composants de l'infrastructure et des applicatifs
Aucune visibilité sur les changements de configuration imprévus ou incorrects, qui entraînent des problèmes de performance

Et le pire, c'est que de nombreux outils de monitoring tournent
sur le site, ce qui signifie qu'ils exigent des ressources et des compétences supplémentaires qui doivent être correctement gérées.

Résultat : l'identification et le dépannage des problèmes sont lents et lourds, et prennent donc plus longtemps à résoudre. À cela s'ajoute le manque de données détaillées qui empêche l'identification des causes profondes, et entraîne la récurrence des problèmes et la fatigue de votre équipe.

Au bout du compte, l'impact sur l'expérience client est énorme.

Exemple concret : les conteneurs changent tout

Imaginez que vous gériez l'infrastructure d'une entreprise qui compte sur un énorme afflux de données des appareils IoT (Internet des objets). Ces données sont essentielles à la réussite de l'entreprise et à l'expérience client.

En plus de tout cela : une croissance rapide grâce aux acquisitions. Ces dernières se traduisent par un système qui traite non seulement un plus grand flux de données, mais qui est également éparpillé sur toute une architecture cloud complexe.

Vous êtes alerté quand une application a ralenti. Et c'est tout. Une simple alerte.

Mais est-ce une erreur de code dans l'application qui ne tourne pas efficacement ? Est-ce un problème de flux de données ? Auquel cas, allez-vous vérifier chaque périphérique un par un ? Est-ce un problème de ressources dans l'infrastructure qui doit être pris en compte pour éviter de graves problèmes plus tard ?

Cet exemple est basé sur un vrai problème auquel a dû faire face une entreprise qui évoluait très rapidement. Lisez le résumé de l'étude de cas sur la droite.

Fleet Complete utilise New Relic pour assurer le mouvement des données

Fleet Complete est une entreprise de télématique qui utilise des périphériques IoT pour collecter des données GPS, sur l'état des véhicules, etc. afin d'obtenir les informations importantes nécessaires pour que la flotte de véhicules commerciaux clients soit toujours en mouvement et pour piloter sa plateforme de véhicules connectés.

L'entreprise avait besoin d'un environnement qui pouvait évoluer de manière drastique afin de gérer les nouvelles acquisitions et un plus grand flux de données.

La solution était cloud AWS, ce qui a posé de nouveaux défi. Heureusement, New Relic est arrivée. En 12 mois, 60 % de la migration cloud de Fleet Complete était réalisée, son cycle de publication de logiciels était trois mois plus court, et l'entreprise bénéficiait d'une visibilité intégrale sur son pipeline d'ingestion des données cruciales.

Lire l'étude de cas dans son intégralité.

Pour observer les environnements modernes, vous voulez évaluer l'état de santé des éléments d'un cluster ; vérifier le statut, les métriques et les logs d'un conteneur particulier ; et voir les événements Kubernetes spécifiques qui ont impacté le conteneur. Vous voulez également voir les métriques et traces de l'application pour un service qui tourne dans ce conteneur.

Si vous alignez vos outils de monitoring sur le défi présenté par une infrastructure cloud distribuée, vous obtenez de meilleures informations sur la performance des applications distribuées, et évidemment, une meilleure vue globale de votre stack.

Avec une plateforme d'observabilité développée pour traiter la conteneurisation et les environnements Kubernetes, vous pouvez déployer plus rapidement les modifications, corrections et mises à niveau.

Tout cela permet d'obtenir des systèmes plus résilients et de réduire les temps d'indisponibilité. Et quand on passe moins de temps à être réactif, on en a plus pour préparer l'évolution de ses systèmes, ce qui permet d'adopter l'automatisation et de créer des outils en self-service, et pour les équipes IT, de développer et déployer des applicatifs plus rapidement et plus souvent.

Impératif n° 2 : Des dashboards et visualisations personnalisés

Vos systèmes métier, logiciels et infrastructure ne sont pas, et ne seront jamais, exactement pareils que ceux des autres. Chacun d'entre eux est essentiel aux objectifs spécifiques de votre entreprise. En outre, le déploiement de ces logiciels et l'utilisation de votre infrastructure sont uniques à vos équipes opérationnelles.

C'est la raison pour laquelle les solutions de monitoring modernes fournissent des expériences prêtes à l'emploi qui sont personnalisées pour faire remonter à la surface des données télémétriques et des informations clés. Toutefois, la véritable observabilité va encore plus loin. Vos équipes doivent pouvoir développer des visualisations et des applications qui font remonter à la surface les données et les informations importantes pour leur travail et pour l'entreprise.

Avec des dashboards et des visualisations personnalisables, vous pouvez choisir de réaliser le monitoring des éléments de votre stack les mieux adaptés aux résultats commerciaux escomptés. Et quand ces objectifs changent, vos dashboards peuvent évoluer avec eux.

Un détaillant qui compte sur ces centres d'approvisionnement et de distribution dans tout le pays a besoin de pouvoir synthétiser l'état de santé de l'entreprise en fonction de KPI de distribution précis. Il dispose de données qui proviennent de plusieurs comptes émanant de nombreux centres. Les cadres supérieurs de l'entreprise n'ont pas besoin de toutes les voir, ni même de toutes les comprendre. Par contre, ils doivent être capables de constater la performance.

Grâce au dashboard personnalisable, ils peuvent créer une vue qui leur permet de voir les incidents qui se produisent dans des centres spécifiques pour certaines fonctions commerciales. Dans notre exemple, la meilleure vue serait une grille permettant de référencer les centres et les fonctions. En un simple clic, les cadres pourraient ainsi plonger dans des fonctions spécifiques à un centre et obtenir une liste des incidents.

Au cœur de la véritable observabilité se trouvent des informations personnalisées pour des résultats commerciaux particuliers. La manière dont vous élaborez votre monitoring pour vos besoins spécifiques vous permet de contribuer proactivement à vos objectifs métier.

Il est plus facile de trouver et de résoudre les problèmes quand on peut personnaliser ses données télémétriques à des cas d'utilisation qui sont importants pour son activité.

Ce pilier impacte toute l'entreprise, parce qu'il vous permet d'ajuster le monitoring en fonction de vos objectifs. En d'autres termes, vous pouvez planifier les besoins futurs de vos clients et garder une longueur d'avance sur vos concurrents.

Vous bénéficiez également de solutions sur mesure, sans implémentation coûteuse par une équipe externe.

Démarrez avec des solutions personnalisées open source

Les applications open source vous permettent de personnaliser des solutions existantes ou d'utiliser des portions de code pour développer vos propres applications qui répondent à vos besoins spécifiques. Voici trois exemples d'applications que nous avons développées pour la plateforme New Relic One.

Cloud optimize

Luttez contre le surplus de ressources en comparant la taille des instances à leur utilisation, et estimez les économies que vous feriez avec l'optimisation des ressources. Sélectionnez des hôtes, régions et autres configurations pour spécifier vos propres cas d'utilisation métier. Cloud Optimise prend en charge AWS, Azure et GCP.

Browser analyzer

Optimisez la performance des pages Web avec Browser Analyzer, qui affiche une analyse de la performance et prédit les améliorations qui peuvent impacter les KPI, comme le taux d'abandon ou le trafic. Vous pouvez identifier les pages qui ont les pires performances et cibler les corrections qui auront des retombées considérables.

Customer journeys

Créez un entonnoir interactif pour pouvoir personnaliser les étapes qui appartiennent au workflow de vos clients. Visualisez les données standard de chaque étape, telles que les vues d'une page, le taux et le nombre d'erreurs, et obtenez des métriques plus détaillées en un clic.

Impératif n° 3 : Une visibilité uniformisée de bout en bout

Les architectures de microservices modernes fournissent des abstractions qui floutent la distinction entre infrastructure et applications.

Si cela simplifie le déploiement, cela complexifie par contre le monitoring. Vos outils doivent vous apporter une visibilité uniformisée de bout en bout sur tout votre parc et tout votre stack.

Le temps passé à naviguer entre les divers outils qui font le monitoring de différentes sections de votre stack est du temps perdu. Cela crée des silos de données qui augmentent la charge de travail et les inconnues. L'interprétation des métriques de performance à partir d'outils multiples peut également entraîner des erreurs humaines. Quand ces métriques se retrouvent toutes au même endroit, la possibilité d'erreur s'en trouve réduite et vous pouvez ainsi agir rapidement et sans hésitation.

La consolidation des outils place toutes les performances de l'infrastructure et des applications, l'expérience client, et les données de logs au même endroit, ce qui vous permet ainsi de détecter, diagnostiquer et résoudre les problèmes plus rapidement.

Imaginez que vous ayez accompli 90 % du diagnostic d'un problème d'application, mais que les derniers 10 % se trouvent dans un log quelque part et qu'il vous faille changer d'outil pour le trouver et le résoudre. Vous perdez de précieuses secondes que vous n'avez pas, et ce, à chaque fois que vous devez changer de contexte.

Ou considérez que l'état de santé des services sur lesquels vous comptez est tout aussi important que l'état de santé de votre propre système. Si chaque service possède sa propre page d'état, mais que pour la voir, vous devez consulter 14 pages différentes, et si la plupart de ces pages publient leurs API, pourquoi ne pourriez- vous pas avoir une vue consolidée et unique de leur état ?

Chart showing how downtime affects revenue

Si vous exploitez une combinaison d'outils de monitoring legacy et DIY, vous perdez la vue globale sur l'état de santé de votre système. Ce problème est également amplifié par des équipes qui travaillent en silos avec des données compartimentées. Ce poids supplémentaire pèse sur les épaules de l'équipe IT et rend difficile l'affectation des ressources.

Le fait de voir votre système sur un seul écran intégré élimine les inconnues et révèle toute la topographie : de l'état de santé de l'infrastructure à l'expérience client. Une accélération du MTTR se traduit par des temps d'indisponibilité moindres, une perte de revenu plus faible et une rentabilité accrue. Et bien entendu, la vue consolidée et l'outil unique engendrent une meilleure allocation des ressources.

Impératif n° 4 : Une évolutivité et une efficacité plus importantes

L'infrastructure doit pouvoir évoluer. Et ce faisant, vos outils de monitoring doivent également être évolutifs.

Mais il faut du temps pour transformer les outils de monitoring autohébergés classiques, assurer leur maintenance et les mettre à niveau au fur et à mesure que vous grandissez.

Une solution moderne de monitoring de l'infrastructure, assurée en tant que SaaS, devrait être invisible. Au lieu de vous compliquer la tâche, elle doit vous permettre de facilement visualiser la réalité d'un environnement qui ne cesse de se complexifier.

En outre, une approche moderne de l'observabilité doit incorporer AIOps et des fonctions d'intelligence permettant une réponse plus rapide aux incidents.

Cela vous donne la capacité de détecter les anomalies de manière proactive et de corréler automatiquement les incidents afin de réduire les alertes inutiles. Les métadonnées et l'enrichissement vous permettent de diagnostiquer les incidents et d'en trouver la cause profonde plus rapidement. Vous pouvez ainsi prendre immédiatement des mesures pour remédier à la situation.

Cela signifie que vous pouvez recevoir une notification en cas de problème avant même que les clients ne le remarquent et que vous pouvez le diagnostiquer plus efficacement. Des alertes plus intelligentes envoient d'abord la notification aux équipes les mieux armées pour résoudre le problème.

Résultat : un plus grand focus sur l'expérience client, les tâches essentielles et la prévention en amont des incidents. Votre équipe peut ainsi se concentrer sur son vrai travail : mettre sur le marché de nouveaux produits, logiciels et fonctionnalités plus rapidement.

Une approche moderne du monitoring de l'infrastructure vous permet de passer moins de temps à la maintenance du monitoring et plus au développement et à l'optimisation de votre infrastructure.

Comment arriver à une véritable observabilité

L'observabilité, c'est faciliter le travail de gestion de l'infrastructure IT alors qu'elle devient de plus en plus complexe. La véritable observabilité se distingue du monitoring classique par le fait que vous pouvez observer où se trouve un problème, pourquoi il se produit, comment le gérer, et en quoi il impacte le reste de l'infrastructure.

Il s'agit également de la différence entre quelques secondes et plusieurs minutes, entre une évolutivité orientée vers l'avenir et la lutte contre les problèmes d'aujourd'hui.

Un stack observable est un stack adaptable

Si l'observabilité est importante à la gestion efficace de l'infrastructure, il est également important de ne pas oublier ce que tout ce que cela signifie. L'observabilité n'est pas une fin en soi.

Son but est de permettre, à vous et à l'équipe Infrastructure, de comprendre rapidement ce dont les composants système ont besoin pour s'adapter et comment ils y arrivent. Dans certains cas, il peut s'agir de prévenir les temps d'indisponibilité. Dans d'autres, il peut falloir provisionner une quantité adéquate de ressources. Dans d'autres circonstances encore, il peut être nécessaire d'accueillir une innovation.

Au bout du compte, Le seul aspect qui est certain dans la gestion d'une infrastructure moderne, c'est qu'il y aura des changements, et que ces changements auront un effet domino sur une zone à surfacer de plus en plus complexe.

Les équipes qui ont l'impact le plus positif sur l'activité seront celles qui peuvent naviguer la houle des changements et s'adapter en fonction des besoins de l'entreprise.

Les équipes qui savent précisément ce avec quoi elles travaillent.

Si votre équipe se reconnaît ici, parlons-en

New Relic est une plateforme open source, connectée et programmable qui vous donne une observabilité intégrale et contextuelle sur l’ensemble de votre stack technologique. Elle vous apporte une vue consolidée de toutes vos données, depuis le navigateur et les appareils mobiles de vos clients jusqu’à vos applications et votre infrastructure, quel que soit leur environnement d’exécution. Elle réduit les zones d’ombre, fournit du contexte et vous propose des informations précises sur les limites organisationnelles artificielles, afin de vous aider à détecter et résoudre rapidement les problèmes.

Découvrez comment nous pouvons vous aider à maintenir la disponibilité de vos systèmes.

L'infrastructure informatique n'a jamais été simple. Mais il fut un temps où tout se trouvait au même endroit.
Aujourd'hui, la réalité est toute autre, et les équipes DevOps et SRE sont confrontées à un réseau éparpillé de systèmes complexes et d'environnements changeants. Et c'est là où le bât blesse : cette infrastructure à la complexité grandissante est plus que jamais un élément essentiel de la réussite de l'entreprise, car les logiciels eux-mêmes sont devenus indispensables à cette réussite.

Dans cet eBook

Le monitoring de l’infrastructure passe au niveau supérieur

S'inscrire pour afficher les ressources