angeblich eine sehr gute Doku → hier

Datadog

Datadog ist eine Cloud-basierte Monitoring- und Observability-Plattform, die dir einen umfassenden Überblick über die Gesundheit und Performance deiner Anwendungen, Infrastruktur und Logs gibt – alles in einem Tool.

Was kann Datadog konkret?

Monitoring & Metriken: CPU, RAM, Netzwerk, Container-Auslastung – alles wird in Echtzeit erfasst und in Dashboards visualisiert.

Application Performance Monitoring (APM): Datadog kann einzelne Requests durch deine Services verfolgen (Distributed Tracing). Du siehst genau, welcher Service wie lange braucht, wo Bottlenecks sind und wo Fehler auftreten. Das ist besonders wertvoll, wenn mehrere Services miteinander kommunizieren.

Log Management: Logs aus all deinen Services werden zentral gesammelt, durchsuchbar gemacht und können mit Traces und Metriken korreliert werden. Statt in fünf verschiedenen Log-Dateien zu suchen, hast du alles an einem Ort.

Alerting: Du definierst Schwellwerte (z.B. "Fehlerrate > 5%" oder "Response-Time > 2s") und bekommst Benachrichtigungen per Slack, E-Mail oder PagerDuty.

Dashboards: Individuelle Dashboards, die dir auf einen Blick zeigen, wie es deinen Services geht.

Warum solltest du es nutzen?

Für deine Situation – Python- und TypeScript-Services, die in Azure laufen – gibt es ein paar konkrete Vorteile:

Überblick statt Blindflug: Sobald du mehrere Services betreibst (z.B. deine Confluence-Extraktions-Services, Cognigy-Integrationen), wird es ohne zentrales Monitoring schwer nachzuvollziehen, was wann warum schiefgeht. Datadog verbindet die Punkte zwischen deinen Services.

Schnellere Fehlersuche: Wenn dein Chatbot plötzlich langsam antwortet, siehst du in Datadog sofort, ob es an deinem Python-Service, an der Azure OpenAI API oder an der Netzwerkverbindung liegt.

Proaktiv statt reaktiv: Statt zu warten bis sich Nutzer beschweren, wirst du frühzeitig gewarnt.