Position: Monitoring Expert

  02.05.2022 |   Telecom/Multimédia


essentielle Verantwortlichkeiten und Aufgaben

Aufbau einer Application Monitoring Infrastruktur auf Basis Prometheus zur dauerhaften Überwachung und laufende Kontrolle der Funktionalität des Ticketshop Systems (fachlich / technisch).
Durch die Etablierung eines übergreifenden Monitorings, soll die Ermittlung von Ursachen ermöglicht werden, welche dazu führen, dass sich Parameter außerhalb eines gewünschten Bereichs bewegen. Durch die rechtzeitige Beseitigung von Problemen, sollen große Schäden verhindert werden. Ausfallursachen müssen erkannt und lokalisiert werden, und ein Wissenszuwachs erreicht werden, welcher die Arbeit der IT langfristig unterstützt und zu einer Früherkennung zukünftiger Probleme führen soll. Durch sinnvolles Monitoring sollen die Systeme optimiert werden, um dadurch mittel-/langfristig Kosten zu sparen.
Etablierung von Monitoring in der Organisation: „Jeder in der Organisation trägt dazu bei, ein funktionierendes Monitoring im Unternehmen zu etablieren“.
- Analytiker und Entwickler stellen die Informationen für ein funktionierendes Monitoring / Alerting zur Verfügung (Definierte, vorgegebene Standard Metriken, Log-Levels, etc.)
- Die Verantwortung für die Überwachung der Systeme, mit den durch das Monitoring zur Verfügung gestellten Mitteln, erfolgt durch den Betrieb. Unterschieden wird hier das fachliche und technische Monitoring / Alerting.
Aufgaben:
Proaktives Treiben und Gestalten der folgenden Punkte, um ein proaktive Application Monitoring Kultur über alle Einheiten des Ticketshops zu gewährleisten:
• Etablierung / Einführung einer Application Monitoring Infrastruktur zur Gewährleistung, dass alle Komponenten innerhalb der notwendigen Parameter befinden
• Protokollierung und systematische Erfassung von Prozessen oder Vorgängen im System, zur Sicherstellung des reibungslosen Ablaufs der betrachteten IT-Prozesse
• Nutzung der in der Organisation zur Verfügung gestellten Tools (Prometheus, Kibana, Grafana, Elasticsearch)
• Definition von
o TS Spezifischen Monitoring Metriken
o Ticketshop spezifischen eigenen Metriken anstelle von Standard Metriken
o Eigene Log-Level für das Monitoring
o Namenskonventionen für Metriken
o Logging von Request / Response Logging vereinheitlichen
o etc.
• Abstimmung mit diversen Stakeholdern, welche potentiellen Bedarf an Monitoring und Alerting haben. Das können sein:
o Fachbereiche (Nahverkehr, Fernverkehr)
o Fachliche Betriebsführung
o Technische Betriebsführung
o Ticketshop Entwicklungseinheiten
o etc.
• Definition eines Stagekonzept zur Implementierung eines durchgängigen Monitorings über die relevanten Stages (Beispiel: DEV, TEST, VORP, PROD, u. diverse Prototyping Stages)
• Verantwortung für die Bereitstellung und Konfiguration der Dashboards und dem Alerting der fachlichen Betriebsführung (Intern), Umgebungsmanagement, und der anfordernden Fachbereiche (z.B. Fernverkehr, Nahverkehr, interne Ticketshop Stackeholder)
• Support bei der Erstellung von Monitoring Dashboards und Alerting für die technische Betriebsführung
• Kontinuierliche Analyse des existierenden Logging-Systems
o Usability der Logs in Kibana
o Verifizierung der existierenden Informationen von Daten in Kibana
 Feldbereinigungen (Duplikate, Feldgrößen, etc.)
o Reduktion der Logging Einträge
 Sinnhaftigkeit der Logs hinterfragen
o Validierung der Log-Messages
• Proaktives treiben und umsetzen der oben genannten Punkte, in Zusammenarbeit mit den Entwicklungseinheiten und Architekten des Ticketshop


Sprache: Deutsch fließend
Arbeitsort: Wien, vor Ort bzw. z.T. Remote (3 Tage vor Ort:2 Tage Homeoffice, außerhalb aktueller Covid Regelungen=Homeoffice)
Längerfristig, 1 Jahr und mehr

Arbeitsplatz:

Vienna, Austria, on-site, home office possible

Beginndatum:

01.08.2022

Gültig von:

02.05.2022

Gültig bis:

31.07.2022