Das Wichtigste auf einen BlickBeschäftigungsart | Hybrid, Vollzeit |
---|
Vertragsart | Unbefristet |
---|
Arbeitsmodell | Home Office nicht möglich |
---|
Gesellschaft | Uniper |
---|
Stellen-ID | 88606 |
---|
Kontakt | career@uniper.energy |
---|
Unser Platform Engineering Team in Düsseldorf sucht Dich! Deine Aufgaben - Verantwortung für Zuverlässigkeit: Definiere und steuere SLOs/SLIs, Fehlerbudgets und „Golden Signals“ für latenzkritische Algo-Trading-Dienste. Leite Incident-Response-Prozesse und Nachanalysen in einer „blameless“ (nicht schuldzuweisenden) Kultur
- Produktionsarchitektur: Entwirf und entwickle geo-redundante Architekturen mit Active-Active- bzw. Active-Passive-Topologien über Regionen und Verfügbarkeitszonen hinweg – einschließlich Failover, Datenreplikation und Notfallwiederherstellung (RTO/RPO)
- Kubernetes in großem Maßstab: Entwirf, sichere und betreibe AKS-basierte Multi-Cluster-Umgebungen (Multi-Tenant, Multi-Region) – einschließlich Netzwerk, Sicherheit, Autoscaling, Node-Pools und Upgrade-Strategien
- Infrastructure as Code: Verantworte Terraform-Blueprints und Ansible-Automatisierungen – von Basis-Images bis zu Cluster-Add-ons – und sorge für idempotente, richtliniengesicherte und nachvollziehbare Änderungen
- Automatisierung & Effizienz: Baue Progressive-Delivery-Pipelines (Blue/Green, Canary) mit kontrollierten Rollouts und automatischen Rollbacks für Trading-Microservices, Adapter, Marktdaten- und Ausführungs-Gateways auf
- Observability & Performance: Implementiere End-to-End-Tracing (OpenTelemetry), Metriken, Logs und synthetische Probes. Führe Kapazitätsplanung, Performance-Tests und Optimierungen von p99/p999-Latenzen durch
- Runtime-Sicherheit: Setze Laufzeitsicherheit, Secret-Management, Image-Hygiene und Compliance-Kontrollen durch – integriert nach dem „Shift-Left“-Prinzip in Build- und Deploy-Workflows
- Algo-Trading-Runtime: Betreibe und optimiere Deltix-basierte Komponenten (Timebase DB, Ember, Strategy Server) in containerisierten, hochverfügbaren Setups. Übernimm die Verantwortung für die zugehörigen Helm-Charts
- Zusammenarbeit & Führung: Betreue und führe SREs, DevOps- und Entwickler*innen, leite Design-Reviews und stimme dich mit den Bereichen Platform, Security und Trading über Prioritäten und Roadmaps ab
- Innovation: Fördere eine Kultur der Innovation, bleibe auf dem neuesten Stand der Technologie und integriere sinnvolle Neuerungen in den Handelsbereich
Dein Profil - Du hast einen Abschluss in Informatik, Mathematik, Ingenieurwesen oder einem verwandten Fachgebiet
- Du hast mehr als 10 Jahre Erfahrung in SRE-, Plattform- oder Infrastruktur-Rollen
- Du hast praktische Erfahrung im Betrieb komplexer, latenzkritischer Algo-Trading- oder marktbezogener Systeme in Produktionsumgebungen
- Du hast mindestens 3 Jahre Erfahrung als DevOps- oder SRE-Engineer mit einem klaren Fokus auf Observability
- Du hast mindestens 3 Jahre Erfahrung als Softwareentwickler*in
- Du bist Expert*in in Kubernetes (bevorzugt AKS), einschließlich Cluster-Lebenszyklus, Netzwerk (CNI, Ingress, eBPF), HPA/VPA, Node-Autoscaling, PodDisruptionBudgets und Upgrades ohne Downtime
- Du hast tiefgehende Erfahrung mit Azure, einschließlich VNet-Design, Private Link/Endpoints, Peering, Routing, Managed Identity/Entra ID, Key Vault, Storage, Azure Monitor/Log Analytics, Front Door/Traffic Manager, Load Balancers, App Gateway und API Management
- Du beherrschst Terraform auf Expertenniveau – mit modularen Designs, State Management, Workspaces, Policies (OPA/Sentinel) und Pipeline-Integration
- Du kennst dich mit Containern und Software-Lieferketten aus – inklusive Docker/OCI, Image-Scanning und -Signierung, SBOMs und reproduzierbaren Builds
- Du bist vertraut mit Observability-Tools wie Prometheus und Grafana, beherrschst das Design von Alerts, OpenTelemetry-Tracing sowie Log-Pipelines und Aufbewahrungsstrategien
- Du hast praktische Erfahrung mit dem Betrieb und Tuning von Deltix-Komponenten (z. B. TimeBase, QuantOffice, Ember) in containerisierten, hochverfügbaren Umgebungen
- Du besitzt fundierte Kenntnisse in Netzwerktechnologien (L4/L7, TLS/mTLS, DNS, BGP-Grundlagen), Linux-Interna und Performance-Tuning für latenzkritische Services
- Du hast nachweisliche Erfahrung mit geo-redundanten Architekturen sowie der Planung und Durchführung von Disaster-Recovery-Tests
- Du kennst dich mit Marktdatenverteilung (Multicast/Unicast), FIX/OUCH/ITCH-Protokollen und Exchange-Connectivity aus
- Du bist sicher im Umgang mit GitHub Actions (oder ähnlichen CI/CD-Tools) und mindestens einer Programmiersprache wie Python oder C# für Tools und Diagnosen
- Du verfügst über ausgezeichnete Kommunikationsfähigkeiten und kannst durch Fachkompetenz und Einfluss führen
- Du sprichst fließend Englisch; Deutschkenntnisse sind von Vorteil
|