Du wirst Teil eines agilen Teams in der Softwareentwicklung im Digital & Print Solution Center (DPSC), welches für die Entwicklung komplexer, individueller und eng an die spezifischen Wünsche und Anforderungen unserer Kunden ausgerichteten Softwarelösungen in diesem Geschäftsfeld verantwortlich ist. Du übernimmst dabei schwerpunktmäßig Aufgaben um Umfeld des anstehenden Technologieshifts in die Cloud und erarbeitest zusammen mit den Mitgliedern der neu gegründeten Projektgruppe Lösungen für die Transformation der DPSC-IT-Landschaft im Rahmen der DATEV-Cloudstartegie.
Das sind die Aufgaben
- Du bringst dein SRE-Know-how in unsere Dev- und Plattform-Teams ein und etablierst teamübergreifend praktikable Site Reliability Engineering Practices (z. B. SLOs, Error Budgets, Toil-Reduktion, Postmortems).
- Du gestaltest aktiv unsere Betriebsarchitektur und DevOps-Prozesse mit, um gemeinsam Verfügbarkeit, Performance, Robustheit, Kosteneffizienz sowie Compliance (Sicherheit, Datenschutz) nachhaltig sicherzustellen.
- Du wirkst im täglichen Betrieb unserer Plattformen, 3rd-Party-Lösungen und produktiven Services mit und förderst systematische Operational Excellence.
- Du identifizierst und automatisierst Toil, entwickelst Standards für Observability, CI/CD und Incident Response – und stärkst so unsere Engineering Productivity und Reliability Culture.
Das suchen wir
Erforderliche Skills
- Du verfügst über praktische Erfahrung in On-Premises-zu-Cloud-Migrationen, idealerweise mit Fokus auf Skalierung, Sicherheit und Governance.
- Du besitzt fundierte Kenntnisse im Umgang mit Cloud-Plattformen (z. B. AWS, Azure, GCP) und Infrastructure as Code (z. B. Terraform).
- Du hast Erfahrung im Konfigurationsmanagement (z. B. Ansible).
- Du verfügst über Praxiserfahrung in der Arbeit mit Container-Technologien (z. B. Podman, Kubernetes).
- Du bist erfahren im Aufbau und Betrieb von CI/CD-Pipelines (z. B. GitLab CI, GitHub Actions).
- Du besitzt fundierte Kenntnisse in Observability: Du gestaltest Monitoring, Logging und Tracing aktiv mit und verfügst über Erfahrung in der Auswahl, Einführung und Weiterentwicklung entsprechender Lösungen – einschließlich Metrikdefinition, Alerting-Standards und Dashboarding.
- Du hast solides Know-how in der Administration von Windows-Systemen sowie ein tiefes Verständnis von Netzwerktechnologien (TCP/IP, DNS, Routing, Firewalls).
Erlernbare Skills
- Du erlernst den Einsatz von Cloud-native Tools (z. B. Service Mesh, KEDA, Flux) im täglichen Doing und erlangst Kenntnisse im Umgang mit relationalen Datenbanken (z. B. PostgreSQL, Microsoft SQL Server).
- Du erarbeitest Dir Erfahrung mit Secret Management (z. B. HashiCorp Vault).
- Du erlangst Vertrautheit mit den Prinzipien von Site Reliability Engineering, insbesondere der Definition und Messung von SLIs, SLOs und SLAs, sowie in der Automatisierung und Optimierung der Systemresilienz.
Das bieten wir
- Möglichkeit zur Arbeit im "Homeoffice" im Sinne einer mobilen, ortsunabhängigen Arbeit innerhalb Deutschlands inkl. der dazugehörigen technischen Ausstattung
- Flexible Arbeitszeit inkl. der Möglichkeit zum Freizeitausgleich für eine gute Work-Life-Balance
- Großes Angebot an fachlichen und persönlichen Weiterbildungen innerhalb und außerhalb der Arbeitszeit sowie zahlreiche interne Communities zum Vernetzen und gegenseitigen Lernen