Senior Data Scientist (m/w/d)

Permanent employee, Full-time · Berlin, Hybrid

Read job description in:
Was dich erwartet
Als zentrale Figur im Data-Bereich gestaltest du die Infrastruktur, auf der unsere Legal-AI-Agenten basieren. Hunderttausende historische Rechtsfälle werden unter deiner Verantwortung in hochwertige, analysierbare Trainingsdaten überführt – die Grundlage für leistungsstarke, skalierbare Modelle.
  • Ausbau unserer Databricks-/Delta-Lakehouse-Infrastruktur (AWS), Entwicklung von DSGVO-konformen Datenmodellen, Data Contracts und nachvollziehbarer Lineage
  • Aufbau und Betrieb robuster ELT-Pipelines mit PySpark, dbt und Airflow – inklusive automatisierter Qualitätssicherung, Datenversionierung und Testabdeckung
  • Konzeption und Leitung eines skalierbaren Annotationsprozesses: inklusive Tooling, Guidelines und QA für ein 20-köpfiges Paralegal-Team
  • Aufbau transparenter, datengetriebener Dashboards (z. B. mit Tableau) zur Erkennung von Bias, Datenlücken und Modellrisiken – adressiert an C-Level und Fachteams
  • Entwicklung von Goldstandards, adversarial Testsets und Metriken für Faithfulness, Zitationsgenauigkeit und Alignment – zur systematischen Evaluierung unserer KI-Agenten
  • Verantwortung für den RLHF-Datenloop: von der Kuratierung menschlichen Feedbacks über Reward-Modelle bis zur Überwachung von Alignment-Metriken
  • Führung, Mentoring und Weiterentwicklung des Data-Teams sowie enge Abstimmung mit AI Engineers, insbesondere bei der Integration von RAG-Workflows und LLM-Evaluation
Was du mitbringst
  • Abgeschlossenes Master- oder Promotionsstudium in Data Science, Statistik, Informatik o. ä.
  • Mindestens 7 Jahre Erfahrung mit großskaligen Data-Plattformen, idealerweise auf Basis von Databricks/Delta Lake
  • Fleißende Englischkenntnisse
  • Nachgewiesene Expertise im Aufbau von Annotation-Workflows mit mindestens 10 FTE und Integration in ML-Prozesse
  • Tiefes technisches Verständnis von Python, SQL, PySpark und modernen ETL-Standards; sicher im Umgang mit statistischen Tests und experimentellem Design
  • Kenntnisse in Vektordatenbanken (z. B. Weaviate, pgvector), LLM-Evaluation und Human-in-the-Loop-Prozessen
  • Routine im Umgang mit AWS (S3, Glue, IAM, Lambda) sowie Infrastructure as Code (z. B. Terraform oder Pulumi)
  • Sehr gutes Verständnis für Datenschutz, Datensicherheit und regulatorische Rahmenbedingungen (DSGVO)
  • Wünschenswert: Erfahrung mit juristischen Textkorpora sowie gute Deutschkenntnisse
Was wir versprechen
Arbeitsumgebung & Flexibilität
  • Office-First Company mit der Möglichkeit, 1 Tag pro Woche mobil zu arbeiten
  • Modernes, klimatisiertes Büro mit viel Tageslicht
  • Zentrale Lage zwischen Gleisdreieck & Potsdamer Platz mit sehr guter Anbindung
  • Große Dachterrasse mit atemberaubendem Blick über Berlin
Benefits
  • Freie Getränke, frisches Obst und Müsli
  • 100 % Übernahme eines Deutschlandtickets für deine Mobilität
  • Dein Hund ist ein Teamplayer? Perfekt! Wir freuen uns über tierische Unterstützung im Büro.
  • Corporate Benefits Account mit attraktiven Angeboten & Rabatten für viele Marken
  • Firmenevents und Teamevents, weil uns Zusammenhalt wichtig ist
  • Betriebliche Altersvorsorge mit 20 % Arbeitgeberanteil – wir denken mit dir an die Zukunft
  • Spiel & Spaß nach Feierabend: Nintendo Switch, PS5, Dart & Tischkicker warten auf dich
Unternehmenskultur & Zusammenarbeit
  • Agiles und modernes Mindset – offene Kommunikation – jede Stimme zählt 
  • Spannende Aufgabengebiete: praxistaugliches juristisches Wissen
  • Wir bieten spannende Aufgaben und praxistaugliches juristisches Wissen – du kannst unsere Reise aktiv mitgestalten.
  • Feedback ist bei uns keine Floskel, sondern ein echter Gamechanger: Wir setzen auf gemeinsames Wachstum.
Schneller Bewerbungsprozess:
  • Schnelle Rückmeldung
  • Ca. 20-minütiges Telefonat mit Recruitingteam /HR
  • Ca. 60-minütiges Kennenlernen der Vorgesetzten und des Teams vor Ort
  • ca. 30- minütiges Kennenlernen des Managements
  • Danach erhältst du dein Angebot
Über uns
Legalhero ist die moderne Plattform für Rechtsschutzversicherungen und Anwälte. Wir verfolgen das ehrgeizige Ziel, die Schadensfallabwicklung von Rechtsschutzversicherungen zu revolutionieren. Dazu integrieren wir uns direkt in die Systeme der Versicherer. Unsere Partneranwälte wickeln die Fälle hocheffizient und kundenorientiert auf unserer Tech-Plattform mit Hilfe von KI ab. Legalhero wurde 2017 gegründet und hat bis heute hunderttausenden von Versicherungsnehmern geholfen. Unsere ca. 90 Kollegen sitzen in Berlin, nahe dem Gleisdreieck. 
 
Ein inklusives, gleichberechtigtes und diskriminierungsfreies Arbeitsumfeld ist für uns selbstverständlich. Wenn du eine Beeinträchtigung oder spezielle Bedürfnisse haben solltest und während des Bewerbungsprozesses spezielle Unterstützung benötigst, teile es uns gerne mit.
What You'll Do
As a key player in our data team, you will design and develop the backbone infrastructure that powers our Legal AI agents. You’ll be responsible for transforming hundreds of thousands of historical legal cases into clean, high-quality training data — the foundation for building powerful and scalable AI models.
  • Expand and optimize our Databricks/Delta Lakehouse environment on AWS, crafting GDPR-compliant data models, data contracts, and clear data lineage
  • Build and maintain robust ELT pipelines using PySpark, dbt, and Airflow, including automated quality checks, dataset versioning, and comprehensive testing
  • Lead the design and management of a scalable annotation process, including tooling, guidelines, and quality assurance for a team of 20 paralegals
  • Develop transparent, data-driven dashboards (e.g., Tableau) to detect bias, data gaps, and model risks — providing actionable insights to executives and specialist teams
  • Define gold standards, adversarial test sets, and evaluation metrics for faithfulness, citation accuracy, and model alignment to ensure rigorous AI agent validation
  • Own the Reinforcement Learning from Human Feedback (RLHF) data cycle: curate human feedback datasets, train reward models, and monitor alignment metrics
  • Lead, mentor, and grow the data team while collaborating closely with AI engineers on RAG workflows and LLM evaluation
What you bring
  • Master’s or PhD degree in Data Science, Statistics, Computer Science, or a related field
  • 7+ years experience designing and operating large-scale data platforms, preferably with Databricks/Delta Lake or equivalent lakehouse technologies
  • Fluent English skills — German is a plus
  • Proven track record in managing annotation workflows with 10+ FTEs and integrating labeled data into machine learning pipelines
  • Strong expertise in Python, SQL, PySpark, and modern ETL best practices; solid foundation in statistics and experimental design
  • Experience with vector databases (e.g., Weaviate, pgvector), LLM evaluation, and human-in-the-loop ML processes
  • Hands-on familiarity with AWS (S3, Glue, IAM, Lambda) and Infrastructure as Code tools such as Terraform or Pulumi
  • Deep understanding of data privacy, security, and regulatory requirements (GDPR)
  • Bonus: experience with legal text corpora
What we promise
Flexible & Inspiring Work Environment
  • Office-first culture with one remote workday per week
  • Modern, air-conditioned office flooded with natural light
  • Prime location in Berlin Mitte between Gleisdreieck and Potsdamer Platz with excellent transport links
  • Spacious rooftop terrace with panoramic views over Berlin
Great Benefits
  • Complimentary beverages, fresh fruit, and snacks
  • Full coverage of your Deutschlandticket for hassle-free commuting
  • Pet-friendly office — bring your dog to work!
  • Corporate benefits platform offering exclusive discounts and deals
  • Regular company and team events to foster community spirit
  • Generous company pension plan with 20% employer contribution
  • After-work fun: Nintendo Switch, PS5, darts, and table football
Culture & Collaboration
  • Agile mindset and open communication — every voice matters
  • Meaningful projects combining cutting-edge tech and practical legal expertise
  • A feedback culture that drives real personal and professional growth
Hiring Process
  • Quick feedback turnaround
  • 20-minute phone interview with recruiting/HR
  • 60-minute on-site interview with your future manager and team
  • 30-minute meeting with management
  • Prompt job offer
About us
Legalhero is the modern platform for legal protection insurance and lawyers. We pursue the ambitious goal of revolutionizing the claims settlement process for legal protection insurance. To this end, we integrate directly into the insurers' systems. Our partner lawyers handle cases highly efficiently and in a customer-oriented manner on our tech platform with the help of AI. Legalhero was founded in 2017 and has helped hundreds of thousands of policyholders to date. Our approximately 90 colleagues are based in Berlin, near the Gleisdreieck. 
 
An inclusive, equal, and non-discriminatory work environment is a matter of course for us. If you have a disability or special needs and require special support during the application process, please let us know.
Your application!
Wir freuen uns sehr über dein Interesse an Legalhero. Bitte fülle das nachstehende Bewerbungsformular aus, dann landet deine Bewerbung gleich an der richtigen Stelle. Sollte es technische Schwierigkeiten geben, schreibe uns gern an karriere@legalhero.de.
Uploading document. Please wait.
Please add all mandatory information with a * to send your application.