Senior Data Scientist (m/w/d)

Festanstellung, Vollzeit · Berlin, Hybrid

Was dich erwartet

Als zentrale Figur im Data-Bereich gestaltest du die Infrastruktur, auf der unsere Legal-AI-Agenten basieren. Hunderttausende historische Rechtsfälle werden unter deiner Verantwortung in hochwertige, analysierbare Trainingsdaten überführt – die Grundlage für leistungsstarke, skalierbare Modelle.

Ausbau unserer Databricks-/Delta-Lakehouse-Infrastruktur (AWS), Entwicklung von DSGVO-konformen Datenmodellen, Data Contracts und nachvollziehbarer Lineage
Aufbau und Betrieb robuster ELT-Pipelines mit PySpark, dbt und Airflow – inklusive automatisierter Qualitätssicherung, Datenversionierung und Testabdeckung
Konzeption und Leitung eines skalierbaren Annotationsprozesses: inklusive Tooling, Guidelines und QA für ein 20-köpfiges Paralegal-Team
Aufbau transparenter, datengetriebener Dashboards (z. B. mit Tableau) zur Erkennung von Bias, Datenlücken und Modellrisiken – adressiert an C-Level und Fachteams
Entwicklung von Goldstandards, adversarial Testsets und Metriken für Faithfulness, Zitationsgenauigkeit und Alignment – zur systematischen Evaluierung unserer KI-Agenten
Verantwortung für den RLHF-Datenloop: von der Kuratierung menschlichen Feedbacks über Reward-Modelle bis zur Überwachung von Alignment-Metriken
Führung, Mentoring und Weiterentwicklung des Data-Teams sowie enge Abstimmung mit AI Engineers, insbesondere bei der Integration von RAG-Workflows und LLM-Evaluation

Was du mitbringst

Abgeschlossenes Master- oder Promotionsstudium in Data Science, Statistik, Informatik o. ä.
Mindestens 7 Jahre Erfahrung mit großskaligen Data-Plattformen, idealerweise auf Basis von Databricks/Delta Lake
Fleißende Englischkenntnisse
Nachgewiesene Expertise im Aufbau von Annotation-Workflows mit mindestens 10 FTE und Integration in ML-Prozesse
Tiefes technisches Verständnis von Python, SQL, PySpark und modernen ETL-Standards; sicher im Umgang mit statistischen Tests und experimentellem Design
Kenntnisse in Vektordatenbanken (z. B. Weaviate, pgvector), LLM-Evaluation und Human-in-the-Loop-Prozessen
Routine im Umgang mit AWS (S3, Glue, IAM, Lambda) sowie Infrastructure as Code (z. B. Terraform oder Pulumi)
Sehr gutes Verständnis für Datenschutz, Datensicherheit und regulatorische Rahmenbedingungen (DSGVO)
Wünschenswert: Erfahrung mit juristischen Textkorpora sowie gute Deutschkenntnisse

Was wir versprechen

Arbeitsumgebung & Flexibilität

Office-First Company mit der Möglichkeit, 1 Tag pro Woche mobil zu arbeiten
Modernes, klimatisiertes Büro mit viel Tageslicht
Zentrale Lage zwischen Gleisdreieck & Potsdamer Platz mit sehr guter Anbindung
Große Dachterrasse mit atemberaubendem Blick über Berlin

Benefits

Freie Getränke, frisches Obst und Müsli
100 % Übernahme eines Deutschlandtickets für deine Mobilität
Dein Hund ist ein Teamplayer? Perfekt! Wir freuen uns über tierische Unterstützung im Büro.
Corporate Benefits Account mit attraktiven Angeboten & Rabatten für viele Marken
Firmenevents und Teamevents, weil uns Zusammenhalt wichtig ist
Betriebliche Altersvorsorge mit 20 % Arbeitgeberanteil – wir denken mit dir an die Zukunft
Spiel & Spaß nach Feierabend: Nintendo Switch, PS5, Dart & Tischkicker warten auf dich

Unternehmenskultur & Zusammenarbeit

Agiles und modernes Mindset – offene Kommunikation – jede Stimme zählt
Spannende Aufgabengebiete: praxistaugliches juristisches Wissen
Wir bieten spannende Aufgaben und praxistaugliches juristisches Wissen – du kannst unsere Reise aktiv mitgestalten.
Feedback ist bei uns keine Floskel, sondern ein echter Gamechanger: Wir setzen auf gemeinsames Wachstum.

Schneller Bewerbungsprozess:

Schnelle Rückmeldung
Ca. 20-minütiges Telefonat mit Recruitingteam /HR
Ca. 60-minütiges Kennenlernen der Vorgesetzten und des Teams vor Ort
ca. 30- minütiges Kennenlernen des Managements
Danach erhältst du dein Angebot

Auf diese Stelle bewerben

Über uns

Legalhero ist die moderne Plattform für Rechtsschutzversicherungen und Anwälte. Wir verfolgen das ehrgeizige Ziel, die Schadensfallabwicklung von Rechtsschutzversicherungen zu revolutionieren. Dazu integrieren wir uns direkt in die Systeme der Versicherer. Unsere Partneranwälte wickeln die Fälle hocheffizient und kundenorientiert auf unserer Tech-Plattform mit Hilfe von KI ab. Legalhero wurde 2017 gegründet und hat bis heute hunderttausenden von Versicherungsnehmern geholfen. Unsere ca. 90 Kollegen sitzen in Berlin, nahe dem Gleisdreieck.

Ein inklusives, gleichberechtigtes und diskriminierungsfreies Arbeitsumfeld ist für uns selbstverständlich. Wenn du eine Beeinträchtigung oder spezielle Bedürfnisse haben solltest und während des Bewerbungsprozesses spezielle Unterstützung benötigst, teile es uns gerne mit.

What You'll Do

As a key player in our data team, you will design and develop the backbone infrastructure that powers our Legal AI agents. You’ll be responsible for transforming hundreds of thousands of historical legal cases into clean, high-quality training data — the foundation for building powerful and scalable AI models.

Expand and optimize our Databricks/Delta Lakehouse environment on AWS, crafting GDPR-compliant data models, data contracts, and clear data lineage
Build and maintain robust ELT pipelines using PySpark, dbt, and Airflow, including automated quality checks, dataset versioning, and comprehensive testing
Lead the design and management of a scalable annotation process, including tooling, guidelines, and quality assurance for a team of 20 paralegals
Develop transparent, data-driven dashboards (e.g., Tableau) to detect bias, data gaps, and model risks — providing actionable insights to executives and specialist teams
Define gold standards, adversarial test sets, and evaluation metrics for faithfulness, citation accuracy, and model alignment to ensure rigorous AI agent validation
Own the Reinforcement Learning from Human Feedback (RLHF) data cycle: curate human feedback datasets, train reward models, and monitor alignment metrics
Lead, mentor, and grow the data team while collaborating closely with AI engineers on RAG workflows and LLM evaluation

What you bring

Master’s or PhD degree in Data Science, Statistics, Computer Science, or a related field
7+ years experience designing and operating large-scale data platforms, preferably with Databricks/Delta Lake or equivalent lakehouse technologies
Fluent English skills — German is a plus
Proven track record in managing annotation workflows with 10+ FTEs and integrating labeled data into machine learning pipelines
Strong expertise in Python, SQL, PySpark, and modern ETL best practices; solid foundation in statistics and experimental design
Experience with vector databases (e.g., Weaviate, pgvector), LLM evaluation, and human-in-the-loop ML processes
Hands-on familiarity with AWS (S3, Glue, IAM, Lambda) and Infrastructure as Code tools such as Terraform or Pulumi
Deep understanding of data privacy, security, and regulatory requirements (GDPR)
Bonus: experience with legal text corpora

What we promise

Flexible & Inspiring Work Environment

Office-first culture with one remote workday per week
Modern, air-conditioned office flooded with natural light
Prime location in Berlin Mitte between Gleisdreieck and Potsdamer Platz with excellent transport links
Spacious rooftop terrace with panoramic views over Berlin

Great Benefits

Complimentary beverages, fresh fruit, and snacks
Full coverage of your Deutschlandticket for hassle-free commuting
Pet-friendly office — bring your dog to work!
Corporate benefits platform offering exclusive discounts and deals
Regular company and team events to foster community spirit
Generous company pension plan with 20% employer contribution
After-work fun: Nintendo Switch, PS5, darts, and table football

Culture & Collaboration

Agile mindset and open communication — every voice matters
Meaningful projects combining cutting-edge tech and practical legal expertise
A feedback culture that drives real personal and professional growth

Hiring Process

Quick feedback turnaround
20-minute phone interview with recruiting/HR
60-minute on-site interview with your future manager and team
30-minute meeting with management
Prompt job offer

Auf diese Stelle bewerben

About us

Legalhero is the modern platform for legal protection insurance and lawyers. We pursue the ambitious goal of revolutionizing the claims settlement process for legal protection insurance. To this end, we integrate directly into the insurers' systems. Our partner lawyers handle cases highly efficiently and in a customer-oriented manner on our tech platform with the help of AI. Legalhero was founded in 2017 and has helped hundreds of thousands of policyholders to date. Our approximately 90 colleagues are based in Berlin, near the Gleisdreieck.

An inclusive, equal, and non-discriminatory work environment is a matter of course for us. If you have a disability or special needs and require special support during the application process, please let us know.

Auf diese Stelle bewerben

Wir freuen uns auf dich.

Wir freuen uns sehr über dein Interesse an Legalhero. Bitte fülle das nachstehende Bewerbungsformular aus, dann landet deine Bewerbung gleich an der richtigen Stelle. Sollte es technische Schwierigkeiten geben, schreibe uns gern an karriere@legalhero.de.