Was dich erwartet
Als zentrale Figur im Data-Bereich gestaltest du die Infrastruktur, auf der unsere Legal-AI-Agenten basieren. Hunderttausende historische Rechtsfälle werden unter deiner Verantwortung in hochwertige, analysierbare Trainingsdaten überführt – die Grundlage für leistungsstarke, skalierbare Modelle.
- Ausbau unserer Databricks-/Delta-Lakehouse-Infrastruktur (AWS), Entwicklung von DSGVO-konformen Datenmodellen, Data Contracts und nachvollziehbarer Lineage
- Aufbau und Betrieb robuster ELT-Pipelines mit PySpark, dbt und Airflow – inklusive automatisierter Qualitätssicherung, Datenversionierung und Testabdeckung
- Konzeption und Leitung eines skalierbaren Annotationsprozesses: inklusive Tooling, Guidelines und QA für ein 20-köpfiges Paralegal-Team
- Aufbau transparenter, datengetriebener Dashboards (z. B. mit Tableau) zur Erkennung von Bias, Datenlücken und Modellrisiken – adressiert an C-Level und Fachteams
- Entwicklung von Goldstandards, adversarial Testsets und Metriken für Faithfulness, Zitationsgenauigkeit und Alignment – zur systematischen Evaluierung unserer KI-Agenten
- Verantwortung für den RLHF-Datenloop: von der Kuratierung menschlichen Feedbacks über Reward-Modelle bis zur Überwachung von Alignment-Metriken
- Führung, Mentoring und Weiterentwicklung des Data-Teams sowie enge Abstimmung mit AI Engineers, insbesondere bei der Integration von RAG-Workflows und LLM-Evaluation