In diesem Beitrag wollen wir nach Abschluss unseres Forschungsprojekts „Juriskop“ einen Überblick darüber geben, was unsere wichtigsten Forschungsergebnisse und Erkenntnisse aus dem Projekt sind.
Was wir genau erforscht haben, welche Prototypen wir entwickelt und welche LLMs wir getestet haben und wie wir dabei jeweils vorgegangen sind, haben wir in Teil 1 unseres Wrap-ups zusammengefasst. Unsere Prototypen selbst können hier angesehen und getestet werden.
Überblick über unsere 10 wichtigsten Learnings
Unsere Learnings zur Formalisierung von juristischem Wissen
Im Rahmen unseres Forschungsprojekts haben wir untersucht, inwieweit juristische Fragestellungen automatisiert bearbeitet werden können. Dabei zeigt sich: In klar strukturierten Rechtsgebieten wie z.B. der gesetzlichen Erbfolge ist eine Automatisierung bereits heute sehr gut möglich. Auch komplexere Bereiche, in denen unbestimmte Rechtsbegriffe, Abwägungen oder Bewertungen aus einer Gesamtschau aller Einzelfallumstände eine Rolle spielen – etwa bei der Strafbarkeit einer Beleidigung – lassen sich ansatzweise automatisieren, indem Kriterien, Beispiele und Abwägungsschritte ebenfalls formalisiert werden. Generell hilft die Aufteilung einer juristischen Prüfung in einzelne Schritte wie z.B. Sachverhalt, Definition und Subsumtion – ein Vorgehen, das sich insbesondere auch bei der Nutzung von LLMs als hilfreich erweist.
Zur Abbildung juristischer Wissensstrukturen eignet sich die Prädikatenlogik sehr gut, manchmal genügt jedoch bereits eine strukturierte Darstellung in Tabellen oder Diagrammen, um Wissen systematisch aufzubereiten und in Systeme einzubinden. Lösungen gibt es dabei auch für den Umgang mit Unsicherheiten, sei es auf Nutzerseite oder aus rechtlicher Sicht.
Visualisierungen haben uns enorm geholfen bei der Formalisierung (z.B. die Darstellung einer Prüfungsreihenfolge in Flussdiagrammen). Wir haben so das zusammengetragene juristische Wissen zunächst strukturiert, um es dann in Prädikatenlogik oder einzelne Konstellationen und Bedingungen-Ergebnisse-Beziehungen für eine Tabelle übersetzen zu können.
Allerdings bleibt die Formalisierung juristischen Wissens bislang mit viel Handarbeit und damit mit hohem Aufwand verbunden. Eine automatisierte Auswertung von Gesetzen, Urteilen und Literatur ist derzeit kaum möglich, da es an standardisierten Strukturen fehlt. Hier könnten künftig leistungsfähigere LLMs Abhilfe schaffen – vorausgesetzt, ihre Ergebnisse werden verlässlicher und nachvollziehbarer.
Unsere Learnings zur Implementierung von juristischem Wissen in Bots
Insgesamt hat das Projekt gezeigt, dass in verschiedensten Bereichen sehr viel Wissen in Chat- oder Clickbots automatisiert nutzbar gemacht werden kann. Und das auch bei komplexen Fragestellungen (siehe Hatespeech-Thema) oder bei einer umfassenden Beratung inkl. nicht rein juristischer Aspekte wie strategischen Erwägungen, Risikoabwägungen und individuellen Vorlieben (siehe Filesharing-Thema).
Ein entscheidender Unterschied zwischen automatisierter Beratung durch solche Bots und der klassischen anwaltlichen Beratung „face-to-face“ wurde uns in den Anfängen des Erbrechts-Bots schmerzlich bewusst: Bei einer Bot-Beratung kann der Nutzende frei entscheiden, ob und welche Hinweistexte er liest – im Gegensatz zur Beratung in Person, bei der er zumindest in den Grenzen der Höflichkeit gezwungen ist, sich die anwaltlichen Hinweise und Belehrungen anzuhören. So stellte sich für uns überraschend deutlich heraus, dass Nutzende bei einem Bot nur sehr sehr wenige Hinweise zu lesen bereit sind. Ein solches System sollte also von der Textfülle her so schlank wie möglich daherkommen, bestenfalls selbsterklärend zu bedienen sein, wichtige Hinweise müssen auf das absolut Nötigste reduziert werden und Hilfestellungen am besten lediglich angeboten werden (etwa als Mouseover- oder klickbare Info-Texte).
Dabei stehen wir Juristen immer wieder vor Zielkonflikten, u.a. zwischen juristischer Vollständigkeit/Korrektheit und Laienverständlichkeit sowie zwischen Transparenz und lesbarem Umfang der Informationen.
Ein weiterer zentraler Aspekt im Projekt war die Wahl der geeigneten Bot-Form. Unsere Erfahrungen im Projekt haben uns gezeigt, dass Chatbots oder Systeme mit LLM-Einbindung gar nicht immer das Nonplusultra sind. Aus unserer Sicht entfalten Chatbots ihre Stärken bei komplexen, dialogischen Sachverhalten – etwa wenn viele Varianten und Antwortmöglichkeiten bestehen, wenn unstrukturierter Input verarbeitet oder juristisch anspruchsvolle Kriterien abgefragt bzw. oftmals Nachfragen gestellt werden müssen. Clickbots hingegen eignen sich sehr gut bei klar umrissenen, von Nutzenden einfach zu beantwortenden Fragestellungen, bei geringer Komplexität und wenn eine enge Userführung gefragt ist. Die von uns im Projekt entwickelte Idee von „Smart FAQ“ kommt in Frage bei einfachen, klaren Sachverhalten, die aber eine große Menge von Ergebnissen bzw. Fragestellungen umfassen, bei denen also Clickbots grundsätzlich geeignet wären, aber aufgrund der Menge unübersichtlich und ineffizient werden würden.
Dabei zeigt sich: Es gibt nicht DIE eine richtige Technik oder Methode. Je nach Anwendungsfall ist oftmals auch eine Kombination verschiedener Ansätze und Techniken sinnvoll – etwa die Nutzung eines LLMs zur Sachverhaltsermittlung im Dialog, gefolgt von einer wissensbasierten Bewertung anhand festgelegter juristischer Logik, so geschehen etwa bei unseren Prototypen zu Erbrecht und Hatespeech.
Wer es schafft, den „sweet spot“ zwischen den o.g. Ziele sowie den unterschiedlichen Methoden und Techniken zu finden – also ihre jeweiligen Stärken zu kombinieren und die Schwächen zu minimieren – kann in kurzer Zeit beeindruckende, effektive und zugleich rechtlich belastbare Anwendungen entwickeln.
Unsere Learnings zum Einsatz von LLMs im juristischen Bereich
Unsere umfangreichen Tests haben uns gezeigt, dass die „großen“ Large Language Models (70 Milliarden Parameter oder mehr) sehr gut in der Lage sind, deutsche Texte zu schreiben und zu verstehen. Auch das Erfassen von Rechtsnormen und Gesetzestexten gelingt meist, wie auch das Antworten auf Fragen hierzu. So konnte ChatGPT 4o aus knapp 88 % unserer Test-Dokumente den richtigen Inhalt extrahieren und diesen rechtlich einordnen, auch das Open-Source-Modell Llama 3.3 70B kam auf einen ähnlichen Wert. Nicht so leicht taten sich die Sprachmodelle mit Multiple-Choice-Fragen zu Rechtsthemen, von denen selbst das beste getestete LLM nicht mehr als 75 % richtig beantworten konnte. Vor allem Fragen zu konkreten rechtlichen Begrifflichkeiten und nach Handlungsempfehlungen gelangen nicht immer.
Insgesamt lagen bei unseren Tests ChatGPT und Gemini vorne, es gab aber auch Open Source Modelle mit sehr brauchbaren Ergebnissen, allen voran DeepSeek, das sogar das Niveau von ChatGPT erreichen konnte.
Hier ein Auszug aus unserer Auswertung: