In diesem Beitrag wollen wir nach Abschluss unseres Forschungsprojekts „Juriskop“ einen Überblick darüber geben, was unsere wichtigsten Forschungsergebnisse und Erkenntnisse aus dem Projekt sind.
Was wir genau erforscht haben, welche Prototypen wir entwickelt und welche LLMs wir getestet haben und wie wir dabei jeweils vorgegangen sind, haben wir in Teil 1 unseres Wrap-ups zusammengefasst. Unsere Prototypen selbst können hier angesehen und getestet werden.
Überblick über unsere 10 wichtigsten Learnings
Unsere Learnings zur Formalisierung von juristischem Wissen
Im Rahmen unseres Forschungsprojekts haben wir untersucht, inwieweit juristische Fragestellungen automatisiert bearbeitet werden können. Dabei zeigt sich: In klar strukturierten Rechtsgebieten wie z.B. der gesetzlichen Erbfolge ist eine Automatisierung bereits heute sehr gut möglich. Auch komplexere Bereiche, in denen unbestimmte Rechtsbegriffe, Abwägungen oder Bewertungen aus einer Gesamtschau aller Einzelfallumstände eine Rolle spielen – etwa bei der Strafbarkeit einer Beleidigung – lassen sich ansatzweise automatisieren, indem Kriterien, Beispiele und Abwägungsschritte ebenfalls formalisiert werden. Generell hilft die Aufteilung einer juristischen Prüfung in einzelne Schritte wie z.B. Sachverhalt, Definition und Subsumtion – ein Vorgehen, das sich insbesondere auch bei der Nutzung von LLMs als hilfreich erweist.
Zur Abbildung juristischer Wissensstrukturen eignet sich die Prädikatenlogik sehr gut, manchmal genügt jedoch bereits eine strukturierte Darstellung in Tabellen oder Diagrammen, um Wissen systematisch aufzubereiten und in Systeme einzubinden. Lösungen gibt es dabei auch für den Umgang mit Unsicherheiten, sei es auf Nutzerseite oder aus rechtlicher Sicht.
Visualisierungen haben uns enorm geholfen bei der Formalisierung (z.B. die Darstellung einer Prüfungsreihenfolge in Flussdiagrammen). Wir haben so das zusammengetragene juristische Wissen zunächst strukturiert, um es dann in Prädikatenlogik oder einzelne Konstellationen und Bedingungen-Ergebnisse-Beziehungen für eine Tabelle übersetzen zu können.
Allerdings bleibt die Formalisierung juristischen Wissens bislang mit viel Handarbeit und damit mit hohem Aufwand verbunden. Eine automatisierte Auswertung von Gesetzen, Urteilen und Literatur ist derzeit kaum möglich, da es an standardisierten Strukturen fehlt. Hier könnten künftig leistungsfähigere LLMs Abhilfe schaffen – vorausgesetzt, ihre Ergebnisse werden verlässlicher und nachvollziehbarer.
Unsere Learnings zur Implementierung von juristischem Wissen in Bots
Insgesamt hat das Projekt gezeigt, dass in verschiedensten Bereichen sehr viel Wissen in Chat- oder Clickbots automatisiert nutzbar gemacht werden kann. Und das auch bei komplexen Fragestellungen (siehe Hatespeech-Thema) oder bei einer umfassenden Beratung inkl. nicht rein juristischer Aspekte wie strategischen Erwägungen, Risikoabwägungen und individuellen Vorlieben (siehe Filesharing-Thema).
Ein entscheidender Unterschied zwischen automatisierter Beratung durch solche Bots und der klassischen anwaltlichen Beratung „face-to-face“ wurde uns in den Anfängen des Erbrechts-Bots schmerzlich bewusst: Bei einer Bot-Beratung kann der Nutzende frei entscheiden, ob und welche Hinweistexte er liest – im Gegensatz zur Beratung in Person, bei der er zumindest in den Grenzen der Höflichkeit gezwungen ist, sich die anwaltlichen Hinweise und Belehrungen anzuhören. So stellte sich für uns überraschend deutlich heraus, dass Nutzende bei einem Bot nur sehr sehr wenige Hinweise zu lesen bereit sind. Ein solches System sollte also von der Textfülle her so schlank wie möglich daherkommen, bestenfalls selbsterklärend zu bedienen sein, wichtige Hinweise müssen auf das absolut Nötigste reduziert werden und Hilfestellungen am besten lediglich angeboten werden (etwa als Mouseover- oder klickbare Info-Texte).
Dabei stehen wir Juristen immer wieder vor Zielkonflikten, u.a. zwischen juristischer Vollständigkeit/Korrektheit und Laienverständlichkeit sowie zwischen Transparenz und lesbarem Umfang der Informationen.
Ein weiterer zentraler Aspekt im Projekt war die Wahl der geeigneten Bot-Form. Unsere Erfahrungen im Projekt haben uns gezeigt, dass Chatbots oder Systeme mit LLM-Einbindung gar nicht immer das Nonplusultra sind. Aus unserer Sicht entfalten Chatbots ihre Stärken bei komplexen, dialogischen Sachverhalten – etwa wenn viele Varianten und Antwortmöglichkeiten bestehen, wenn unstrukturierter Input verarbeitet oder juristisch anspruchsvolle Kriterien abgefragt bzw. oftmals Nachfragen gestellt werden müssen. Clickbots hingegen eignen sich sehr gut bei klar umrissenen, von Nutzenden einfach zu beantwortenden Fragestellungen, bei geringer Komplexität und wenn eine enge Userführung gefragt ist. Die von uns im Projekt entwickelte Idee von „Smart FAQ“ kommt in Frage bei einfachen, klaren Sachverhalten, die aber eine große Menge von Ergebnissen bzw. Fragestellungen umfassen, bei denen also Clickbots grundsätzlich geeignet wären, aber aufgrund der Menge unübersichtlich und ineffizient werden würden.
Dabei zeigt sich: Es gibt nicht DIE eine richtige Technik oder Methode. Je nach Anwendungsfall ist oftmals auch eine Kombination verschiedener Ansätze und Techniken sinnvoll – etwa die Nutzung eines LLMs zur Sachverhaltsermittlung im Dialog, gefolgt von einer wissensbasierten Bewertung anhand festgelegter juristischer Logik, so geschehen etwa bei unseren Prototypen zu Erbrecht und Hatespeech.
Wer es schafft, den „sweet spot“ zwischen den o.g. Ziele sowie den unterschiedlichen Methoden und Techniken zu finden – also ihre jeweiligen Stärken zu kombinieren und die Schwächen zu minimieren – kann in kurzer Zeit beeindruckende, effektive und zugleich rechtlich belastbare Anwendungen entwickeln.
Unsere Learnings zum Einsatz von LLMs im juristischen Bereich
Unsere umfangreichen Tests haben uns gezeigt, dass die „großen“ Large Language Models (70 Milliarden Parameter oder mehr) sehr gut in der Lage sind, deutsche Texte zu schreiben und zu verstehen. Auch das Erfassen von Rechtsnormen und Gesetzestexten gelingt meist, wie auch das Antworten auf Fragen hierzu. So konnte ChatGPT 4o aus knapp 88 % unserer Test-Dokumente den richtigen Inhalt extrahieren und diesen rechtlich einordnen, auch das Open-Source-Modell Llama 3.3 70B kam auf einen ähnlichen Wert. Nicht so leicht taten sich die Sprachmodelle mit Multiple-Choice-Fragen zu Rechtsthemen, von denen selbst das beste getestete LLM nicht mehr als 75 % richtig beantworten konnte. Vor allem Fragen zu konkreten rechtlichen Begrifflichkeiten und nach Handlungsempfehlungen gelangen nicht immer.
Insgesamt lagen bei unseren Tests ChatGPT und Gemini vorne, es gab aber auch Open Source Modelle mit sehr brauchbaren Ergebnissen, allen voran DeepSeek, das sogar das Niveau von ChatGPT erreichen konnte.
Hier ein Auszug aus unserer Auswertung:
„Bewertung gesamt“ in dieser Auswertung quantifiziert unsere subjektive Einschätzung, in welchem Umfang ein LLM die gestellten Aufgaben vollständig und korrekt bearbeitet hat, insbesondere um die LLMs untereinander insgesamt vergleichen zu können.
Verbesserungen konnten wir durch Finetuning erzielen: Beispielhaft haben wir einen Datensatz mit 25 Haftungsausschlüssen aus AGB bzw. Verträgen erstellt und in diesem angegeben, warum die einzelnen Klauseln wirksam sind oder nicht. Daraus sollten die LLMs lernen und ihr neu gewonnenes Wissen auf andere Klauseln anwenden. Das klappte zumindest bei kleineren Modellen selbst mit diesem kleinen Datensatz erstaunlich gut: Llama 3.1 8B erkannte vor dem Finetuning nur etwa die Hälfte der Klauseln richtig und konnte seine Fehlerquote durch das Finetuning immerhin um 16 % reduzieren. Der Output umfangreich vortrainierter Modelle wie ChatGPT 4o blieb durch unser Finetuning weitgehend unverändert, war aber auch vorher schon sehr gut.
Zudem lässt sich der Output von LLMs mittels RAG (Retrieval-Augmented Generation) verbessern, konkret z.B. durch die Einbindung von Beispiel-Dokumenten oder Dateien mit einschlägigem Fachwissen.
Und schließlich lässt sich der Output meist durch Anpassungen am prompt verbessern. Wir haben in unseren Tests etwa mit folgenden Maßnahmen positive Erfahrungen gemacht:
Beim prompting sollte man sich allerdings auf das Nötige beschränken, da in unseren Tests zu umfangreiche prompts die Ergebnisse regelmäßig verschlechtert haben.
Unsere Learnings aus den Evaluierungen unserer Bot-Prototypen
Zu guter Letzt möchten wir – zur Unterfütterung der bisherigen, eher allgemein gehaltenen Erkenntnisse – unsere Learnings aus den Evaluierungen unserer konkreten Prototypen zu den Themen Erbrecht, Hatespeech und Filesharing darstellen:
Zur finalen Evaluation wurden externe Personen über verschiedene Kanäle (persönliches Umfeld des Forschungsteams, Social Media, Flyer in Würzburger Fakultäten und Mensen) auf die 4 von uns entwickelten Prototypen aufmerksam gemacht und gebeten, diese zu testen und zu evaluieren. Um den Einstieg zu erleichtern, standen für die Erbrechts- und den Filesharing-Prototypen jeweils Fallbeispiel-Generatoren bereit, mit denen sich fiktive Szenarien zur Nutzung erzeugen ließen. Im Ergebnis konnten bis Ende des Projektzeitraums insgesamt mind. 993 Testnutzungen und 139 Evaluierungen verzeichnet werden.
Das Feedback zu den abgefragten Kriterien war insgesamt sehr positiv, einzig im Bereich zusätzlicher Hilfestellungen zeigte sich noch Verbesserungsbedarf, außerdem wurde die Frage, ob der jeweilige Bot spezialisierte Anwält*innen ersetzen kann, uneinheitlich beantwortet. Zu allen Prototypen wurde (zum Teil sehr deutlich) überwiegend bejaht, dass der Bot weiterempfehlt werden würde.
Hier ein Überblick über unsere Auswertung der abgefragten Kriterien:
Die positive Gesamtbewertung spiegelt sich auch im Durchschnitt der abgefragten Gesamtnoten wider:
Bei der Evaluation konnte schließlich noch individuelles Feedback in Freitextfeldern gegeben werden (Positives/Negatives), woraus weitere Erkenntnisse gewonnen wurden.
Beim Erbrechts-Bot wurde die Clickbot-Variante wegen Bedienbarkeit und Effizienz bevorzugt, während die LLM-Variante u.a. für die Möglichkeit von Rückfragen und komplexen Eingaben gelobt wurde. Etwa doppelt so viele Nutzende bevorzugten unter dem Strich den Clickbot, einige aber eben auch die LLM-Variante. Eine sehr wertvolle, mehrfach geäußerte Anregung war, beide Ansätze zu kombinieren. Wir halten das für sehr vielversprechend, etwa in einer Ausgestaltung einer Sachverhaltsermittlung als geführter Dialog mit Elementen zum Klicken, parallel dazu aber auch ein Chat, um Rückfragen zu stellen oder komplexere Eingaben zu machen.
Zum Hatespeech-Bot wurde ebenfalls vieles gelobt. Als konstruktive Kritik wurde u.a. angemerkt, dass laienverständlichere Formulierungen, mehr Hilfestellungen und individuellere Erklärungen wünschenswert seien. Probleme wurden außerdem bei speziellen Kontexten, etwa Ironie oder Sarkasmus, erkannt, was die uns bereits bekannten Grenzen der Sachverhaltsanalyse durch ein LLM bestätigte.
Beim Filesharing-Bot wurde – neben vielen positiven und bestätigenden Feedbacks – ebenfalls der Wunsch nach mehr Hilfestellungen und Informationen sowie mehr Transparenz geäußert, insbesondere hinsichtlich der Informationsextraktion aus der Abmahnung sowie mit Blick auf die rechtliche Auswertung und Empfehlung.
Fazit/Ausblick
Unser Forschungsprojekt „Juriskop“ ist erfolgreich abgeschlossen. Wir nehmen unzählige wertvolle Erkenntnisse und Learnings mit und werden darauf aufbauend hoffentlich dazu beitragen können, die rechtliche Beratung hier und da aus den verstaubten Besprechungs- und Anwaltszimmern in die moderne Welt der Bots und LLMs (und was da noch so auf uns zukommen mag) zu führen.
Man darf gespannt sein …