Wrap-up Teil 1: Unsere Forschungsarbeit

Das haben wir im Forschungsprojekt gemacht

In diesem Beitrag möchten wir nach Abschluss unseres Forschungsprojekts „Juriskop“ einen ausführlichen Abriss dessen geben, was wir erforscht haben, welche Prototypen wir entwickelt haben und wie wir dabei vorgegangen sind. Was wir dabei gelernt haben, fassen wir in Teil 2 unseres Wrap-ups zusammen.

Wer sich selbst ein Bild von den nachfolgend beschriebenen Prototypen machen möchte, kann das hier tun.

Rechtliche “Erste Hilfe” für Ukrainer/innen

Wir wollten gleich zu Beginn des Forschungsprojekts ins doing und ins prototyping kommen. Also haben wir uns ein aktuelles Thema ausgewählt: den Ukraine-Krieg. Bereits im März 2022 veröffentlichten wir einen einfachen Clickbot, der Personen, die vom Ukraine-Krieg betroffen waren, bei rechtlichen Fragen helfen sollte. Basierend auf einigen wenigen Angaben der Nutzenden (z.B. Nationalität und Zeitpunkt der Einreise nach Deutschland) erhielten sie passende Informationen und Handlungsempfehlungen zu Themen wie Aufenthaltsdauer, Visumspflicht und Sozialleistungen.

Das nötige Fachwissen hatte unser Team zuvor durch juristische Recherchen aus Gesetzen, Rechtsprechung, Fachliteratur und Behördeninformationen zusammengetragen, unterstützt von einer Würzburger Migrationsrechts-Expertin und mehreren Refugee Law Clinics. Diese Inhalte wurden in Listen und Diagrammen aufbereitet, mithilfe von Graphdatenbanken formalisiert und in den Clickbot integriert.

Anhand eigener Tests und Nutzer-Feedbacks haben wir den Bot bis September 2022 technisch und inhaltlich weiterentwickelt. Mit der wachsenden Anzahl rechtlicher Fragestellungen stieß der Clickbot jedoch vermehrt an seine Grenzen in Bezug auf Übersichtlichkeit und Effizienz.

Deshalb entwickelten und testeten wir zum gleichen Thema experimentelle FAQ, von uns „smart FAQ“ getauft. Diese erweitern die klassische FAQ-Idee, indem sie zunächst zahlreiche allgemein gehaltene Informationen und Empfehlungen bereithalten, den Nutzenden aber die Möglichkeit geben, durch wenige individuelle Angaben (z.B. zu ihrer Nationalität und Einreise nach Deutschland) die Texte zu konkretisieren, basierend auf dem von uns formalisierten Fachwissen.

Erbrecht ganz einfach: Der Erbrechts-Bot

Als erstes größeres Rechtsthema haben wir die gesetzliche Erbfolge ausgewählt. Hierzu haben wir einen Bot entwickelt, der auf Basis von Nutzer-Angaben zu Verwandtschaftsverhältnissen die gesetzliche Erbfolge berechnen kann. Der Bot gibt also nach einem kurzen Dialog an, wer in der konkret ermittelten Personenkonstellation etwas erben würde und zu welchen Anteilen. Außerdem können Nutzende klären, inwieweit diese Erbfolge angepasst werden kann.

Zunächst haben wir umfassendes Wissen zum Thema Erbrecht gesammelt und systematisiert. Dies umfasste relevante Gesetzestexte, Beispielsfälle und Urteile, die in Listen und Diagrammen dargestellt wurden. Außerdem wurden die Kriterien herausgearbeitet, die jeweils für die rechtliche Bewertung entscheidend sind.

Das gesammelte Wissen haben wir in der Prädikatenlogik-Programmiersprache „Prolog“ formalisiert, da dieses System besonders gut geeignet ist, um komplexe juristische Zusammenhänge und Beziehungen abzubilden. Zusätzlich wurde eine von uns „Monotoniegarantie“ getaufte Komponente in Typescript entwickelt, die es ermöglicht zu prüfen, welche weiteren Informationen das aktuelle Ergebnis noch beeinflussen könnten. Daraus kann abgeleitet werden, welche Fragen im Bot noch gestellt werden sollten, um den Sachverhalt umfassend zu ermitteln.

Technisch wurde in den ersten Chatbot-Prototypen zunächst eine Sprachverarbeitungspipeline implementiert, um freie Nutzer-Eingaben zu verarbeiten. Diese Pipeline beinhaltete u.a. PartOfSpeech-Tagging und sollte die Nutzer-Eingaben sprachlich umfassend interpretieren und auf die rechtlich relevanten Kriterien matchen. Leider hat sich in den ersten Tests und Evaluierungen herausgestellt, dass die erforderliche Qualität der Textanalyse gerade bei unerwarteten Eingaben nicht erreicht werden konnte und andererseits die Nutzenden die bereitgestellten Anleitungen und Beispiele aufgrund deren Umfangs häufig nicht wahrnahmen oder befolgten. Zudem tendierten Test-Nutzende dazu, auch Angaben zu für die Erbfolge irrelevanten Personen zu machen oder beschwerten sich darüber, dass nicht ersichtlich sei, welche Angaben für die rechtliche Bewertung noch relevant wären.

Deshalb haben wir in der Folge den Ansatz der freien Texteingabe durch einen geführten Dialog ersetzt. Dieser Ansatz stellt sicher, dass nur die für die Erbfolge relevanten Fragen gestellt und die Nutzer-Eingaben auf das Nötige und Sinnvolle beschränkt werden, was die Dialoge effizienter und benutzerfreundlicher macht.

Der so entwickelte Erbrechts-Clickbot ermöglicht es Nutzenden, durch Antworten auf gezielte Fragen einen Stammbaum zu einer bestimmten Verwandtschaftskonstellation zu entwickeln, der kontinuierlich die gesetzliche Erbfolge und die Erbanteile berechnet. Die Nutzenden können direkt im Stammbaum Anpassungen vornehmen und nach Abschluss der Dateneingabe bzw. Anpassungen ein ausführliches Ergebnis einsehen, in dem die Erben und deren Anteile aufgeführt sind. Hier kann zudem geprüft werden, welche Anpassungen bzgl. dieses Ergebnisses möglich sind und welche rechtlichen Beschränkungen hierfür zu beachten sind (z.B. keine Unterschreitung des gesetzlichen Pflichtteils).

In einer späteren Phase des Projekts wurde nach Veröffentlichung von ChatGPT noch eine zweite Variante des Erbrechts-Bots entwickelt und öffentlich gestellt: Eine Variante mit den gleichen Inhalten und Funktionen wie der Erbrechts-Clickbot, aber mit einer auf einem Large Language Model (LLM) basierenden Chat-Eingabeform. Hier können die Nutzenden also in einem weiterhin geführten Dialog, nun aber per freier Texteingabe ihre Antworten auf die gestellten Fragen geben. Auch eine „Überbeantwortung“ der Fragen ist möglich, also mehr Angaben in einer Antwort als abgefragt wurden, in diesem Fall werden die weiteren relevanten Fakten ebenso erkannt und verarbeitet.

Mit künstlicher Intelligenz in den Kampf gegen Hatespeech

Als zweites größeres Rechtsthema haben wir die mögliche Strafbarkeit von Hassrede im Internet bzw. in sozialen Medien ausgewählt. Für unseren Hatespeech-Bot „IsThisHatespeech“ setzen wir auf eine Kombination von KI (in Form eines LLMs) und regelbasierter Logik, um Äußerungen für die Nutzenden hinsichtlich einer möglichen Strafbarkeit zu analysieren:

Handelt es sich in Deinem Fall um eine rechtsverletzende Beleidigung (§ 185 StGB), Üble Nachrede (§ 186 StGB) oder Verleumdung (§ 187 StGB)? Unser Bot verrät es Dir!

Zu Beginn des Projekts wurden die relevanten Delikte durch Analyse von Gesetzestexten, Fachliteratur und Rechtsprechung umfassend untersucht, um ein Prüfungsschema zu entwickeln und die kritischen Merkmale zu identifizieren, die über Strafbarkeit oder Straflosigkeit entscheiden. Die Komplexität der Delikte erforderte eine Formalisierung der juristischen Logik, wofür Flussdiagramme verwendet wurden, um die Struktur dieser Logik visuell darzustellen. Die Entwicklung eines einheitlichen Prüfungsschemas für die §§ 185, 186 und 187 StGB verdeutlichte jedoch die Divergenzen in juristischen Meinungen, die sich erheblich auf das Schema auswirken. Früh im Projekt mussten wir subjektive Entscheidungen treffen, die die Grundlage für spätere rechtliche Bewertungen bildeten.

In einem zweiten Schritt erleichterte uns diese schematische Erfassung die Übertragung der Logik in eine konzentrierte Kriterienliste. Sie enthält die entscheidenden Weggabelungen in der Prüfung der herausgearbeiteten Merkmale und deren Definitionen.

Es folgte in einem dritten Schritt der Bau der juristischen Logik in Prolog anhand der Kriterienliste. Bei der Skalierung zeigte sich, dass die Umsetzung der Straftatbestände §§ 185, 186 und 187 StGB in Prolog-Code gut funktioniert, für die Abbildung komplexerer Rechtsgebiete jedoch abstraktere Datenstrukturen nötig sind. Parallel wurden Überlegungen zur Bot-Entwicklung angestellt, insbesondere welche Informationen die Nutzenden benötigen. Es wurde deutlich, dass Texte und Definitionen klar und einfach kommuniziert werden müssen, um auch ohne juristisches Vorwissen verständlich zu sein, was die Balance zwischen juristischer Genauigkeit und Nutzerverständlichkeit herausfordert.

Während der Implementierungsphase führte die Veröffentlichung von ChatGPT im November 2022 zu einem neuen Entwicklungsansatz: die Nutzung eines LLM für die Subsumtion von Sachverhalten. Dabei standen zwei Methoden zur Verfügung: entweder die Nutzenden aktiv in die Textanalyse einzubeziehen oder die Aufgabe einem LLM zu überlassen. Letzterer Ansatz erwies sich als erfolgreich und zukunftsweisend. Die rechtliche Bewertung von Äußerungsdelikten, die stark vom Kontext abhängig ist, profitierte von detaillierterer Kontexteingabe durch die Nutzenden, was zu präziseren Ergebnissen führte. Dies wäre mit rein regelbasierter Logik und Analyse-Entscheidungen durch den Nutzenden so nicht möglich gewesen. Wichtig ist es den „sweet spot“ zu finden, der möglichst viele Vorteile der einzelnen Methoden und Technologien kombiniert und dabei deren Nachteile vermeidet.

Juristische Prüfungsschritte lassen sich für die KI gut abbilden, indem diese in kleinere Unteraufgaben zerlegt werden und somit der klassischen KI-Arbeitsweise entsprechen. Es zeigte sich zudem, dass die Kombination mit regelbasierter Formalisierung enorme Vorteile in der Konsistenz und Begründung der Antworten bringt. Bspw. ist ChatGPT auf die konkrete Aufgabenstellung hin überwiegend in der Lage zwischen Werturteilen und Tatsachenbehauptungen zu trennen. Die rechtliche Bewertung der einzelnen von ChatGPT identifizierten Kriterien und die daraus folgende Beurteilung der möglichen Strafbarkeit der Äußerung(en) haben wir dann wieder unserer verlässlichen formalisierten Logik überlassen.

Wir haben IsThisHatespeech anhand von rund 80 diversen Fallbeispielen getestet. Ausgewertet wurden Abweichungen zwischen unserer juristischen Einschätzung fallentscheidender Merkmale und der Analyse von ChatGPT. Durch chain-of-thought-prompting und weitere Verbesserungen an unseren prompts konnten wir die Fehlerquote auf letztlich 13,5 % senken.

Um ein umfassendes Verständnis von Hatespeech zu bieten, haben wir als nachgelagerte Ergänzung zu IsThisHatespeech noch den „JuriskopBot“ entwickelt, einen Clickbot, der auf Diskriminierungsmerkmale, wie z. B. Rassismus, prüft. Nach der Analyse durch den Bot leiten wir Betroffene gezielt an spezifische Hilfsangebote und allgemeine Hilfsstellen weiter, um sicherzustellen, dass sie nach der Auswertung und Feststellung einer wahrscheinlichen Strafbarkeit nicht allein gelassen werden.

Filesharing: vollautonome Rechtsberatung?

Bei unserem dritten größeren Rechtsthema ging es um die Beratung zu Urheberrechtsverletzungen in Form von Filesharing. Wir haben hierfür einen Prototyp namens „Mahno-Mat“ entwickelt, der die anwaltliche Erstberatung nach Erhalt eines Abmahnschreibens wegen angeblichen Filesharings vorbereitet – unter Auslotung des technischen Potenzials, diese irgendwann sogar ganz zu automatisieren. Hierfür werden zunächst die wichtigsten Informationen aus dem Abmahnschreiben erfasst und weitere Fallinformationen von den Nutzenden abgefragt. Am Ende erhalten sie eine passende rechtliche Einschätzung und eine entsprechende Empfehlung zum weiteren Vorgehen, die sie dann noch gemäß ihrer Persönlichkeit individualisieren können.

Der Entwicklungsprozess des Prototypen begann mit der systematischen Modellierung typischer Erstberatungsgespräche in der Kanzlei. Aus zahlreichen echten Fällen wurden die häufigsten Fragen, Ergebnisse und Entscheidungspfade extrahiert und in einem Flussdiagramm sowie in Tabellen abgebildet. Diese Analyse bildete die Grundlage für die Struktur des Mahno-Mat.

Zur automatisierten Erfassung von Abmahnungsinhalten haben wir ein OCR-basiertes Verfahren entwickelt und auf eine definierte Menge relevanter Informationen zugeschnitten. Diese beinhalteten u. a. die abmahnende Kanzlei, das Datum, Fristen, geforderte Beträge sowie die betroffenen Werke. Um die Genauigkeit des Verfahrens zu evaluieren, wurden rund 20 echte Abmahnschreiben pseudonymisiert und für Testläufe herangezogen.

Die Struktur der Nutzerführung bei der Sachverhaltsermittlung wurde so entworfen, dass Fragen effizient und adaptiv gestellt werden: allgemeine bzw. wichtige Fragen zuerst, spezifische nur bei Relevanz. Zudem werden den Nutzenden zunächst nur die Fragen zu den in der Beratungspraxis häufig beobachteten Umständen gestellt. Erst in einem separaten zweiten Schritt werden Sonderkonstellationen aufgelistet, etwa die Verjährung von Ansprüchen, die die rechtliche Bewertung verändert, aber in der Praxis sehr selten vorkommt. Diese Ausnahmefälle müssen nicht alle einzeln beantwortet werden, sondern werden lediglich aufgelistet und können überflogen und bei Zutreffen bejaht werden.

Ein zentrales weiteres Element der Entwicklung war die Übersetzung juristischer Erfahrungswerte in ein formalisiertes Scoring-Verfahren. Dafür wurden aus Beratungsgesprächen typische Entscheidungsmerkmale abgeleitet und mit Gewichtungen versehen. Diese wurden in Tabellen strukturiert und dem System als Grundlage für die Handlungsempfehlung zur Verfügung gestellt. Im Prototypen addiert das Scoring-System dann die jeweiligen Zahlenwerte für die einzelnen Falldaten und Nutzerantworten. Es errechnet daraus u.a. einen Zahlenwert für das Risiko, in diesem Fall verklagt zu werden, sowie einen Zahlenwert für das Risiko, im Falle einer Klage vor Gericht zu verlieren. Ebenfalls vordefinierte Regeln ordnen nun den ermittelten Risiko-Werten sowie den Falldaten und Antworten eine entsprechende, für diese Konstellation am besten passende Handlungsmöglichkeit zu – diese wird für die Nutzenden in der abschließenden Auswertung mit dem “Scoring”-Stern markiert. So erhalten diese einen Anhaltspunkt, ob sie die in solchen Fällen meist geforderte Unterlassungserklärung abgeben sollten und ob sie die ebenfalls regelmäßig geforderte Zahlung verweigern könnten.

Im Laufe der Entwicklung und ersten Tests wurde deutlich, dass Handlungsentscheidungen oft stark von der Persönlichkeit der Ratsuchenden abhängen. Daher haben wir in einem weiteren Schritt ein Modul ergänzt, das individuelle Präferenzen – etwa Risikobereitschaft oder Nervenkostüm – über gezielte Fragen erfasst. So können Nutzende die vom Scoring-System errechnete Handlungsempfehlung anhand ihrer konkreten Persönlichkeit und individuellen strategischen Überlegungen überprüfen und ggf. anpassen lassen.

Zum Abschluss wurde im Mahno-Mat noch die Möglichkeit integriert, sich eine Fallzusammenfassung zu generieren, mit allen ermittelten Daten und Informationen zum Fall und zur Abmahnung, allen gegebenen Antworten und den erzeugten Empfehlungen sowie Handlungsalternativen. Die Fallzusammenfassung wurde so gestaltet, dass sie in einer anwaltlichen Erstberatung genutzt werden kann, um das Gespräch zu fokussieren und zu verkürzen.

Einsatz von Large Language Models im juristischen Bereich

Direkt mit Veröffentlichung von ChatGPT im November 2022 stellte sich uns die Frage, wie wir derartige große Sprachmodelle in unserem Forschungsprojekt einsetzen könnten. Daher erforschten wir im Rahmen der Entwicklung der einzelnen konkreten Prototypen, wie oben beschrieben, an welchen Stellen LLMs wie ChatGPT gewinnbringend eingebunden werden können. Außerdem haben wir versucht, mittels Prompt Engineering, Embedding und Finetuning die Ergebnisse der LLMs zu verbessern.

Darüber hinaus wollten wir wissen, in welchem Umfang große Sprachmodelle generell dazu in der Lage sind, typische juristische Tätigkeiten zu übernehmen. Denn die Kernfähigkeit von LLMs besteht ja darin, Texte zu analysieren und zu verfassen. Das macht sie besonders interessant für Juristen, deren Leistung ja oftmals gerade darin besteht, Sachverhalte zu begreifen und nach rechtlicher Prüfung Einschätzungen oder Dokumente in Textform dazu zu erzeugen.

Getestet haben wir insbesondere die großen proprietären Modelle von OpenAI (ChatGPT) und Google (Gemini). Da diese aber aus rechtlicher Sicht Probleme in Bezug auf berufsrechtliche Pflichten (v. a. den Schutz des Mandatsgeheimnisses) und auf den Schutz personenbezogener Daten mit sich bringen, haben wir auch immer wieder frei verfügbare Open-Source-Modelle auf den Prüfstand gestellt, insbesondere von Meta (Llama) und Mistral (Mixtral).

Um besser beurteilen zu können, wie geeignet diese Modelle gerade für juristische Tätigkeiten sind, haben wir drei verschiedene Testszenarien vorbereitet: Die Beantwortung juristischer Fragestellungen, die Extraktion von Informationen aus juristischen Dokumenten und die rechtliche Bewertung solcher Dokumente. Für die Beantwortung von Fragen haben wir insgesamt 110 Multiple-Choice-Fragen aus verschiedenen rechtlichen Bereichen zusammengestellt, für die Informationsextraktion und Bewertung haben wir insgesamt je 25 Widerrufsbelehrungen, Geheimhaltungsvereinbarungen und Lizenzverträge ausgewählt und vorbereitet, zusätzlich noch 25 Klauseln mit Haftungsausschlüssen zur Prüfung der rechtlichen Wirksamkeit.

Mit diesen Aufgabenstellungen bzw. Teilmengen daraus haben wir die getesteten Sprachmodelle konfrontiert und konnten so deren Performance speziell bei juristischen Tätigkeiten miteinander vergleichen.

Was wir aus der beschriebenen Forschungsarbeit gelernt haben, lesen Sie in Teil 2 unseres Wrap-ups …