Juriskop

Wrap-up Teil 1: Unsere Forschungsarbeit

Das haben wir im Forschungsprojekt gemacht

In diesem Bei­trag möchten wir nach Abschluss unseres For­schungs­pro­jekts „Juri­skop“ einen aus­führ­li­chen Abriss dessen geben, was wir erforscht haben, welche Pro­to­typen wir ent­wi­ckelt haben und wie wir dabei vor­ge­gangen sind. Was wir dabei gelernt haben, fassen wir in Teil 2 unseres Wrap-ups zusammen.

Wer sich selbst ein Bild von den nach­fol­gend beschrie­benen Pro­to­typen machen möchte, kann das hier tun.

Recht­liche “Erste Hilfe” für Ukrainer/innen

Wir wollten gleich zu Beginn des For­schungs­pro­jekts ins doing und ins pro­to­ty­ping kommen. Also haben wir uns ein aktu­elles Thema aus­ge­wählt: den Ukraine-Krieg. Bereits im März 2022 ver­öf­fent­lichten wir einen ein­fa­chen Clickbot, der Per­sonen, die vom Ukraine-Krieg betroffen waren, bei recht­li­chen Fragen helfen sollte. Basie­rend auf einigen wenigen Angaben der Nut­zenden (z.B. Natio­na­lität und Zeit­punkt der Ein­reise nach Deutsch­land) erhielten sie pas­sende Infor­ma­tionen und Hand­lungs­emp­feh­lungen zu Themen wie Auf­ent­halts­dauer, Visums­pflicht und Sozialleistungen.

Das nötige Fach­wissen hatte unser Team zuvor durch juris­ti­sche Recher­chen aus Gesetzen, Recht­spre­chung, Fach­li­te­ratur und Behör­den­in­for­ma­tionen zusam­men­ge­tragen, unter­stützt von einer Würz­burger Migra­ti­ons­rechts-Expertin und meh­reren Refugee Law Cli­nics. Diese Inhalte wurden in Listen und Dia­grammen auf­be­reitet, mit­hilfe von Graph­da­ten­banken for­ma­li­siert und in den Clickbot integriert.

Anhand eigener Tests und Nutzer-Feed­backs haben wir den Bot bis Sep­tember 2022 tech­nisch und inhalt­lich wei­ter­ent­wi­ckelt. Mit der wach­senden Anzahl recht­li­cher Fra­ge­stel­lungen stieß der Clickbot jedoch ver­mehrt an seine Grenzen in Bezug auf Über­sicht­lich­keit und Effizienz.

Des­halb ent­wi­ckelten und tes­teten wir zum glei­chen Thema expe­ri­men­telle FAQ, von uns „smart FAQ“ getauft. Diese erwei­tern die klas­si­sche FAQ-Idee, indem sie zunächst zahl­reiche all­ge­mein gehal­tene Infor­ma­tionen und Emp­feh­lungen bereit­halten, den Nut­zenden aber die Mög­lich­keit geben, durch wenige indi­vi­du­elle Angaben (z.B. zu ihrer Natio­na­lität und Ein­reise nach Deutsch­land) die Texte zu kon­kre­ti­sieren, basie­rend auf dem von uns for­ma­li­sierten Fachwissen.

Erbrecht ganz ein­fach: Der Erbrechts-Bot

Als erstes grö­ßeres Rechts­thema haben wir die gesetz­liche Erb­folge aus­ge­wählt. Hierzu haben wir einen Bot ent­wi­ckelt, der auf Basis von Nutzer-Angaben zu Ver­wandt­schafts­ver­hält­nissen die gesetz­liche Erb­folge berechnen kann. Der Bot gibt also nach einem kurzen Dialog an, wer in der kon­kret ermit­telten Per­so­nen­kon­stel­la­tion etwas erben würde und zu wel­chen Anteilen. Außerdem können Nut­zende klären, inwie­weit diese Erb­folge ange­passt werden kann.

Zunächst haben wir umfas­sendes Wissen zum Thema Erbrecht gesam­melt und sys­te­ma­ti­siert. Dies umfasste rele­vante Geset­zes­texte, Bei­spiels­fälle und Urteile, die in Listen und Dia­grammen dar­ge­stellt wurden. Außerdem wurden die Kri­te­rien her­aus­ge­ar­beitet, die jeweils für die recht­liche Bewer­tung ent­schei­dend sind.

Das gesam­melte Wissen haben wir in der Prä­di­ka­ten­logik-Pro­gram­mier­sprache „Prolog“ for­ma­li­siert, da dieses System beson­ders gut geeignet ist, um kom­plexe juris­ti­sche Zusam­men­hänge und Bezie­hungen abzu­bilden. Zusätz­lich wurde eine von uns „Mono­to­nie­ga­rantie“ getaufte Kom­po­nente in Type­script ent­wi­ckelt, die es ermög­licht zu prüfen, welche wei­teren Infor­ma­tionen das aktu­elle Ergebnis noch beein­flussen könnten. Daraus kann abge­leitet werden, welche Fragen im Bot noch gestellt werden sollten, um den Sach­ver­halt umfas­send zu ermitteln.

Tech­nisch wurde in den ersten Chatbot-Pro­to­typen zunächst eine Sprach­ver­ar­bei­tungs­pipe­line imple­men­tiert, um freie Nutzer-Ein­gaben zu ver­ar­beiten. Diese Pipe­line beinhal­tete u.a. Par­tOfSpeech-Tag­ging und sollte die Nutzer-Ein­gaben sprach­lich umfas­send inter­pre­tieren und auf die recht­lich rele­vanten Kri­te­rien matchen. Leider hat sich in den ersten Tests und Eva­lu­ie­rungen her­aus­ge­stellt, dass die erfor­der­liche Qua­lität der Text­ana­lyse gerade bei uner­war­teten Ein­gaben nicht erreicht werden konnte und ande­rer­seits die Nut­zenden die bereit­ge­stellten Anlei­tungen und Bei­spiele auf­grund deren Umfangs häufig nicht wahr­nahmen oder befolgten. Zudem ten­dierten Test-Nut­zende dazu, auch Angaben zu für die Erb­folge irrele­vanten Per­sonen zu machen oder beschwerten sich dar­über, dass nicht ersicht­lich sei, welche Angaben für die recht­liche Bewer­tung noch rele­vant wären.

Des­halb haben wir in der Folge den Ansatz der freien Text­ein­gabe durch einen geführten Dialog ersetzt. Dieser Ansatz stellt sicher, dass nur die für die Erb­folge rele­vanten Fragen gestellt und die Nutzer-Ein­gaben auf das Nötige und Sinn­volle beschränkt werden, was die Dia­loge effi­zi­enter und benut­zer­freund­li­cher macht.

Der so ent­wi­ckelte Erb­rechts-Clickbot ermög­licht es Nut­zenden, durch Ant­worten auf gezielte Fragen einen Stamm­baum zu einer bestimmten Ver­wandt­schafts­kon­stel­la­tion zu ent­wi­ckeln, der kon­ti­nu­ier­lich die gesetz­liche Erb­folge und die Erb­an­teile berechnet. Die Nut­zenden können direkt im Stamm­baum Anpas­sungen vor­nehmen und nach Abschluss der Daten­ein­gabe bzw. Anpas­sungen ein aus­führ­li­ches Ergebnis ein­sehen, in dem die Erben und deren Anteile auf­ge­führt sind. Hier kann zudem geprüft werden, welche Anpas­sungen bzgl. dieses Ergeb­nisses mög­lich sind und welche recht­li­chen Beschrän­kungen hierfür zu beachten sind (z.B. keine Unter­schrei­tung des gesetz­li­chen Pflichtteils).

In einer spä­teren Phase des Pro­jekts wurde nach Ver­öf­fent­li­chung von ChatGPT noch eine zweite Vari­ante des Erb­rechts-Bots ent­wi­ckelt und öffent­lich gestellt: Eine Vari­ante mit den glei­chen Inhalten und Funk­tionen wie der Erb­rechts-Clickbot, aber mit einer auf einem Large Lan­guage Model (LLM) basie­renden Chat-Ein­ga­be­form. Hier können die Nut­zenden also in einem wei­terhin geführten Dialog, nun aber per freier Text­ein­gabe ihre Ant­worten auf die gestellten Fragen geben. Auch eine „Über­be­ant­wor­tung“ der Fragen ist mög­lich, also mehr Angaben in einer Ant­wort als abge­fragt wurden, in diesem Fall werden die wei­teren rele­vanten Fakten ebenso erkannt und verarbeitet.

Mit künst­li­cher Intel­li­genz in den Kampf gegen Hatespeech

Als zweites grö­ßeres Rechts­thema haben wir die mög­liche Straf­bar­keit von Hass­rede im Internet bzw. in sozialen Medien aus­ge­wählt. Für unseren Hate­speech-Bot „IsT­his­Ha­te­speech“ setzen wir auf eine Kom­bi­na­tion von KI (in Form eines LLMs) und regel­ba­sierter Logik, um Äuße­rungen für die Nut­zenden hin­sicht­lich einer mög­li­chen Straf­bar­keit zu analysieren:

Han­delt es sich in Deinem Fall um eine rechts­ver­let­zende Belei­di­gung (§ 185 StGB), Üble Nach­rede (§ 186 StGB) oder Ver­leum­dung (§ 187 StGB)? Unser Bot verrät es Dir!

Zu Beginn des Pro­jekts wurden die rele­vanten Delikte durch Ana­lyse von Geset­zes­texten, Fach­li­te­ratur und Recht­spre­chung umfas­send unter­sucht, um ein Prü­fungs­schema zu ent­wi­ckeln und die kri­ti­schen Merk­male zu iden­ti­fi­zieren, die über Straf­bar­keit oder Straf­lo­sig­keit ent­scheiden. Die Kom­ple­xität der Delikte erfor­derte eine For­ma­li­sie­rung der juris­ti­schen Logik, wofür Fluss­dia­gramme ver­wendet wurden, um die Struktur dieser Logik visuell dar­zu­stellen. Die Ent­wick­lung eines ein­heit­li­chen Prü­fungs­schemas für die §§ 185, 186 und 187 StGB ver­deut­lichte jedoch die Diver­genzen in juris­ti­schen Mei­nungen, die sich erheb­lich auf das Schema aus­wirken. Früh im Pro­jekt mussten wir sub­jek­tive Ent­schei­dungen treffen, die die Grund­lage für spä­tere recht­liche Bewer­tungen bildeten.

In einem zweiten Schritt erleich­terte uns diese sche­ma­ti­sche Erfas­sung die Über­tra­gung der Logik in eine kon­zen­trierte Kri­te­ri­en­liste. Sie ent­hält die ent­schei­denden Weg­ga­be­lungen in der Prü­fung der her­aus­ge­ar­bei­teten Merk­male und deren Definitionen.

Es folgte in einem dritten Schritt der Bau der juris­ti­schen Logik in Prolog anhand der Kri­te­ri­en­liste. Bei der Ska­lie­rung zeigte sich, dass die Umset­zung der Straf­tat­be­stände §§ 185, 186 und 187 StGB in Prolog-Code gut funk­tio­niert, für die Abbil­dung kom­ple­xerer Rechts­ge­biete jedoch abs­trak­tere Daten­struk­turen nötig sind. Par­allel wurden Über­le­gungen zur Bot-Ent­wick­lung ange­stellt, ins­be­son­dere welche Infor­ma­tionen die Nut­zenden benö­tigen. Es wurde deut­lich, dass Texte und Defi­ni­tionen klar und ein­fach kom­mu­ni­ziert werden müssen, um auch ohne juris­ti­sches Vor­wissen ver­ständ­lich zu sein, was die Balance zwi­schen juris­ti­scher Genau­ig­keit und Nut­zer­ver­ständ­lich­keit herausfordert.

Wäh­rend der Imple­men­tie­rungs­phase führte die Ver­öf­fent­li­chung von ChatGPT im November 2022 zu einem neuen Ent­wick­lungs­an­satz: die Nut­zung eines LLM für die Sub­sum­tion von Sach­ver­halten. Dabei standen zwei Methoden zur Ver­fü­gung: ent­weder die Nut­zenden aktiv in die Text­ana­lyse ein­zu­be­ziehen oder die Auf­gabe einem LLM zu über­lassen. Letz­terer Ansatz erwies sich als erfolg­reich und zukunfts­wei­send. Die recht­liche Bewer­tung von Äuße­rungs­de­likten, die stark vom Kon­text abhängig ist, pro­fi­tierte von detail­lier­terer Kon­text­ein­gabe durch die Nut­zenden, was zu prä­zi­seren Ergeb­nissen führte. Dies wäre mit rein regel­ba­sierter Logik und Ana­lyse-Ent­schei­dungen durch den Nut­zenden so nicht mög­lich gewesen. Wichtig ist es den „sweet spot“ zu finden, der mög­lichst viele Vor­teile der ein­zelnen Methoden und Tech­no­lo­gien kom­bi­niert und dabei deren Nach­teile vermeidet.

Juris­ti­sche Prü­fungs­schritte lassen sich für die KI gut abbilden, indem diese in klei­nere Unter­auf­gaben zer­legt werden und somit der klas­si­schen KI-Arbeits­weise ent­spre­chen. Es zeigte sich zudem, dass die Kom­bi­na­tion mit regel­ba­sierter For­ma­li­sie­rung enorme Vor­teile in der Kon­sis­tenz und Begrün­dung der Ant­worten bringt. Bspw. ist ChatGPT auf die kon­krete Auf­ga­ben­stel­lung hin über­wie­gend in der Lage zwi­schen Wert­ur­teilen und Tat­sa­chen­be­haup­tungen zu trennen. Die recht­liche Bewer­tung der ein­zelnen von ChatGPT iden­ti­fi­zierten Kri­te­rien und die daraus fol­gende Beur­tei­lung der mög­li­chen Straf­bar­keit der Äußerung(en) haben wir dann wieder unserer ver­läss­li­chen for­ma­li­sierten Logik überlassen.

Wir haben IsT­his­Ha­te­speech anhand von rund 80 diversen Fall­bei­spielen getestet. Aus­ge­wertet wurden Abwei­chungen zwi­schen unserer juris­ti­schen Ein­schät­zung fall­ent­schei­dender Merk­male und der Ana­lyse von ChatGPT. Durch chain-of-thought-promp­ting und wei­tere Ver­bes­se­rungen an unseren prompts konnten wir die Feh­ler­quote auf letzt­lich 13,5 % senken.

Um ein umfas­sendes Ver­ständnis von Hate­speech zu bieten, haben wir als nach­ge­la­gerte Ergän­zung zu IsT­his­Ha­te­speech noch den „Juri­skopBot“ ent­wi­ckelt, einen Clickbot, der auf Dis­kri­mi­nie­rungs­merk­male, wie z. B. Ras­sismus, prüft. Nach der Ana­lyse durch den Bot leiten wir Betrof­fene gezielt an spe­zi­fi­sche Hilfs­an­ge­bote und all­ge­meine Hilfs­stellen weiter, um sicher­zu­stellen, dass sie nach der Aus­wer­tung und Fest­stel­lung einer wahr­schein­li­chen Straf­bar­keit nicht allein gelassen werden.

File­sha­ring: voll­au­to­nome Rechtsberatung?

Bei unserem dritten grö­ßeren Rechts­thema ging es um die Bera­tung zu Urhe­ber­rechts­ver­let­zungen in Form von File­sha­ring. Wir haben hierfür einen Pro­totyp namens „Mahno-Mat“ ent­wi­ckelt, der die anwalt­liche Erst­be­ra­tung nach Erhalt eines Abmahn­schrei­bens wegen angeb­li­chen File­sha­rings vor­be­reitet – unter Aus­lo­tung des tech­ni­schen Poten­zials, diese irgend­wann sogar ganz zu auto­ma­ti­sieren. Hierfür werden zunächst die wich­tigsten Infor­ma­tionen aus dem Abmahn­schreiben erfasst und wei­tere Fall­in­for­ma­tionen von den Nut­zenden abge­fragt. Am Ende erhalten sie eine pas­sende recht­liche Ein­schät­zung und eine ent­spre­chende Emp­feh­lung zum wei­teren Vor­gehen, die sie dann noch gemäß ihrer Per­sön­lich­keit indi­vi­dua­li­sieren können.

Der Ent­wick­lungs­pro­zess des Pro­to­typen begann mit der sys­te­ma­ti­schen Model­lie­rung typi­scher Erst­be­ra­tungs­ge­spräche in der Kanzlei. Aus zahl­rei­chen echten Fällen wurden die häu­figsten Fragen, Ergeb­nisse und Ent­schei­dungs­pfade extra­hiert und in einem Fluss­dia­gramm sowie in Tabellen abge­bildet. Diese Ana­lyse bil­dete die Grund­lage für die Struktur des Mahno-Mat.

Zur auto­ma­ti­sierten Erfas­sung von Abmah­nungs­in­halten haben wir ein OCR-basiertes Ver­fahren ent­wi­ckelt und auf eine defi­nierte Menge rele­vanter Infor­ma­tionen zuge­schnitten. Diese beinhal­teten u.a. die abmah­nende Kanzlei, das Datum, Fristen, gefor­derte Beträge sowie die betrof­fenen Werke. Um die Genau­ig­keit des Ver­fah­rens zu eva­lu­ieren, wurden rund 20 echte Abmahn­schreiben pseud­ony­mi­siert und für Test­läufe herangezogen.

Die Struktur der Nut­zer­füh­rung bei der Sach­ver­halts­er­mitt­lung wurde so ent­worfen, dass Fragen effi­zient und adaptiv gestellt werden: all­ge­meine bzw. wich­tige Fragen zuerst, spe­zi­fi­sche nur bei Rele­vanz. Zudem werden den Nut­zenden zunächst nur die Fragen zu den in der Bera­tungs­praxis häufig beob­ach­teten Umständen gestellt. Erst in einem sepa­raten zweiten Schritt werden Son­der­kon­stel­la­tionen auf­ge­listet, etwa die Ver­jäh­rung von Ansprü­chen, die die recht­liche Bewer­tung ver­än­dert, aber in der Praxis sehr selten vor­kommt. Diese Aus­nah­me­fälle müssen nicht alle ein­zeln beant­wortet werden, son­dern werden ledig­lich auf­ge­listet und können über­flogen und bei Zutreffen bejaht werden.

Ein zen­trales wei­teres Ele­ment der Ent­wick­lung war die Über­set­zung juris­ti­scher Erfah­rungs­werte in ein for­ma­li­siertes Scoring-Ver­fahren. Dafür wurden aus Bera­tungs­ge­sprä­chen typi­sche Ent­schei­dungs­merk­male abge­leitet und mit Gewich­tungen ver­sehen. Diese wurden in Tabellen struk­tu­riert und dem System als Grund­lage für die Hand­lungs­emp­feh­lung zur Ver­fü­gung gestellt. Im Pro­to­typen addiert das Scoring-System dann die jewei­ligen Zah­len­werte für die ein­zelnen Fall­daten und Nut­zer­ant­worten. Es errechnet daraus u.a. einen Zah­len­wert für das Risiko, in diesem Fall ver­klagt zu werden, sowie einen Zah­len­wert für das Risiko, im Falle einer Klage vor Gericht zu ver­lieren. Eben­falls vor­de­fi­nierte Regeln ordnen nun den ermit­telten Risiko-Werten sowie den Fall­daten und Ant­worten eine ent­spre­chende, für diese Kon­stel­la­tion am besten pas­sende Hand­lungs­mög­lich­keit zu – diese wird für die Nut­zenden in der abschlie­ßenden Aus­wer­tung mit dem “Scoring”-Stern mar­kiert. So erhalten diese einen Anhalts­punkt, ob sie die in sol­chen Fällen meist gefor­derte Unter­las­sungs­er­klä­rung abgeben sollten und ob sie die eben­falls regel­mäßig gefor­derte Zah­lung ver­wei­gern könnten. 

Im Laufe der Ent­wick­lung und ersten Tests wurde deut­lich, dass Hand­lungs­ent­schei­dungen oft stark von der Per­sön­lich­keit der Rat­su­chenden abhängen. Daher haben wir in einem wei­teren Schritt ein Modul ergänzt, das indi­vi­du­elle Prä­fe­renzen – etwa Risi­ko­be­reit­schaft oder Ner­ven­kostüm – über gezielte Fragen erfasst. So können Nut­zende die vom Scoring-System errech­nete Hand­lungs­emp­feh­lung anhand ihrer kon­kreten Per­sön­lich­keit und indi­vi­du­ellen stra­te­gi­schen Über­le­gungen über­prüfen und ggf. anpassen lassen.

Zum Abschluss wurde im Mahno-Mat noch die Mög­lich­keit inte­griert, sich eine Fall­zu­sam­men­fas­sung zu gene­rieren, mit allen ermit­telten Daten und Infor­ma­tionen zum Fall und zur Abmah­nung, allen gege­benen Ant­worten und den erzeugten Emp­feh­lungen sowie Hand­lungs­al­ter­na­tiven. Die Fall­zu­sam­men­fas­sung wurde so gestaltet, dass sie in einer anwalt­li­chen Erst­be­ra­tung genutzt werden kann, um das Gespräch zu fokus­sieren und zu verkürzen.

Ein­satz von Large Lan­guage Models im juris­ti­schen Bereich

Direkt mit Ver­öf­fent­li­chung von ChatGPT im November 2022 stellte sich uns die Frage, wie wir der­ar­tige große Sprach­mo­delle in unserem For­schungs­pro­jekt ein­setzen könnten. Daher erforschten wir im Rahmen der Ent­wick­lung der ein­zelnen kon­kreten Pro­to­typen, wie oben beschrieben, an wel­chen Stellen LLMs wie ChatGPT gewinn­brin­gend ein­ge­bunden werden können. Außerdem haben wir ver­sucht, mit­tels Prompt Engi­nee­ring, Embed­ding und Fine­tu­ning die Ergeb­nisse der LLMs zu verbessern.

Dar­über hinaus wollten wir wissen, in wel­chem Umfang große Sprach­mo­delle gene­rell dazu in der Lage sind, typi­sche juris­ti­sche Tätig­keiten zu über­nehmen. Denn die Kern­fä­hig­keit von LLMs besteht ja darin, Texte zu ana­ly­sieren und zu ver­fassen. Das macht sie beson­ders inter­es­sant für Juristen, deren Leis­tung ja oft­mals gerade darin besteht, Sach­ver­halte zu begreifen und nach recht­li­cher Prü­fung Ein­schät­zungen oder Doku­mente in Text­form dazu zu erzeugen.

Getestet haben wir ins­be­son­dere die großen pro­prie­tären Modelle von OpenAI (ChatGPT) und Google (Gemini). Da diese aber aus recht­li­cher Sicht Pro­bleme in Bezug auf berufs­recht­liche Pflichten (v. a. den Schutz des Man­dats­ge­heim­nisses) und auf den Schutz per­so­nen­be­zo­gener Daten mit sich bringen, haben wir auch immer wieder frei ver­füg­bare Open-Source-Modelle auf den Prüf­stand gestellt, ins­be­son­dere von Meta (Llama) und Mis­tral (Mix­tral).

Um besser beur­teilen zu können, wie geeignet diese Modelle gerade für juris­ti­sche Tätig­keiten sind, haben wir drei ver­schie­dene Test­sze­na­rien vor­be­reitet: Die Beant­wor­tung juris­ti­scher Fra­ge­stel­lungen, die Extrak­tion von Infor­ma­tionen aus juris­ti­schen Doku­menten und die recht­liche Bewer­tung sol­cher Doku­mente. Für die Beant­wor­tung von Fragen haben wir ins­ge­samt 110 Mul­tiple-Choice-Fragen aus ver­schie­denen recht­li­chen Berei­chen zusam­men­ge­stellt, für die Infor­ma­ti­ons­extrak­tion und Bewer­tung haben wir ins­ge­samt je 25 Wider­rufs­be­leh­rungen, Geheim­hal­tungs­ver­ein­ba­rungen und Lizenz­ver­träge aus­ge­wählt und vor­be­reitet, zusätz­lich noch 25 Klau­seln mit Haf­tungs­aus­schlüssen zur Prü­fung der recht­li­chen Wirksamkeit.

Mit diesen Auf­ga­ben­stel­lungen bzw. Teil­mengen daraus haben wir die getes­teten Sprach­mo­delle kon­fron­tiert und konnten so deren Per­for­mance spe­ziell bei juris­ti­schen Tätig­keiten mit­ein­ander vergleichen.

Was wir aus der beschrie­benen For­schungs­ar­beit gelernt haben, lesen Sie in Teil 2 unseres Wrap-ups