I uge 17 har vores sprogmodel været i træningslejr. Vi er nemlig nået til den næste og måske vigtigste fase i projektet – annotering. Til opgaven har vi lånt 4 friske kontorelever i Sønderborg Kommune, som gik energisk og effektivt til opgaven.
Hvad er annotering?
Annotering handler om at klargøre data til træning. Helt konkret har processen været at få vores annoteringsflok til at gennemgå tekster fra tidligere aktindsigter, og sætte små tags på forskellige typer af oplysninger (entiteter). Det har blandt andet været navne, adresser og helbredsoplysninger (i en bred forstand). Ved at sætte tags på entiteterne, lærer modellen at afkode, hvor i en sætningsmæssig konstruktion, de forskellige entiteter optræder. Dermed vil modellen kunne forudsige, hvor der med stor sandsynlighed står et navn eller en adresse, uden at den ved hvilket navn eller hvilken adresse der står.
”Det har været en fin opgave, men også en hård opgave.” fortæller Miranda Fazliu Ajvazi, elev ved Lønservice, ”Men jeg har fundet motivation i, at det går til et godt formål, og at det gør en forskel.” At det har været motiverende at vide, at det man gør, gør en forskel er Ana Banu Poschin, elev ved Intern Revision helt enig i. ”Jeg er glad for, at jeg har kunnet hjælpe.” tilføjer hun.

Sprogmodeller
Ved at bruge tidligere aktindsigter sikrer vi, at sprogmodellen fortsat trænes i forståelse af kommunale data og kommunalt sprogbrug. Når vi sætter modellen til at træne på det annoterede data, vil den tage udgangspunkt i den kommunale sprogmodel, vi har udviklet på baggrund af offentligt tilgængeligt data. Vores kommunale sprogmodel kan man læse mere om i opslaget ’”kommunalsk” sprogmodel’ her på hjemmesiden.
Status på annoteringsarbejdet
I løbet af vores Annoteringsuge har annoteringsflokken identificeret omkring 15.000 sætninger, og i omegnen af 21.000 entiteter. Målet er at få tagget mindst 1.023 repræsentationer af hver entitet. Der har, ikke overraskende, været en stor repræsentation af navne og datoer, hvor vi er nået et pænt stykke over de 1.023 repræsentationer. Også nogle af de mere diffuse og mindre anvendte entiteter som adresser og helbredsoplysninger er godt på vej mod målet.
Der er også entiteter, som stort set ikke optræder i det data, vi har arbejdet med ind til videre. Derfor vil vi nu analysere på, hvilke områder, der eventuelt ville have flere repræsentationer, som vi kan annotere, samt i hvilket omfang andre metoder kan supplere modellen – for eksempel Regular expressions eller registre.
Vi vil nu gå videre med at få annoteret så meget data som muligt, så vi kan komme videre til det næste vigtige skridt i projektet – nemlig specialtræning af modellerne.
Seneste kommentarer