De sidste 2 måneder har vi sat fuld fart på annotering af data, som modellen kan trænes på – og er nu nået op på 36.500 annoterede sætninger. 

Annotering er en vigtig proces i udviklingsforløbet, for det er her vi hjælper modellen med at lære, hvad det er den skal lede efter, når den skal finde specifikke typer af oplysninger i en tekst.  

Vi har på forhånd udvalgt en række forskellige typer af såkaldte entiteter, som vi i udgangspunktet gerne vil i gang med at træne modellen på. Det er oplysninger som for eksempel navne, adresser, helbredsoplysninger og oplysninger om forbrydelser.

Tabel 1 – Her er vi i mål

Processen med at annotere data går på at udsøge typer af oplysninger (godt hjulpet på vej af en grundmodel) og sætte små mærkater på i forhold til hvilken type oplysning, der er tale om. Målet er at finde mindst 1023 repræsentationer af den enkelte type – og meget gerne endnu flere. Som det fremgår af tabel 1 herover, er der nogle typer af entiteter, hvor vi allerede er i mål – og også et godt stykke over. Men der er også entiteter, som ikke fremgår helt så ofte i vores data – og som derfor tager lidt længere tid at finde nok repræsentationer af (tabel 2).

Tabel 2 – Her er vi godt på vej

Vi kan allerede nu se, at der er nogle af typerne, der kræver noget ekstra opmærksomhed og nogen, som måske endda skal opgives. For eksempel er typen ”helbred” en meget bred definition, hvor vi nu vil gå tilbage og se på, hvordan den kan skærpes – uden at det reduceres til en liste over diagnoser. Vi kan også se, at ”adresse” er en kompleks entitet for modellen, og at den ofte har et sammenfald med ”lokation”. Det er blandt andet fordi en adresse består af et gadenavn og en by (som også vil kunne identificeres som en lokation). Denne type kompleksitet er noget af det vi nu skal til at kigge ind i forhold til, hvor vi lægger snittene og prioriteringerne.

Samtidig med, at vi annoterer, er vi også i gang med at forberede den kode, der skal bruges til differential Privacy – noget som skal være med til at pseudonymisere data, så det ikke kan genskabes når modellerne er færdigtrænet. De indledende test af denne kode er vældig positive. Det forventes, at resultaterne vil blive markant bedre med en prætrænet Aktindsigts-grundmodel, som vi også er ved at udvikle.

Vi forventer at være i mål med annoteringen i løbet af juni måned. Når det er klaret, vil vi gå videre til næste store skridt i projektet – nemlig at gå i gang med specialtræningen af vores NER-model.