Lige nu er vores sprogmodeller i gang med et intensivt sprogkursus. – De skal nemlig lære at kunne læse og forstå det sprog vi bruger i kommunerne.

Et hvert sprog er enormt komplekst, og tager et menneske flere år at mestre. Det handler blandt andet om, at sprog er kontekstafhængigt, og ofte bygger på usagte sammenhænge eller fraværet af samme. For at modellerne kan hjælpe med at finde de oplysninger, vi skal bruge, er de nødt til at lære sproget at kende, først. Og det er de i fuld gang med. 

Det sprog vi bruger i kommunerne bygger på indforståede sammenhænge og specifikke fagudtryk som adskiller sig fra  de indforståede sammenhænge og specifikke fagudtryk de bruger ved en IT-virksomhed.

Det er altså ikke nok, at modellerne kan ”forstå dansk”. – De skal også kunne forstå ”kommunalsk”.

Måden man træner modellerne på er ved at give den en masse kommunale tekster, som den kan øve sig på. Jo flere tekster den får at læse, jo bedre bliver den til at forstå sproget. – Præcist lige som at vi bliver bedre til at forstå engelsk ved at læse en masse engelske bøger eller se engelsksprogede film.

Mens modellerne læsetræner, hjælper vi den med at udpege forskellige sammenhænge, som den skal lære at genkende. Lidt lige som når vi hjælper et barn med at forstå forskellen på en hund (et dyr med fire ben der siger vov) og en kat (et dyr med fire ben som siger ”miav”).

Det næste modellerne skal lære er at lede efter specifikke informationer baseret på de sammenhænge vi har trænet den i. For eksempel skal den lære at genkende, at noget er et navn ud fra den sammenhæng, ordet opstår i, snarere end navnet selv. (Dermed behøver løsningen ikke at lære alle verdens navne på alle tænkelige stavemåder). Vi er i fuld gang med at udvælge de elementer, som modellerne skal lære at gå på jagt efter.