Som en del af projektet har vi klargjort et datasæt bestående af offentligt tilgængeligt data skrabet fra 94 af landets kommuner. I datasættet indgår f.eks. navne på kommunale medarbejdere og kommunalpolitikere, stillingsbetegneler, adresser, e-mails, telefonnumre, oplysninger der fremgår af referater fra byråds- og udvalgsmøder mv.
Oven på datasættet har vi trænet en grundmodel, som danner fundament for de sprogmodeller, vi inden længe vil udstille på sprogteknologi.
Datasættet og grundmodellen var ikke oprindelig en del af projektets leverance, men ikke desto mindre vil vi meget gerne dele det med jer. Men i modsætning til de to andre modeller, har vi ikke brugt Differential Privacy på datasæt og grundmodel, da det handler om offentligt tilgængeligt data.
Da vi mener, at det er af principiel karakter, har vi valgt at spørge datatilsynet om deres syn på mulighed for, at den type datasæt og model kan udstilles.
Vi har nu fået svar fra datatilsynet, som bekræfter, at grundmodellen kan udstilles. Det kan datasættet heldigvis også, når vi har gennemført tiltag, der skal sikre, at der ikke ved en fejl indgår oplysninger, som ikke burde være offentliggjorte.
Så inden for den kommende tid vil vi gøre begge elementer klar, og så vil de være at finde på sprogteknologi.dk. Vi skriver selvfølgelig her på hjemmesiden, når det er tilgængeligt.
Datatilsynets svar finder du her: Offentliggørelse af datasæt og AI-model (datatilsynet.dk)
Du kan læse mere om grundmodellen her: ’Kommunalsk’ grundmodel | ai-aktindsigt.dk
Og så vil vi da gerne lige highlighte denne artikel fra datatilsynet: To nye udtalelser om datasæt til udvikling af sprogteknologi (datatilsynet.dk)
Seneste kommentarer