Grote Nederlandse AI-dataset offline gehaald door BREIN
Stichting BREIN heeft een grote Nederlandse dataset offline gehaald die werd gebruikt om AI-modellen te trainen.
Dit gebeurde na een tip dat de dataset veel auteursrechtelijke gegevens zou bevatten.
Illegale content
De dataset bleek te bestaan uit illegale kopiën van tekst van nieuwswebsites, boeken en ondertitels van illegaal gedownloade films en tv-series. Inmiddels is de dataset offline gehaald. Deze werd onder andere gebruikt voor het trainen van Large Language Models (LLM's).