Artikkelit

Artikkelit eivät ole oikeudellisia neuvoja ja niissä on tiettyjä yksinkertaistuksia. Merkurius ei ota vastuuta miltään osin, mikäli artikkelien perusteella tehdään joitakin toimenpiteitä tai jätetään tekemättä joitakin toimenpiteitä. Kirjoittajat antavat mielellään tarkempia tietoja artikkeleissa käsitellyistä asioista

Tekoälyalgoritmit ja tietosuoja

– mitä tulee ottaa huomioon kun algoritmeissa käytetään henkilötietoja?

Tekoälystä puhutaan paljon. Käytännössä sille on myös monia eri määritelmiä, mutta pohjimmiltaan kyse on siitä, että tietokone pyritään saamaan simuloimaan älykkäinä pidettäviä toimintoja. Tällä hetkellä tekoälyä lähestytään erityisesti koneoppimisen kautta, joka on yksi tekoälyn osatekijä. Koneoppimisen käyttömahdollisuudet ovat hyvin laajat: sitä voidaan hyödyntää luottojen myöntämisessä, lääketieteellisessä diagnostiikassa ja petosten havaitsemisessa. Koneoppiminen perustuu algoritmeihin, jotka oppivat siitä datasta, jolla ne koulutetaan. Algoritmi jatkossa oppii ja kehittyy itse, eli käytännössä se saadaan toimimaan ilman, että se nimenomaisesti ohjelmoidaan.

EU:n yleisen tietosuoja-asetuksen (GDPR) soveltaminen alkaa 25.5.2018. Asetuksessa keskeisin käsite on henkilötieto. Se on määritelty hyvin laajasti tarkoittamaan mitä tahansa tietoa, joka liittyy tunnistettuun tai tunnistettavissa olevaan luonnolliseen henkilöön. Käytännössä henkilötiedon laaja määritelmä johtaa siihen, että hyvin monet koneoppimissovellukset käyttävät henkilötietoja niin koneen opettamisvaiheessa kuin myöhemmin koneoppimisalgoritmia sovellettaessa. Alla onkin seitsemän tärppiä, jotka kannattaa ottaa huomioon, kun koneoppimisessa käytetään henkilötietoja.

Arvioi käytetyn harjoitusdatan ja myöhemmin algoritmiin syötetyn datan luonne huolella

Jos dataan sisältyy henkilötietoja, tulee koko tietosuoja-asetus sovellettavaksi. Ainostaan anonymisoidut tiedot jäävät asetuksen soveltamisalan ulkopuolelle . Sen sijaan esimerkiksi pseudonymisoidut tiedot ovat asetuksen tarkoittamia henkilötietoja.

Anonymisointi on kuitenkin GDPR:n näkökulmasta vielä epävarma keino, sillä viranomaisten lausunnot antavat ymmärtää, että vain täysin peruuttamaton ja riskitön anonymisointi olisi asetuksen mukainen. Käytännössä etenkin big datan aikakaudella täysin peruuttamatonta anonymisointia ei ole mahdollista kuitenkaan toteuttaa. Itse asetuksen teksti kuitenkin tuntuu viittaavan riskiperusteiseen lähestymistapaan, eli kunhan tunnistaminen ei kohtuullisen todennäköisesti ole mahdollista, on anonymisointi riittävää. Näiden eriävien kantojen vuoksi jää vielä nähtäväksi, miten anonymisointiin tullaan tuomioistuimissa suhtautumaan.

Tarkista käytettävän datan taustatiedot

Käyttötarkoitussidonnaisuuden periaate rajoittaa henkilötietojen käyttöä. Periaatteen mukaisesti tietoja on mahdollista hyödyntää ainoastaan siihen tarkoitukseen, mitä varten ne on alun perin kerätty. Siten henkilötietojen käyttö myöhemmin esimerkiksi koneoppimisen harjoitusdatana ei ole välttämättä mahdollista ilman rekisteröidyn suostumusta.

Henkilötietoja on kuitenkin mahdollista käyttää, mikäli uusi tarkoitus ei ole yhteensopimaton alkuperäisen tarkoituksen kanssa. Yhteensopivuuden arvioinnissa tulee ottaa huomioon mm. tietojen keräämisen konteksti ja rekisteröidyn ja rekisterinpitäjän välinen suhde. Käytännössä voi kuitenkin olla tällä hetkellä vaikea löytää sellaista alkuperäistä käsittelytarkoitusta, jossa asetuksen edellytykset myöhemmälle jatkokäytölle täyttyvät koneoppimisen yhteydessä. Koneoppiminen on monille niin tuntematon käsite, että on vaikea keksiä montaakaan tilannetta, jossa jatkokäyttö koneoppimiseen tulisi objektiivisesti arvioiden ymmärtää esimerkiksi rekisteröidyn ja rekisterinpitäjän välisestä suhteesta.

Käyttötarkoitussidonnaisuuden periaatteeseen on kuitenkin olemassa poikkeus. Tilastollisia tarkoituksia ei nimittäin katsota yhteensopimattomaksi alkuperäisten tarkoitusten kanssa. Lähes kaiken big data -analytiikan, johon koneoppiminen myös luetaan, on katsottu olevan luonteeltaan tilastollista. Siten asetus tarjoaa nimenomaisen keinon myös koneoppimiselle hyödyntää jo olemassa olevaa dataa. Tästä huolimatta asetuksen johdanto-osan perusteluiden mukaan, mikäli koneoppimista käytetään automaattisessa päätöksenteossa, ei kyseiseen poikkeukseen ole mahdollista vedota. Johdanto-osat eivät ole juridisesti sitovia, joten nähtäväksi jää, mikä johdanto-osaan asetetun rajauksen merkitys tulee käytännössä olemaan.

Tekeekö algoritmi yksilöitä koskevia päätöksiä?

Asetuksessa on erikseen säädelty automaattista päätöksentekoa. Lähtökohtana on, että automaattisia päätöksiä ei saa tehdä ilman rekisteröidyn suostumusta. Kuitenkin, jotta kyse olisi asetuksen tarkoittamasta automaattisesta päätöksenteosta, tulee sen olla automaattista. Käytännössä monissa koneoppimistilanteissa automaattisuuden vaatimus ei täyty, sillä algoritmi usein tuottaa vain päätösehdotukset, joita ihminen arvioi ja joiden pohjalta se tekee lopullisen päätöksen. Tällöin kyse ei ole automaattisesta päätöksestä asetuksen tarkoittamalla tavalla, eikä myöskään automaattisen päätöksenteon kielto siten sovellu.

Mikäli kyse on kuitenkin asetuksen tarkoittamasta automaattisesta päätöksenteosta, tulee rekisteröidylle tarjota mahdollisuus esittää kantansa ja haastaa tehty päätös. Lisäksi rekisteröidyllä on oikeus vaatia, että tiedot käsittelee rekisterinpitäjän puolesta luonnollinen henkilö.

Vaikutustenarviointi kannattaa suorittaa

Nyrkkisääntönä voidaan todeta, että johtuen sekä koneoppimisen eri sovellusten uudeksi luokiteltavasta luonteesta sekä koneoppimiseen yleensä liittyvästä suuresta datan määrästä, on vaikutustenarviointi suoritettava. Tämä on selvää etenkin, jos koneoppimista käytetään yksilöitä koskevassa päätöksenteossa.

Ota huomioon rekisteröidyn oikeus peruuttaa suostumus

Suostumuksen käyttäminen henkilötietojen käsittelyperusteena koneoppimisessa sisältää riskejä. Rekisteröidyllä on asetuksen mukaan oikeus peruuttaa suostumuksensa ja sitä kautta oikeus tulla unohdetuksi, eli saada henkilötietonsa poistettua. Yksittäisen tiedon poistaminen algoritmista on kuitenkin käytännössä hankalaa, eikä välttämättä aina edes mahdollista. Tämä taas johtaa siihen, ettei rekisterinpitäjällä ole välttämättä oikeutta enää käyttää mallia tai se tulisi vaihtoehtoisesti luoda uudelleen ilman tätä henkilötietoa. Käytännössä kuitenkin vain harvat koneoppimisalgoritmit säilövät dataa. Toisin sanoen tyypillinen algoritmi luo harjoitusdatasta sääntöjä ja säilöö vain nämä säännöt, joiden perusteella se jatkossa toimii. Todennäköisesti tällaista sääntöä ei pidetä henkilötietona, jonka poistamista voitaisiin vaatia. Asetus ei kuitenkaan anna tähän suoraa vastausta, joten riski siitä, että myös näissä tilanteissa koko algoritmi jouduttaisiin poistamaan ja luomaan alusta uudelleen, on olemassa. Mikäli käsittely kuitenkin perustuu tilastolliset tarkoitukset -poikkeukseen, ei rekisteröidyllä ole lähtökohtaisesti oikeutta tulla unohdetuksi.

Kiinnitä huomiota syrjimättömyyden varmistamiseen

Sekä tietosuoja-asetus että eri ihmisoikeussopimukset edellyttävät syrjimättömyyttä. Algoritmien yhteydessä syrjiviä vaikutuksia syntyy helposti täysin vahingossa. Huomiota tulee siten kiinnittää siihen, että harjoitusdatana käytettävä data on määrältään riittävää ja laadultaan syrjimätöntä. Siinä ei saa olla yli- tai aliedustettuina tiettyjä henkilöryhmiä. Toisekseen myös algoritmien kriteerien ja teknisten menetelmien määrittämisessä tulee olla tarkkana, ettei ennakkoluuloja siirry koneoppimiseen tätä kautta. Syrjivyys voi nimittäin syntyä hyvinkin vähäpätöisiltä vaikuttavista seikoista. Syrjiviä vaikutuksia voi syntyä esimerkiksi tilanteissa, joissa algoritmi ohjeistetaan ottamaan huomioon postinumero, joka voi tosiasiassa toimia sekä varakkuuden että etnisen taustan indikaattorina.

Yksinkertaista viestintä ja ota läpinäkyvyys huomioon suunnittelussa

Asetus edellyttää henkilötietojen käsittelyltä läpinäkyvyyttä. Asetuksessa läpinäkyvyys toteutuu erilaisten rekisterinpitäjän tiedonantovelvollisuuksien kautta. Olennaisinta läpinäkyvyydessä on, että se edellyttää kaikessa viestinnässä tietojen antamista sellaisella tavalla, että ne ovat helposti ymmärrettävissä ja käytetty kieli on selkeää. Koneoppimisen yhteydessä rekisteröityä tulee pystyä siis informoimaan ilman esimerkiksi teknistä jargonia. Läpinäkyvyysvaatimus vaikuttaa myös siten, että koneoppimisalgoritmin suunnittelussa tulee ottaa huomioon, että algoritmin toiminnasta tulisi jatkossa pystyä tarjoamaan tietoa.

Monet asetuksen vaatimukset ovat haastavia koneoppimisen ominaispiirteiden vuoksi. Kuitenkin ottamalla asetus huomioon jo heti algoritmin suunnitteluprosessista lähtien, on ongelmatilanteet usein mahdollista ratkaista.

ida koskinen

Ida Koskinen, Lawyer

Jussi Lampinen

Jussi Lampinen, Partner | CFO

Artikkelit

Artikkelit eivät ole oikeudellisia neuvoja ja niissä on tiettyjä yksinkertaistuksia. Merkurius ei ota vastuuta miltään osin, mikäli artikkelien perusteella tehdään joitakin toimenpiteitä tai jätetään tekemättä joitakin toimenpiteitä. Kirjoittajat antavat mielellään tarkempia tietoja artikkeleissa käsitellyistä asioista