Turkulaistutkijat ja suomalainen tekoäly-yhtiö aikovat kehittää maailman suurimman avoimen kielimallin

Työssä käytetään CSC:n Lumi-supertietokonetta.

 Silo AI:n toimitusjohtaja ja perustaja Peter Sarlin.

Kuva: Silo Ai

Turun yliopisto ja Euroopan suurimpiin tekoäly-yhtiöihin lukeutuvan Silo AI:n tytäryhtiö SiloGen käynnistävät laajan yhteistyöprojektin, jonka tavoitteena on kehittää joukko avoimia ja luotettavia kielimalleja, mukaan lukien maailman suurin avoin kielimalli.

Hankkeen tavoitteena on myös vahvistaa Euroopan digitaalista itsenäisyyttä sekä varmistaa tasavertainen mahdollisuus käyttää suuria kielimalleja.

Maailman suurinta avointa kielimallia kehittää konsortio, jonka käynnistävät SiloGen ja Turun yliopiston tutkimusryhmä TurkuNLP-tutkimusryhmä. Hankkeessa tehdään yhteistyötä myös monien eurooppalaisten instituutioiden ja organisaatioiden kanssa.

Konsortion tavoitteena on, että uusi suuri kielimalli olisi saatavilla kaikilla virallisilla eurooppalaisilla kielillä.

Tutkimuskonsortio käyttää kehitystyössä apunaan Kajaaniin sijoitettua Tieteen tietotekniikan keskus CSC:n Lumi-supertietokonetta (Large Unified Modern Infrastructure), joka on suurin supertietokone Euroopassa ja kolmanneksi suurin koko maailmassa. TurkuNLP on jo vuoden ajan rakentanut kielimalleja Lumi:lla ja julkaisi aikaisemmin tänä vuonna ensimmäisen suuren suomenkielisen generatiivisen kielimallin FinGPT:n.

Uuden kielimallin pohjana käytetään valikoituja aineistoja, jotka edustavat luotettavasti ja tarkasti eurooppalaisia kieliä. Tutkimusryhmä käyttää kehitystyössään apuna esimerkiksi High Performance Language Technologies (Hplt) -konsortiohankkeessa viime vuosien aikana tuotettuja aineistoja. Hplt on monen yliopiston yhteinen EU-rahoitteinen konsortio.

”Suuret kielimallit ovat nopeasti mullistaneet tapamme käyttää tietoa ja olla vuorovaikutuksessa teknologian kanssa. Kun kielimallien vaikutus kasvaa, on entistäkin tärkeämpää varmistaa, että kielimalleja kehitetään läpinäkyvällä ja toisinnettavalla tavalla ja että ne ovat avoimesti saatavilla, vastuullisia ja yhdenvertaisesti kaikkien käytettävissä”, kertoo Turun yliopiston data-analytiikan yliopistotutkija, Hplt-konsortion Turun osaa johtava Sampo Pyysalo tiedotteessa.

”Eurooppalaisesta näkökulmasta on erityisen tärkeää, että mallit suunnitellaan ensisijaisesti monikielisiksi ja kielellisesti tasavertaisiksi. Hplt-hankkeen tavoitteena onkin luoda avoimia eurooppalaisia aineistoja ja kielimalleja. Hplt on tässä konsortiossa yhteistyössä markkinajohtaja Silo AI:n kanssa, jonka kanssa jaamme yhteiset näkemykset kielimallien tulevaisuudesta.”

”Silo AI on tiiviisti mukana avointen kielimallien kehitystyössä. Riippumattomien ja luotettavien sekä eurooppalaisten arvojen mukaisten perusmallien kehitys on tärkeää digitaalisen itsenäisyytemme kannalta. Pyrimme hankkeessa varmistamaan, että perusmallit pohjautuvat aineistoon, joka edustaa alueen kansalaisia ja organisaatioita sekä noudattaa sääntelyä ja tietosuoja-asetuksia”, kertoo Silo AI:n toimitusjohtaja ja perustaja Peter Sarlin tiedotteessa.

”Tarvitsemme tulevaisuudessa itsenäisiä keinoja tiedon jalostukseen ja arvon luomiseen, mikä vaatii luotettavia ja turvallisia perusmalleja, jotka puolestaan mahdollistavat mallien hienosäädön toimialakohtaisiin tarpeisiin. Tällöin voimme pitää huolta digitaalisesta itsenäisyydestä samalla kun edistämme teknologian kehitystä.”

Turun yliopistossa hanketta johtavat professori Filip Ginter ja Sampo Pyysalo. SiloGenillä kehitykseen osallistuvat muun muassa teknologiajohtaja Aarne Talman sekä johtavat tekoälytutkijat Magnus SahlgrenJussi KarlgrenJonathan Burdge ja Antti-Ville Suni.

Lähde: Te.