Tietotulvan käsittely – mielipideuutiset
Vuonna 2016 kirjoitin toisessa julkaisussa, jossa minulla on myös tavallinen tila, että Internetiä uhkasi ”datatulva”. Yrityksetkin ovat täynnä tietoa omasta toiminnastaan ja auraavat sitä lakkaamatta löytääkseen tietoa, jonka avulla ne voivat ”muuttaa” toimintaansa – loputtomana yrityksenä saada enemmän kuluttamalla vähemmän. Tämä säälimätön harjoitus, joka muistuttaa omaa häntäänsä jahtaavia koiria, ei ole vain viihdyttävä, vaan myös jyrkkä muistutus nykyisen tiedonhallintatapamme tehottomuudesta.
Näemme saman kierteen tänään generatiivisen tekoälyn (GenAI) kanssa. Internetissä saatavilla olevan tiedon määrä on kasvanut eksponentiaalisesti, ja suurin osa siitä on roskaa – varsinkin yritykselle, joka yrittää keskittyä tiettyyn ongelmaan, joka koskee vain sen omaa yritystä. Mikään määrä generatiivisia tekoälyn tuottamia kuvia, proosaa tai runoutta ei liity heidän tilanteeseensa, ja siksi he ovat jumissa ilman kykyä rakentaa liiketoimintamallia GenAI:n käyttämisestä yrityksissään.
En kiistä suurdatan analytiikan tai kohdistettujen tekoälyratkaisujen tarvetta tiettyjen yritysongelmien ratkaisemiseksi. Digitaalisen tiedon räjähdysmäinen kasvu Internet-buumin jälkeen on kuitenkin aiheuttanut oikeutetun pelon ”datatulvasta”. Ja joukko Noooja on syntynyt rakentamaan arkkeja pitääkseen yritykset pystyssä datatulvan aikana. He myyvät yhä suurempia tietokantojen tallennusohjelmistoja ja koneita käsitelläkseen tätä tietotulvaa. Meillä on nyt jopa käsite ”tietojärvet” tietokantojen sijasta, mikä viittaa ”kylmään” dataan, jota ei vaadita välittömiin tietojen mallintamiseen, mutta jota voidaan oletettavasti joskus käyttää lisäämään tekoälyn oppimisalgoritmien tehokkuutta.
Nooan arkista puheen ollen, satunnaisesti nimetty sijoitusneuvontapalvelu Ark Invest mainitsee, että vuonna 2006 Internet tuotti noin 0,16 zettatavua dataa, kun käytettävissä oleva tallennuskapasiteetti oli vain 0,09 zettatavua, mikä osoittaa jo 1,7 zettavua. Nämä tiedot nousivat sitten 25 prosentin yhdistetyllä vuotuisella kasvuvauhdilla (CAGR) seuraavan vuosikymmenen aikana, mikä aiheutti 500 prosentin puutteen tallennustilasta. Siirry eteenpäin tähän hetkeen, kun Astonin yliopiston nykyinen ennuste sanoo: ”Seuraavat kolme vuotta ovat ratkaisevia. Globaalin tietosfäärin ennustetaan kasvavan 175 zettatavuun, ja yksi zettatavu vastaa noin miljardia teratavua. Yksi teratavu on 1 000 gigatavua (GB). Selvitä matematiikka.
Yritykset lisäävät sitten ”analytiikka”-tiimin yrittääkseen ymmärtää kaiken tämän datan. Näissä ryhmissä on tavallisesti yksi tai kaksi asiantuntevaa tilastotieteilijää tai ”tietotieteilijää” ja joukko nuoria, innokkaita offshore-numeronmurskaajia, jotka ovat valmiita tutkimaan datariitoja, kuten laihaat etsijät, jotka etsivät kultaa. Tämä dataylijäämä on synnyttänyt kokonaisen genren tekoälyanalytiikkayrityksiä. Ongelma, jonka he huomaamattomasti jättävät huomioimatta, on se, että he seulovat usein roskakuorman läpi, ja vielä enemmän roskaa putoaa tämän kuorman päälle joka päivä Internetin kiertymisnopeudella.
Tekoälyn toimittajat huomauttavat nopeasti, että he puhdistavat tiedot ennen kuin käsittelevät niitä, jotta he ymmärtävät sen. Mutta kuten Ark Invest sanoo, tätä dataa kelluu aivan liian paljon, ja mikä parasta, osa niistä on pidetty elossa yrityksen palvelimilla useiden vuosien ajan ilman, että niitä on koskaan tarkasteltu. Ongelma ei ole tietojen likaisuus – ne ovat vanhoja. Ja data vanhenee hälyttävän nopeasti.
Tietotallennuspulan korjaaminen rakentamalla uusia mega-palvelinkeskuksia maailmanlaajuisesti ei ole ratkaisu, eikä se ole kestävä lähestymistapa. Korkeiden kustannusten lisäksi niiden valtava energiankulutus on dokumentoitu hyvin, samoin kuin Googlen ja Microsoftin kaltaisten generatiivisten tekoälypelaajien lausunnot, joiden mukaan he eivät ole lähelläkään saavuttamassa hiilidioksidipäästöjen nollatavoitteitaan milloinkaan seuraavien vuosien aikana, ennustivat äänekkäästi, että he pystyvät! Se on kova hinta maksettavaksi.
Edesmennyt äitini, menestynyt lääkäri, hoiti taloa samalla tarkkuudella kuin leikkauksia ja synnytystoimenpiteitä. Kun hän ryhtyi kevätsiivoukseen, hän heitti pois kaiken, mitä ei ollut käytetty vuoteen. Sillä ei ollut väliä, oliko se edelleen käyttämätön ja alkuperäisessä pakkauksessaan; jos sitä ei ollut käytetty vuoteen, se meni, huolimatta meidän muiden protesteista.
No, näyttää siltä kuin joku olisi kuunnellut. Kun kirjoitin mainitun artikkelin vuonna 2016, MySpace, ensimmäinen laajamittainen sosiaalinen verkosto, poisti kaikki valokuvat, videot ja äänitiedostot, jotka oli ladattu siihen ennen vuotta 2016, näennäisesti vahingossa. Usenet-uutisryhmien kokonaiset osat, joissa käydään joitakin Internetin varhaisimpia keskusteluja, ovat menneet offline-tilaan lopullisesti ja kadonneet historiasta. Monien käyttäjien (tai hamstraajien, näkökulmastasi riippuen) ongelmana on, että heidän mielestään arvokkaat tiedot on myös saatettu tyhjentää.
Tunnin todellinen tarve monille yrityksille on datan tyhjennys, ei enemmän datatiedettä tai GenAI:ta. Ehdotan, että se vaatii yritysten rohkeutta: sen sijaan, että käyttäisit valtavia summia ostamaan tai vuokraamaan lisää tilaa tietojen tallentamista varten ja sitten enemmän rahaa generatiiviseen tekoälyyn, jotta löydettäisiin entistä enemmän tapoja analysoida nopeasti hajoavaa dataa, osa rahoista voidaan käyttää paremmin. siitä, että älykäs joukko nuoria offshore-koulutetaan yksinomaan etsimään kaikkea, mikä on liian vanhaa käytettäväksi tai joka oli ”kuollut saapuessaan”, ja tiedot tyhjennetään. Tämä saattaa jossain määrin rajoittaa hyödyttömän laskenta- ja tallennuskapasiteetin kasvua, mikä sen sijaan johtaa merkityksellisemmän ja reaaliaikaisemman tiedon käyttöön, josta data-analytiikan johtopäätökset voidaan helposti toteuttaa.