Skip to content

Näkökulma: Laajat häiriöt paljastavat pilven keskittymisen

20230317-DSCF2783-neliö

Viime kuukausien aikana on sattunut paljon isoja pilvipalveluiden häiriöitä. Yleisesti käytetty palvelualusta on ollut pois käytöstä, ja se on vaikuttanut laajasti yrityksiin, kuluttajiin ja koko yhteiskuntaan. Käydään läpi tapaukset ja mitä niiden taustalta löytyy.

Häiriöt ovat osa pilven ja internetin arkea, joten ne ovat myös osa liiketoimintaa ja kollektiivista kokemusta. Kaikki kärsivät yhdessä ja kukaan ei ole väärässä tai uhattuna. Liiketoiminta pysähtyy, kun teknojätit yskivät ja organisaatioiden kannattaa varautua pidentyviin ja monimutkaistuviin palvelukatkoihin.

Pilvessä on ollut runsaasti katkoksia

AWS oli alhaalla viime lokakuussa maailmanlaajuisesti muutaman tunnin ajan. Ongelma johtui sisäisestä tietokantapalvelun nimipalveluvirheestä, joka sitten lamautti pilven ohjauskerroksen toiminnan. AWS:n palvelut alkoivat kaatuilla olennaisten taustajärjestelmien ollessa pois pelistä, ja käytännössä koko pilvi oli nurin.

Lokakuun lopussa Azuren sisällönjakelupalvelu (CDN) Front Door kärsi vuorostaan ongelmista. Syynä oli konfiguraatiovirhe, joka aiheutti nimipalvelun ja reitityksen ongelmia. Sen myötä välityspalvelimet ylikuormittuivat ja palvelut lakkasivat toimimasta. Asiakkaiden Front Doorin kautta julkaisemiin palveluihin ei päässyt noin yhdeksään tuntiin.

Myös Cloudflare sotki konfiguraatiovirheellä oman sisällönjakelupalvelunsa marraskuussa. Se oli yhtiön kaikkien aikojen pahin häiriö. Ensin luultiin, että kyseessä on palvelunestohyökkäys, mutta lopulta syyksi paljastui virheellinen suojauskonfiguraatio, joka kaatoi välityspalvelimet. Häiriö kesti noin kuusi tuntia ja näkyi erittäin laajasti yllättävissäkin paikoissa esim. ChatGPT:ssä, Claudessa, Dropboxissa ja Zoomissa. Häiriö oli Cloudflarelle poikkeuksellisen pitkäkestoinen, koska monimutkaisen ongelman paikallistaminen oli erityisen hankalaa. Parin viikon päästä edellisestä katkosta Cloudflare rikkoi jälleen CDN-palvelunsa. Tarkoitus oli torjua React2Shell-haavoittuvuutta, mutta globaalisti palvelimille jaettu konfiguraatiomuutos meni pieleen ja aiheutti palvelukatkon. Muutos saatiin kuitenkin nopeasti vedettyä takaisin, ja häiriö kesti vain alle puoli tuntia.

Joulukuussa Snowflaken pilvipalvelussa oli katkoja tietokantarakenteen muutoksista johtuen. Häiriötilanne kesti noin puoli vuorokautta ja vaikutti laajasti Euroopan konesaleissa. Tammikuussa Cloudflare oli jälleen mukana häiriössä, kun se muutti nimipalvelunsa toteutusta. Mitättömältä tuntuvan muutoksen seurauksena osa DNS-client-ohjelmistoista ei osannutkaan enää toimia yhteensopivasti. Joissakin Ciscon verkkolaitteissa nimipalveluprosessi kaatui ja sai laitteet uudelleenkäynnistämään itsensä säännöllisesti.

Taustalla on yleensä konfiguraatiomuutos

Kuten tapauksista havaitaan, lähes aina häiriön taustalla on konfiguraatiomuutos, joka laukaisee palvelussa odottamattoman vikatilanteen. Usein muutoksiin yhdistyy myös huolimattomuus tai toimintamallin laiminlyönti. Monimutkaisissa hajautetuissa järjestelmissä pienetkin ongelmat ketjuuntuvat, leviävät laajalle ja muodostavat ylikuormitustilanteen.

DNS on usein osa ongelmaa, koska se on olennainen osa internet-palveluiden käyttöä, myös palveluissa sisäisesti. DNS:n toimimattomuuden kautta paljastuu usein yllättäviä riippuvuuksia, jotka ketjuuntuvat isommaksi ongelmavyyhdiksi. Usein myös hallinta- ja valvontatyökalut eivät toimi ja tietoturvakontrollit estävät pääsyn järjestelmiin tai jopa fyysisiin tiloihin korjaamaan vikoja.

Syyt ja seuraukset ovat mutkikkaita

Teknojätit ovat yleensä nopeita korjaamaan omat ongelmansa ja kertovat avoimesti tapausten taustat. Toisinaan ongelmat ovat hankalampia ja korjausaika on pidempi. Cloudflarella on usein ongelmia, mutta toisaalta se on kunnostautunut erittäin nopeassa viankorjauksessa ja perusteellisessa tiedottamisessa.

AWS:lle on kertynyt jo parin kymmenen vuoden ajalta painolastia erityisesti kriittisen ja teknisesti vanhentuneen US-EAST1-alueen osalta. Se on AWS:n oletusalue ja sieltä hallitaan koko globaalin alustan palveluita, esim. verkkoa, nimipalvelua ja identiteetinhallintaa, mikä vuoksi alueen ongelmat vaikuttavat maailmanlaajuisesti. Amazonin viimeaikaiset massairtisanomiset ja asiantuntijapako saattavat myös vaikuttaa yhtiön palveluiden toimivuuteen.

Pilvipalvelun häiriö saattaa aiheuttaa myös kyberriskejä. CDN-ongelmien aikana osa asiakkaista kiersi ongelmakohdan poistamalla toimimattoman CDN-palvelun käytöstä palvelunsa edestä. CDN-palveluissa on kuitenkin yleensä mukana nettipalveluiden suojaustoiminnot, joten niiden poistaminen saattoi avata palveluita kyberhyökkäyksille.

Pilven ja internetin keskittyminen on riski, jota pitää hallita

Arvioiden mukaan EU-alueen pilvipalveluista 70 % on AWS:n, Azuren tai GCP:n alustoilla. Suomessa virastojen ja ministeriöiden kansalaisille suunnatuista digipalveluista 64 % on näissä pilvissä, AWS:n osuuden ollessa 45 % ja Azuren 18 %. Nettisivujen osalta Cloudflaren takana on noin puolet maailman miljoonasta suosituimmasta sivustosta.

Sanotaan, että ”kun yksi iso yhtiö aivastaa, niin kaikkiin tarttuu”.

Virheitä sattuu ja palveluissa on häiriöitä. Pilviriippuvuus ja siihen liittyvät riskit ovat moniulotteinen asia, johon ei ole yhtä oikeaa totuutta. Kaikki riippuu kunkin organisaation tarpeista ja mahdollisuuksista. Käytännössä vaihtoehtoa pilvelle ei monestikaan ole. Kuitenkin on hyvä ymmärtää pilviriippuvuuden vaikutukset, jotka voivat ovat yllättävän laajoja ja monimutkaisia. Riskien tunnistamisen jälkeen on syytä arvioida, mikä on oma kyky selviytyä häiriötilanteista. Olennaista on luokitella omat palvelut ja valita kullekin sen oman tarpeen mukainen palvelualusta. Kyse ei ole ”kaikki tai ei mitään” -valinnasta.

 Tutustu myös aiemmin kirjoittamaani blogiin siitä, miten politikan tapahtumat heijastuvat teknologiaan. 

 

Blogin kirjoittaja

Picture

Antti Leimio

Network Security Architect

Kokenut tietoliikenneasiantuntija, joka on kiinnostunut ymmärtämään teknologiaa ja hyödyntämään sen mahdollisuuksia. Autan löytämään ja toteuttamaan liiketoimintatarpeisiin sopivia kyberturvallisia tietoliikenneratkaisuja.

 

Haluaisitko sähköpostiisi tietoa ajankohtaisista aiheista? Kiinnostaako turvallisuusratkaisut, tietoturva tai AI & data vai kenties digitaaliset palvelut? Voit tilata uutiskirjeen juuri sinua kiinnostavista teemoista. Meidän uutiskirjeessä on Loihdetta!