Pereiti prie pagrindinio turinio

Kaip pasiruošti Google Cloud Professional Data Engineer sertifikato egzaminui?

Šiandien pasidalinsiu patarimais kaip pasiruošti Google Cloud Profesional Data Engineer egzaminui ir gauti sertifikatą. Trumpai apie mane: esu BI Programuotojas. Visma Lietuva dirbu nuo 2020 kovo menėsio. Visą šį laiką dirbau su Visma Finland klientu, POP projekte – finasinių ataskaitų aplikacija, dedikuota vienai didelei gamybos įmonei. Esu sertifikuotas MS Azure ir Google Cloud duomenų inžinierius.

Andrius Gunka Google Cloud Certificate

Trumpai apie Data Engineer rolę

Informacinių technologijų pasaulyje pastaruosius 6 – 8 metus darbas su duomenimis užima ypač reikšmingą dalį. To pasekoje formuojasi atskira IT sfera, susijusi tik su duomenimis, jų apdorojimu, pateikimu ir analize. Atitinkamai duomenų sfera įgauna tam tikrą struktūrą, hierarchiją ir galiausiai stebime kaip IT įmonės steigia naujas pozicijas, dedikuotas darbui su duomenimis visais įmanomais pjūviais. Duomenų inžinierius yra viena populiariausių pozicijų IT darbo rinkoje 2022 metais, turinti ganėtinai konkrečius bendrinius reikalavimus kandidatui kartu su ateities perspektyva.

Lygiagrečiai duomenų pasaulio plėtimuisi, kita IT sfera, debesų technologijos, šiai dienai yra pilnai paruošta ir išvystyta vieta kuri suteikia galimybę kurti naujus IT produktus ir naudotis pažangiausiomis technologijomis ir servisais. Vadinamų Cloud technologijų tiekėjų yra ganėtinai daug, tačiau kaip žinia yra 3 pagrindiniai: Microsoft Azure, Amazon Web Services ir Google Cloud Platform. Vadinamų full-stack ir .Net programuotojų matyt jau nenustebins tai, kad nėra lengva įvaldyti visas programavimo kalbas, o tuo labiau visų cloud technologijų. Tačiau šiai dienai ta pati taisyklė galioja ir duomenų inžinieriams.

Bet šaunu yra tai, kad visi trys mano paminėti debesų technologijų tiekėjai suteikia galimybę gilinti teorines žinias apie jų konkrečius produktus, susijusius su duomenų apdorojimu. Galiausiai visa tai galima vainikuoti egzamino laikymu ir tapimu sertifikuotu specialistu.

Apie sertifikatą Google Cloud Professional Data Engineer

Pereikime prie šios apžvalgos pagrindinės temos – egzamino, skirto duomenų inžinieriams Google Cloud platformoje. Norint tapti sertifikuotu duomenų inžinieriumi Google Cloud platformoje reikia išlaikyti tik vieną egzaminą. Prieš užsiregistruojant į jį derėtų iš arčiau susipažinti su šiomis temomis:

  1. Compute ir Storage funkcionalumais Google Cloud aplinkoje: kaip skirstomi procesoriaus pajėgumai pagrindiniam “varikliui”, kurį naudos jūsų aplikaciją ar servisai, susiję su duomenim, duomenų talpinimas ir saugojimas;
  2. Didieji duomenis (Big Data) ir darbas su jais;
  3. Machine Learning pradmenys;
  4. Servisų ir aplikacijų automotizacija (DevOps);
  5. Duomenų apsaugojimo galimybės;
  6. Darbas su tinklais – pagrindai.

Tačiau ši platforma nėra kažkuo ypatinga, tad suvokiant virtualizacijos principus, technologijas, tinklų paprasčiausią struktūrą ar galiausiai turint patirties su kitu debesų technologijų tiekėju (kaip MS Azure) galima sėkmingai įveikti klausimus.

Egzaminas labai stipriai orientuotas į BigData technologijas ir bendrą supratimą apie technologijas ir servisus, skirtus darbui su jais Google Cloud platformoje. Aš norėčiau akcentuoti šiuos servisus, kuriuos derėtų detaliau išnagrinėti ir išbandyti: 

  • Cloud SQL;
  • Cloud Spanner;
  • Big Table;
  • Cloud Datastore.

Taip pat paminėsiu, kad egzamine tikimasi iš kandidato nemažai žinių apie bendrą IT infrastruktūrą Google Cloud platformoje. Tačiau ši platforma nėra kažkuo ypatinga, tad suvokiant virtualizacijos principus, technologijas, tinklų paprasčiausią struktūrą ar galiausiai turint patirties su kitu debesų technologijų tiekėju (kaip MS Azure) galima sėkmingai įveikti klausimus.

Apie pasiruošimą egzamino laikymui

Internete apstu informacijos kaip pasiruošti egzaminui. Savo ruožtu pateiksiu pasiruošimo planą, kurį naudojau. Pradėsiu nuo to, kodėl nusprendžiau laikyti šį egzaminą. 2020 metų pradžioje sėkmingai išlaikiau du egzaminus, po kurių gavau Microsoft Azure Data Engineer sertifikatą (Implementing an Azure Data Solution (DP-200),  Designing an Azure Data Solution (DP-201)). Tuo metu pagalvojau, kad būtų neblogai, kaip specialistui, praplėsti žinias horizontaliai ir apžvelgti kitas su Data susijusias platformas. Tiesą pasakius, pradėjus ruoštis egzaminui tikėjausi, kad bus labai daug panašumų tarp Azure ir Google Platform, tačiau reikia pripažinti, kad klydau. Deja, palyginus šias dvi platformas ir sertifikavimą, egzaminai skiriasi. Bet jau buvau investavęs laiko į pasiruošimą tad nusprendžiau eiti iki galo.

Konkretūs pasiruošimo žingsniai

  1. Pradėsiu nuo dviejų neblogų kursų Udemy mokymosi platformoje:

Antras kursas nėra būtinas, tačiau pirmąjį derėtų pereiti, o dar geriau, pereiti kartu atliekant praktines užduotis. 

Tam, kad atlikti kurse nurodytus pratimus, pirmiausia reikia prisijungti prie savo GCP Console aplinkos, iš kurios yra valdomi visi resursai, susiję su Google Cloud aplinka:

Tereikia turėti susikūrus Google paskyrą. Tuomet į naršyklę įvedame nuorodą https://console.cloud.google.com ir patenkame į savo nuosavą Google Cloud aplinką. Pirmiesiems bandymams Google suteikia 300 $ vertės metinį kreditą. Kitaip tariant, turite metus laiko panaudoti 300 $ įvairių servisų kurimui ir naudojimui. Šios sumos pilnai užtenka padengti abu Udemy minėtus kursus. 

Tad mano atspirties taškas buvo teorinė medžiaga iš minėtų kursų ir praktiniai pratimai šalia jų. Be kita ko, kursų eigoje rinkau komandinės eilutės užklausas su gcloud pradžia ir sukūriau trumpą jų sąrašą. Dažniausiai naudojamos komandos fragmentas yra gcloud config set/get ir kombinacijos su ja. Tai yra Google Cloud darbinės aplinkos konfiguracijos reikšmių gavimas ir keitimas. 

Atitinkamai naudinga susirašyti ir komandas, susijusias su Kubernetes Services kubectl. Taip pat norėčiau paminėti, kad pirmas kursas labai geras tuo, kad nuolat lygina Google servisus vienus su kitais. Taip pat lygina Big Data technologijas, kurios egzistuoja Google Cloud platformoje su tomis, kurios naudojamos “on premises” infrastruktūroje.

Kaip jau minėjau, skirtingai nei MS Azure Data Engineer sertifikavimo egzamine, Google žymiai labiau akcentuoja Big Data technologijas, susijusias su Hadoop ekosistema ir servisais. Minimalūs reikalavimai šiai daliai, tai žinoti Hadoop ir GCP atitikmenys:

HadoopGCP
HBaseBigTable
Document DatabaseDatastore
HiveBigQuery
Apache BeamDataflow
Managed HadoopDataproc
JupyterDatalab

Žinoma, GCP servisai yra svarbiausi, tad rekomenduoju kiekvieną jų išbandyti konsolės aplinkoje. Taip pat perskaityti Google pateikiamą teorinę medžiagą, kartu su Udemy ar kitos mokymosi platformos medžiaga. Nuorodoje https://cloud.google.com rasite visą informaciją apie Google Cloud aplinkos servisus. Kompanija išties pasistengė pateikdama teorinę medžiagą vartotojams, kurioje galima rasti architektūrinių funkcinių schemų, tokių kaip ši:

Lygiagrečiai su Udemy kursais, derėtų sekti Google egzamino detalizuotus reikalavimus. Iš šio sąrašo atpažįstame dar vieną servisų porą: Apache Spark/Apache Kafka ~ Pub/Sub. Su šio serviso analize yra padengiama dalis, skirta duomenų siuntimui ir apdorojimui realiuoju laiku. Būtinai bus bent du, trys klausimai egzamine, susiję su Pub/Sub ir jo konfiguracija.

Big Data technologijas norėjau paminėti pirmiau, nes jos yra atskira ir labai plati tema. Yra atskiros IT kompanijose, skirtos būtent Big Data specialistams, kurie dažniausiai būna ir geri Java programuotojai. 

Detaliai susipažinęs su minėtomis technologijomis, ėmiausi labiau pažįstamų temų, su kuriomis jau teko dirbti MS Azure aplinkoje: duomenų kaupimo ir laikymo technologijos (Storage technologies, Data Warehousing), duomenų procesinimo technologijos kartu su duomenų perdavimo galimybėmis (Data Processing, Building Data Pipelines). 

  1. Norint pilnai atlikti Udemy pirma kursą, tektų užtrukti apie du mėnesius, ramiu tempu (apie ~1 h per dieną). Sekantis žingsnis būtų pasinaudoti Google pateiktais 30 klausimų pavyzdžių ir juos išspręsti.
  1. Sprendžiant Google pateiktus klausimus ir ieškant informacijos atradau du duomenų specialistus, kurie internete pasidalino savo asmenine patirtimi kaip ruošėsi aptariamam egzaminui. Daniel Bourke patarimai ir nuorodos gali pilnai padengti pasiruošimą, tačiau rašant šią apžvalgą pastebėjau, kad pagrindinė jo nuoroda neveikia. Tai buvo nuoroda į labai sistemingą ir koncentruotą kursą Linux Academy mokymosi platformoje. Kursas buvo stipriai orientuotas į egzamino laikymą ir turėjo praktinę dalį su realiais egzamino klausimais. Atitinkamai tai buvo mokamas kursas. Kito specialistas, Mike Shakhomirov, pasiruošimas egzaminui truko 8 dienas. Jis pasidalino puikiu tekstu, kurį būtina perskaityti ir atidžiai pereiti visas temas, paminėtas kiekviename pasiruošimo etape. Iš esmės tai detali temų, reikalingų egzamine, apžvalga.
  1. Paskutinis žingsnis – po beveik šešis mėnesius trukusios teorinės dalies, lieka gerai išspręsti Google pateiktus klausimus su praktinėmis užduotimis, kurias taip pat pateikia Google. Be kita ko, aš ne kartą grįždavau į Udemy platformą, praktines kurso dalis. Internete apstu egzamino klausimų su neva pateiktais atsakymais. Tokio pobūdžio informaciją reikia naudoti tikslingai, ir visus rastus bilietus išspręsti patiems. 

Apibendrinimas

Pagrindinės temos/technologijos, kurias reikia būtinai suprasti ir išnagrinėti: 

  • BigQuery: duomenų tipai, kurie labiausiai tinka, duomenų skaitymas/rašymas, duomenų saugojimas, duomenų užkrovimas/nukrovimas
  • Cloud SQL, Cloud spanner: reliacinės duomenų bazės aspektai;
  • Datastore;
  • BigTable;
  • PubSub;
  • Dataproc;
  • Duomenų formatai: AVRO, Parquet, CSV, JSON ir jų skirtumai, privalumai;
  • Cloud Dataflow: ETL principai;
  • Machine Learning technologijos, tiesinės regresijos formulė, TensorFlow biblioteka

Turiu pripažinti, jog nesitikėjau, kad pasiruošimas truks daugiau nei pusę metų. Patirtis su kitu cloud technologijų tiekėju, kaip Microsoft, neapsprendžia kitų platformų detalesnio išmanymo. Tačiau net neabejoju, kad tie specialistai, kurie susiduria su Google Data platforma kiekvieną dieną, neturėtų patirti didesnių sunkumų laikant Google Cloud Professional Data Engineer egzaminą.

Populiariausi blog'ai

  • ISTQB Certifiend Tester Foundation Level experience 2 -min

    Patirtis laikant For ISTQB Certified Tester Foundation Level 2018 sertifikatą

    Aš Ramūnas Norkus, jau beveik du metus Vismoje dirbu automatinio testavimo inžinieriumi „Inschool“ projekte. Kuris yra skirtas Norvergijos mokykloms ir, beje, yra didžiausias projektas Vismoje. Mano kasdienis darbas apima įvairias testavimo užduotis, susijusias su automatinių testų (frontend, performance, penetration) rašymu ir priežiūra bei rankiniu testavimu.

    Tad, tikriausiai nenustebsi, kad ir šis mano blog’as patirtį laikant vieną iš testavimo inžinieriaus sertifikatų. Įdomu? Skaityk toliau.

  • My experience on taking the eWPTXv2 exam

    So a few months ago I had the joy of passing the eWPTXv2 exam. Well, it does not sound intriguing until you translate it into human language. The eWPTXv2 is actually eLearnSecurity Web Penetration Testing Extreme second version. Everything sounds better than you put extreme into it. Well, this is not that case since the exam is actually a bit hard.