Adatelőkészítés – best practices

Az adat, ami alapján a következtetéseinket szeretnénk levonni a legritkább esetben tiszta. Legyen az generált vagy begyűjtött, közös platformon tárolt vagy különböző struktúrákban elhelyezett, amikor az elemzéshez érünk el kell készítenünk egy olyan tiszta és rendezett alapot, ami megbízható alapja lesz a döntéseinknek.

Az adatelőkészítés nem egy elvont fogalom vagy egy bonyolult eljárás. Mindannyian végzünk ilyesmit, amikor kiszűrjük a duplikációkat, vagy közös formára hozzuk az adatbázisba különbözőféleképpen felvitt neveket, pivot táblákkal strukturáljuk újra vagy vlookup-okkal egészítjük ki az adatainkat. Amikor az excel az egyetlen eszközünk ez az előkészítési folyamat valóban sok időt vesz igénybe és egy meglehetősen sok lépéses folyamat, de mindenképpen elengedhetetlen.

Hiszen enélkül hibás adatokra építenénk az elemzéseinket, a riportjainkat, amik alapján a múltat vizsgáljuk és a jövőre vonatkozó lépéseket teszünk.

Ha pedig ezt a procedúrát egyszerűsíteni és/vagy gyorsítani tudjuk, azzal a munka valóban fontos részéhez nyerünk időt.

A modern BI eszközök nagyon sok lehetőséget adnak erre, bár itthon még túl kevés vállalat túl kevés területen veti be őket.

De üzleti intelligencia eszközzel vagy anélkül, ahhoz, hogy ne kellejen elemzés közben visszatérnünk az adattisztításhoz (esetleg elölről kezdenünk mondjuk rosszul strukturált adatok miatt az egészet), néhány jól bevált praktikát érdemes figyelembe venni.


 Ha szívesen olvasnál hasonlókat rendszeresen,
iratkozz fel HÍRLEVELünkre 


Gondoljuk végig, hogy kik és mire fogják használni az előkészített adatokat!

Ez segít abban, hogy megtaláljuk a megfelelő adatforrást /forrásokat, amik tartalmaznak minden szükséges adatot. Ezt végiggondolva könnyen kiszűrhetjük, hogy mely adatokra van szükségünk és melyek maradhatnak ki az előállítandó halmazból. Meghatározhatjuk, hogy milyen legyen a végleges struktúra. A következő kérdések segíthetnek ebben:

  1. Ki készít elemzést az általad előkészített adatokból? – érdemes gondolni azokra is, akik a szervezet más területein ugyanezekkel az adatokkal dolgoznak, de más szempontból vizsgálják azokat. Mennyivel hatékonyabb lenne, ha ugyanazt a bázist vennénk alapul… Próbáljunk minél szélesebb körben gondolkodni, és az elkészült adatforrást rendelkezésre bocsátani a későbbi “érthetetlen” eltérések elkerülése érdekében.
  2. Milyen kérdéseket fogunk megválaszolni az előálló adatforrásból? – lehet, hogy csak átfogó összefüggésekre trendekre keressük majd a választ, de előfordulhatnak részletesebb kérdések is. Ott, ahol a mérőszámunk értéke nem éri el a meghatározott minimumot, biztosan mélyebbre kell ásnunk – részletesebb kimutatásra lesz szükség. Meg kell találnunk a kényes egyensúlyt a túl nagy adatforrás és a túl kevés részlet között, ezért jó ha előre látjuk, hogy milyen kérdésekre készüljünk.
  3. Mely adatforrásokban találhatók a szükséges adatok?  – Lehetne bővíteni ezeknek a listáját annak érdekében, hogy tágabb összefüggéseket lehessen vizsgálni az előkészített adataim segítségével? Van ezekhez megfelelő hozzáférésem?

Ismernünk kell az adatstruktúrát.

A napi munkánk során valószínűleg jól ismert rendszerezettséggel fogunk találkozni, de végiggondoltuk már, hogy milyen összefüggések alapján építünk felhasználható adathalmazt? Mely oszlopoknak kell mindenképp kitöltve lenni, milyen a részletezettség, vagy éppen, hogy milyen módszerrel kerültek az adatok az adatforrásba?

  1. Ismerd meg, amit látsz! – Ha új adatforrással találkozunk, mindenképpen érdemes először vetni néhány pillantást a felépítésre, mielőtt nekilátunk a rendrakásnak. Nem biztos, hogy minden elsőre olyan, amilyennek látszik – amilyennek lennie kellene….
  2. Szúrd/szűrd ki a lehető legtöbb hibát! – egy ismeretlen adatforrás esetében nagyon nehéz dolgunk van ebben a lépésben.
    Az ismerőseknél általában elég végigmenni a bevált checklist-en, és ha van még valami, az úgyis hamar feltűnik. Ha Excel-el készítjük elő az adatokat az új forrás esetében valószínűleg akkor fogjuk megtalálni ezeket a hibákat, amikor éppen elrontják az elemzést… Néhány tippet azért összeírtam, hogy mikre érdemes első körben figyelni.
    Viszont ha a munkánk során rendszeresen új forrásokat kell előkészítenünk legalább egy adatelemző eszközre mindenképpen szükségünk lenne, ami megkönnyíti és gyorsítja ezt a folyamatot. Arról nem is beszélve, hogy hitelesebbé teszi az általunk előállított forrásokat, mert nem véletlenszerűen bukkanunk rá a hibás adatokra. (Érdemes vetni egy pillantást pl. a Tableau Prepre)
  3. Hagyd ki a felesleges mezőket! – fontos az egyensúlyra törekednünk a részletesség terén, de vannak olyan adatok, amikre biztosan nem lesz szükség az elemzés során. Ilyenek a segédoszlopok (pl. átalakított oszlopok eredetije). De ha mondjuk az eladásokról akarunk elemzést készíteni, nem lesz szükség arra, hogy mi mikor érkezett a raktárba (de ha a profitot is vizsgáljuk, arra igen, hogy mikor fizettünk a beérkező raktárkészletért!).
    Elővigyázatosnak kell lennünk, nehogy olyasmit távolítsunk el, ami fontos részleteket, plusz információt rejthet, de egy túl nagy adatforrással senki nem tud majd hatékonyan dolgozni.
  4. Összeolvasztáskor figyeljünk a részletességre! – amikor két adatforrást egybeolvasztunk, ne felejtsük el előtte ellenőrizni, hogy minden ugyanolyan részletességgel szerepelt a forrásokban. Egy táblában, ami az egyének szintjéig lefúrható, ne szerepeltessünk csoportokra összesen vonatkozó költségeket, mert a teljes táblában így megsokszoroznánk a költségeket (hiszen minden munkatárs neve mellett ott szerepel a csoportja, amihez hozzárendeljük a megfelelő költséget…)

Vezessünk listát az adatelőkészítés lépéseiről!

Ha folyamatosan nyomokövetjük, hogy milyen lépéseket hajtottunk végre (és le is jegyezzük ezeket), sokkal könnyebb megtalálni, hogy hol véthettünk hibát, vagy megtalálni és kijavítani valamit, amiről tudjuk, hogy melyik lépésben követtük el.
Nagyon időigényesnek hangzik, de gondoljunk csak bele, hányszor töltöttünk már órákat a hibák keresésével, és feladva hányszor kezdtük elölről az egészet…

Nem utolsó sorban, ha más próbálja értelmezni a munkánkat (hogy további lépéseket hajtson végre vagy felhasználja a saját munkájához) sokkal könnyebben látja át, hogy mit és miért alakítottunk az eredeti adatokon.

Annak érdekében, hogy ne nekünk kelljen ilyen listákat írni a BI eszközök automatikusan regisztrálják ezeket a lépéseket helyettünk.

Ellenőrizzük az eredményt (lehetőleg) minden lépés után!

A legalapvetőbb ellenőrző-lépés, ha a sorok számát figyeljük. Adott lépés elvégzése után több vagy kevesebb sorunk lett, mint előzőleg (hacsak éppen nem ez volt a célunk).

Könnyebben vizsgálhatjuk a változást, ha még az adattisztítás elején összerakunk néhány beszédes diagramot, és ezeken figyeljük a változást.

Természetesen itt is könnyebb dolgunk, ha nem az Excel az egyetlen lehetőségünk, mert a BI eszközökkel könnyen válthatunk az adatelőkészítő és az elemző nézet között, így ellenőrizve, hogy minden lépésünk után valóban közelebb jutunk a megfelelő struktúrához és minőséghez.


Felhasznált forrás: https://www.tableau.com/learn/whitepapers/data-prep-best-practices 


KAPCSOLÓDÓ TARTALMAK

agriculture-315510_1280

6-LÉPÉSES KÉZIKÖNYV ADATTISZTÍTÁSHOZ

 

blurred-background-close-up-coffee-cup-908284  BI ESZKÖZÖK

Advertisements

One thought on “Adatelőkészítés – best practices

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s