KÜRT Zrt.

Telefonszám: +36 1 424 6666
E-mail: kurt@kurt.hu
Web: www.kurt.hu

Rugalmas, felhő alapú logelemzésé lehet a jövő

Magyarországon fejlesztés alatt áll egy felhő alapú log elemzési szolgáltatás, amellyel költséghatékonyabb lehetne a tesztelés és a minőségbiztosítás, s amely teljesen rugalmasan támogatná a félig strukturált szöveges inputok gyors normalizációját, illetve elemzését.

A felhő alapú rendszerek segítenek abban, hogy mindig rendelkezésre álljon a szükséges erőforrás. Megfelelő virtualizált elemzési technológia kifejlesztésén dolgozik jelenleg több magyar kutatóhely, európai uniós támogatásból (TÁMOP-4.2.2.C-11/1/KONV-2012-0004 azonosító alatti Felhő alapú valós idejű naplófeldolgozó és elemző módszer és tesztkörnyezet kidolgozása című részprojekt). Itt a felhő alapú kollaboratív normalizálási szabályszerkesztés is hangsúlyt kap, így az egyedi projekten dolgozó szakemberek a speciális log formátumokat is könnyedén tudják majd kezelni, és az adatokból a saját igényeiknek megfelelő elemzéseket elkészíteni.

Egy ilyen felhő alapú logelemzési környezet alkalmas lesz a hirtelen felmerülő nagy mennyiségű adat testre szabott elemzésére olyan sebességgel, hogy csak a feltöltési sávszélesség jelenti majd a szűk keresztmetszetet, számolt be Pálvölgyi János, a KÜRT Zrt. pályázatkezelési vezetője.
 
MEGNÖVEKEDETT ADATHALMAZOK

Ahogy az IT erőforrások (számítási kapacitás, tárhely, internet) árai egyre csökkenek, újabb és újabb trendek (felhő, big data) törnek előre, úgy kap egyre központibb szerepet az adat. Az adatok a fontosságuk miatt már-már a termelés egyik kulcs tényezőjének is tekinthetők a munka és a tőke mellett. Az informatika egyre kiterjedtebb alkalmazásával a számítógépek által kezelt és generált adatok mennyisége egyre gyorsuló ütemben nő. Már nem csak a nagyobb szervezeteknél, hanem kkv-knál is összegyűlhet annyi adat, amennyit érdemes részletesen elemezni. Kisebb cégeknél ezek az adatok gyakran a hálózati és biztonsági eszközök naplóadatai, saját fejlesztett alkalmazás vagy szolgáltatás használati adatai, amelyeket a szervezetük, termékük, vagy szolgáltatásuk biztonságának szavatolása, tesztelés, minőségellenőrzés vagy optimalizálás céljából vizsgálnak rendszeresen. Azonban a megfelelő adatelemzéshez a hozzáillő eszköz és persze szaktudás is szükséges. A kisebb cégeknél sokszor ez nem biztosított. Számos ingyenes vagy költséghatékony megoldás áll rendelkezésre például a log adatok elemzésére, ami a vállalatoknál keletkező szöveges adatok jelentős részét adja. De minden megoldásnak van előnye és hátránya is.

Nem csak a keletkező adatok mennyisége óriási, hanem ezek nagyon változatosak is (sokféle formátum, forrás, például weblogok, egyedi alkalmazás logok, tranzakciók stb.), rendkívül gyorsan keletkeznek és gyorsan el is avulhatnak. Ez azt jelenti, hogy a beérkező egyre nagyobb mennyiségű, egyre sokrétűbb adatból egyre gyorsabban kell használható információt előállítani. Ugyanakkor az elemzőket szorítja az idő. Azonnal kellenek az eredmények a trendekről, lehetőségekről, problémákról, és szükséges lehet az azonnali beavatkozás. Amikor ilyen kihívásokkal nézünk szembe, akkor az úgynevezett „big data” problémakörrel találkoztunk, amely nem csak nehézség, de lehetőség is egyben. A logelemzés tipikusan olyan terület, amely big data problémák elé állítja szakembereket, de megoldás versenyelőnyt biztosít. A megfelelő elemzési módszerekkel a számítógépek, alkalmazások, és intelligens eszközök által generált információáradat sokkal gyorsabban válik átláthatóvá és felhasználhatóvá. Ahogy a szervezetek egyre több digitális adatot hoznak létre és tárolnak, úgy tudnak egyre pontosabb és részletesebb adatokat gyűjteni bármiről (például szoftverarchitektúrák teljesítményéről, felhasználói tevékenységről, hálózati forgalomról). Ennek hatására rugalmasabban lehet alkalmazkodni, és növelni a teljesítményt. Alkalmazás tesztelők és üzemeltetők az adott terület logjainak elemzésével felderíthet olyan komplikációkat, amikről az adott program nem feltétlenül jelez hibát. Ilyen probléma az alkalmazás által használt adatbázis elérésének lassulása (például hálózati terhelés, túlzott időszaki terhelés automatikus adatbázis karbantartási műveletek rossz időben), az alkalmazás által használt erőforrások szűkössé válása (egyéb alkalmazások, sok ütemezett feladat, nem megfelelő share policy, memóriafoglalási problémák miatt), esetleg a túl sok párhuzamos felhasználó jelenléte.
 
KONTROLÁLT KÍSÉRLETEK

A vezető vállalatok arra is használják a kiterjedt adatgyűjtést és elemzést, hogy kontrollált kísérleteket végezzenek, míg mások nem csak alapvető, és ritkán frissülő előrejelzéseket gyártanak, hanem folyamatosan frissülő előrejelzések segítségével valós időben tudnak intézkedni.

A géppel előállított adatok, logok elemzésével számottevően javítható a döntéshozás, mert ezek is hozzá tudnak járulni az olyan kérdésekhez, mint mondjuk a vevőkör szegmentáció (naplóadatok szólhatnak arról is, hogy a felhasználók milyen eszközről csatlakoznak: más pl. az iPhone-os és más az Android-os közösség). A gépi adatok is segíthetnek abban, hogy testre szabottabb termékeket és szolgáltatásokat lehessen kínálni, sőt az elemzési eredmények akár teljesen új termékeket és szolgáltatásokat is inspirálhatnak. Erre példa az időkép portál, ahol sztenderdizált formában bárki beküldhet mérési adatot, és ezt a meteorológiai szolgáltatás minőségének fejlesztésére használják. Az imént említett előnyök kihasználása jelentős hatékonyságnövekedést is eredményez, ami versenyelőnnyé válik a piacon, és alacsonyabb árakban illetve a jobb minőségben testet öltve a vásárlók számára is kedvező lesz.

„Sajnos a magyar vállalatok a probléma nagysága és komplexitása miatt aránylag kevés erőforrást szánnak a log adatok elemzésére, hiába ismerik el a fontosságukat.” Ahol végeznek logelemzést, ott is sokszor csak a törvényi megfelelőség (compliance) mértékéig. Pedig a problémák és lehetőségek ismeretében kevés erőforrásból is sok értéket lehet előállítani. Akiknek kevesebb gépi adatuk van, azok az ingyenes eszközök többségével el tudnak boldogulni (GREP, AWStats, ELSA). A komolyabb adatmennyiségekhez már oda kell figyelni az alkalmazáslogikára, ahhoz, hogy ne kelljen nagy mennyiségű hardverberuházásra költeni (LogDrill). Akiknek mind biztonsági funkciók tekintetében mind elemzendő adatmennyiségben komoly igényeik vannak, azok kénytelenek fizetős megoldások közül választani (Splunk, ArcSight, QRadar), amelyekhez sokszor hardverberuházás is szükséges. A magyarországi igényekhez képest azonban a nagy amerikai gyártók termékei sokszor túl drágák, túl komplexek, emiatt gyakran nem használják ki annyira, mint lehetne.

A hardverberuházás elkerüléséhez megfelelőek lehetnek a felhő alapú megoldások (log adatok elemzéshez: SumoLogic, Loggly). Ezeknek előnye a dinamikusság, könnyű skálázhatóság, költséghatékonyság, viszont ki kell adni az adatokat a felhőbe – ez nem csak adatbiztonsági probléma, hanem nagy mennyiség esetén hálózati probléma is egyben.

A fenti eszközökkel bizonyos logelemzési feladatokat jól el lehet végezni, azonban többségük egyfajta alkalmazáslogikát támogat, nem általános célúak. Különösen a felhő alapú logelemzők kevésbé konfigurálhatóak, mint a lokális szoftvermegoldások. A tesztelési és minőségbiztosítási feladatokhoz szükséges a testreszabhatóság, mert más információt kell kiemelni a rengeteg strukturálatlan adatból, mint egy sztenderd jelentéshez. Például a LogDrill bármilyen félig strukturált szöveges input feldolgozását gyorsan elvégzi. A szoftvertesztelési célú logelemzés esetében különösen fontos az adatok normalizációja. Az egyedileg fejlesztett komplex szoftverarchitektúrák egyedi logokat készítenek, és azokat egyedi szempontokból kell elemezni, ráadásul a gyorsaság is fontos tényező, mert a tesztelő ideje is szűkös. Hasonló eset merült fel egy nemzetközi gyártó vállalat kutatásai során, ahol a prototípus tesztelése során a különféle szenzorok sok gigabájtnyi adatot állítanak elő, amelyeket elemeznek, és az elemzési eredmény alapján újra konfigurálják a tesztkörnyezetet, illetve a prototípust. A probléma csak az, hogy ha a két tesztfázis között hosszú idő telik el az elemzés miatt, akkor addig a tesztelési terepet át kell adni más kísérleteknek, és sok idő és pénz újra összeállítani a kísérleti környezetet. A gyors tesztelési és minőségbiztosítási célú, de nagy mennyiségű adat elemzéséhez kétféle képesség szükséges: rugalmas konfigurációs lehetőségek, és elegendő számítási kapacitás.

Tehát, aki log adatokkal dolgozik, annak azt kell figyelembe venni, hogy ezek az adatok milyen mennyiségűek és formátumúak, valamint milyen rendszerességgel kell milyen bonyolultságú elemzéseket készíteni belőlük. Ez alapján tud választani a különböző eszközök között. A tesztelési feladatok alkalmi és egyedi jellege miatt egy felhő alapú, de testre szabható adat normalizálást is lehetővé tevő logelemzési rendszer lehet egy olyan megoldás, ami jövőben nem hiányozhat a minőségbiztosítással foglalkozó szakemberek eszköztárából.
 
(A publikáció az Európai Unió, Magyarország és az Európai Szociális Alap társfinanszírozása által biztosított forrásból a TÁMOP-4.2.2.C-11/1/KONV-2012-0004 azonosítójú "Nemzeti kutatóközpont fejlett infokommunikációs technológiák kidolgozására és piaci bevezetésére" című projekt támogatásával jött létre.)
Az oldalt partnerünk szerkeszti, annak tartalmáért felelősséget nem vállalunk!