Close Menu
Datormagazin
    Facebook
    Senaste testerna
    • Test: Huawei Watch 5 & Fit 4 Pro
    • Test: Huawei Watch GT 3 SE
    • Test: Beoplay EX
    • Test: Sony Xperia 1 III
    • Test: Cooler Master Masterair MA624 Stealth och MA612 Stealth ARGB
    DatormagazinDatormagazin
    • Hem
    • Nyheter
    • Tester
      1. Toppklass
      2. DMZ Rekommenderar
      3. Gaming
      4. Jämförande test
      5. View All

      Test: OnePlus Pad 3 och Smart Keyboard

      10 juni, 2025

      Test: Huawei Watch 5 & Fit 4 Pro

      15 maj, 2025

      Motorola Razr 60 Ultra

      6 maj, 2025

      Test: Sennheiser HD 550

      7 april, 2025

      Test: Xiaomi POCO F7 Ultra

      6 juni, 2025

      Test: Kioxia Exceria Plus G4

      28 maj, 2025

      Test: AOC AGON PRO AG456UCZD

      21 maj, 2025

      Test: Asus ZenScreen Duo OLED MQ149CD

      18 maj, 2025

      Test: Kioxia Exceria Plus G4

      28 maj, 2025

      Test: AOC AGON PRO AG456UCZD

      21 maj, 2025

      Test: Cooler Master Masterliquid 360 ION & Hyper 612 APEX

      18 april, 2025

      Test: Sennheiser HD 550

      7 april, 2025

      Test: Logitech Ergo K860 vs. Microsoft Sculpt Ergonomic Keyboard

      19 augusti, 2021

      Vi utser den bästa multiskrivaren

      20 maj, 2021

      Test: Cooler Master Masterair MA624 Stealth och MA612 Stealth ARGB

      12 maj, 2021

      Test: Oneplus 9 Pro och Oneplus 9

      21 april, 2021

      Test: OnePlus Pad 3 och Smart Keyboard

      10 juni, 2025

      Test: Xiaomi POCO F7 Ultra

      6 juni, 2025

      Teknologin som driver e-sportturneringar: Hur allt hänger ihop

      2 juni, 2025

      Test: Asus NUC 15 Pro+

      1 juni, 2025
    • DMZ-riggen
    • Programtips
    • Gaming
    • Fråga experten
      • Hårdvara
      • Mjukvara
    • DMZ Retro
    • Shop
    • Om DMZ
      • Om Datormagazin
      • Annonsera
      • Nyhetsbrevet
      • Kundtjänst
      • Press & PR
    Facebook
    Datormagazin
    Hem » Artikel » Hadoop – ett komplett ramverk
    05 hadoop ele
    Artikel

    Hadoop – ett komplett ramverk

    Patrik WahlqvistBy Patrik Wahlqvist10 oktober, 20167 Mins Read

    Under sina tio år har Hadoop gått från ett mindre projekt till ledande lösning för bearbetning av stora datamängder inom alla områden. Mycket har hänt under åren, och mer är på gång.

    Efter flera år av planering och tankar kring hur extremt stora data mängder skulle kunna hanteras på ett effektivare sätt sjösatte Doug Cutting, som vid denna tid arbetade på Yahoo, 2006 sin projektidé Hadoop. Projektet startades under Apache-stiftelsen, och namnet och logotypen tog Cutting från sonens leksakselefant. Under åren som gått fram till idag, tio år senare, har oerhört mycket hänt och Hadoop har med sitt öppna ramverk helt förändrat marknaden för analysverktyg.

    Under dessa år har det hållits ett flertal Hadoop Summit Event. Dessa hålls runt om i världen för att knyta samman tekniker och utvecklare samt för att väcka intresse för Hadoop. Datormagazin var på plats när Europas fjärde summit hölls i Dublin på Irland tidigare i år.

    Detta blir dock inte någon vanlig rapportering från ett event. Istället visar vi på bredden hos Hadoop. För numera är det inte enbart ett sätt att bearbeta stora datamängder, utan Hadoop erbjuder mer eller mindre komplett hantering av data. Detta oavsett om det handlar om ostrukturerade data, flöden från sociala medier, satellitbilder, GPS-signaler, serverloggar, data som strömmas i realtid eller mer statiska data.

    Öppet ramverk

    Hadoop är ett ramverk, eller en verktygslåda, för programmerare. Det består i skrivande stund av över 30 olika underprojekt eller delprogram. En del av dessa kan köras som fristående moduler, medan andra fungerar som underliggande komponenter för att överliggande program eller själva ramverket ska få önskade funktioner.

    Grunden och den gemensamma nämnaren för dem alla är dock att de hjälper oss att analysera eller behandla mer eller mindre obegränsade mängder data. Dock med en stor skillnad jämfört med traditionella och alternativa lösningar. Den öppna standarden innebär nämligen att mer eller mindre vem som helst kan utveckla och anpassa Hadoops olika projekt eller ta fram egna. Det är på detta sätt som Hadoop växer och hela tiden utvecklas. De som sedan utvecklar en Hadoop-baserad applikation behöver inte fokusera särskilt mycket på den grundläggande samordningen av arbetet, då detta sköts av ramverket. Lite på samma sätt som med ett API.

    Hanteringen av data rymmer tre steg: Insamlingen, lagringen och bearbetning en. För Hadoop är det oväsentligt om dessa tre steg sker i en löpande process eller i separata steg. Ramverket omfattar nämligen lösningar för att hantera både statiska och strömmande data.

    Du kan använda Hadoop till att söka igenom data efter ett visst mönster eller för att sammanställa statistik från olika sorters trafikloggar. Eller också kan du använda Hadoop för att behandla binärdata som vid omkodning av bilder och ansiktsigenkänning.

    Det sistnämnda används bland annat av flera polismyndigheter i USA. Strömmad video från övervakningskameror analyseras för ansiktsigenkänning. Då Hadoop har en skalbar struktur kan samma system användas för såväl stora som små enheter.

    Snabb hantering

    En av de stora fördelarna med Hadoop är dess prestanda, vilken uppnås på flera sätt. Hadoop har under hela sin tid vunnit fördelar genom att bryta ner data i mindre delar och sedan bearbeta dessa parallellt. Det kan liknas vid att tjänsten delar upp indata, för att sedan samordna beräkningarna av samtliga delar samtidigt som det sker en löpande övervakning så att du får ut önskat resultat från dessa.

    En annan del, eller rättare sagt ett sidoprojekt, som optimerar prestandan är Spark. Detta är en beräkningsmotor vilken erbjuder en enkel men uttrycksfull programmeringsmodell. Den arbetar primärt med maskinlärning. Dock arbetar den även med strömmande data och med att visualisera data. Då denna process sker fullt ut i minnet blir bearbetningen extremt snabb, när väl data är inlästa. För att optimera inläsningen till minnet, och även tillbaka till disk, bör Hadoop Distributed File System (HDFS) användas.

    Som de flesta förstår går det inte att köra obegränsat stora datamängder i minnet på en server, oavsett hur kraftfull denna är. Därför är Spark konstruerat för att kunna skalas efter behov, data kan samtidigt bearbetas på multipla servrar.

    Då filsystemet HDFS är distribuerat kommer filerna att spridas ut över flera noder i klustret, vilket även omfattar nätverket, och kan därför även nås överallt. De bör dock av prestandaskäl hållas lokalt på samma server eller serverpool för bästa prestanda. Bäst resultat uppnås med relativt stora filer som bearbetas med långa, sekventiella läsningar och skrivningar.

    Själva resursfördelningen, eller lastbalanseringen, sköts dock inte av Spark utan av nästa modul kallad Yarn. Sistnämnda kan liknas vid ett operativsystem. Även Yarn är i sig ett eget ramverk för att fördela olika jobb mellan resurser och kluster.

    Yarn består av flera delar. En av dem är Mapreduce, som är motorn för att hantera just parallell bearbetning av data. En annan del är Tez, som kan ses lite som ett mellanlager till Yarn för att optimera resurshanteringen.

    Tez är optimerad för att hantera batch-körningar av olika slag. På grund av sin flexibilitet kan denna lösning många gånger radikalt reducera antalet jobb för en process, jämfört med tidigare lösning ar. Den är i flera sammanhang även effektivare än Mapreduce. Även Tez jobbar direkt i minnet, vilket ger en omedelbar respons på frågor.

    01_hadoop

    Säkerhet och rättigheter

    Något som är minst lika viktigt som prestanda är säkerheten. När det gäller Hadoop löses den sistnämnda primärt med hjälp av två funktioner kallade Atlas och Ranger (tidigare Argus). Det förstnämnda är enkelt uttryckt användargränssnittet mot alla metadata. Det hjälper till att klassificera alla data av både intern och extern karaktär. Det är här som alla data taggas (konton, personer, grupper etcetera) och allt sker centralt. Detta innebär att du bara behöver definiera åtkomstkontrollen en gång, sedan kan du applicera det på alla data.

    Ranger ligger sedan som ett paraply över alla underliggande komponenter. Denna lösning hanterar tillgången till alla komponenter och tjänster med mera, baserat på användare och grupper. Du kan även styra synligheten för objekt och tjänster.

    Båda funktionerna har funnits som separata moduler. Då de integrerats kan företag nu specificera policyer för att styra och kontrollera rättigheter samt säkerhet i realtid, detta över alla Hadoops komponenter. Det omfattar allt från vanlig accesskontroll till tids-, datum- och platsspecificerad accesskontroll. Dessutom får utvecklare nu en möjlighet att kombinera olika typer av skydd och rättigheter, så att exempelvis användare X har åtkomst till vissa objekt och data, men när han sedan befinner sig på icke godkända platser kommer dessa objekt inte att kunna nås.

    Skyddet inbegriper även Knox. Detta är en tjänst som styrs av Ranger och som fungerar på ungefär samma sätt som en brandvägg. Knox definierar vem som får använda vad och när detta får ske.

    Som komplement till dessa lanserades under Hadoop Summit även nyheten Apache Metron. Kortfattat är detta en  avancerad säkerhetsanalytisk plattform för att upptäcka och reducera säkerhetsrisker i realtid. När en organisation angrips kan Metrons användare behandla och jämföra data från omfattande flöden över multipla plattformar i realtid, och stoppa den skadliga koden. Och denna behöver inte vara känd sedan tidigare, utan kan blockeras baserat på icke igenkända mönster.

    03_snkerhet

    Andra delar

    Som nämndes tidigare består Hadoop av många komponenter. Några har belysts men ett par ytterligare förtjänar korta om nämnanden.

    En sådan är Hue, ett webbgränssnitt för att administrera Hadoop. Detta gränssnitt kan användas tillsammans med Zookeeper för att bland annat samordna konfigurationsinställningar och aktivera respektive inaktivera tjänster över ett helt Hadoop-kluster.

    Likaså bör Avro nämnas, ett system för att serialisera data. Den blir på så sätt enkel att tolka för andra system.

    Sist har du Mahout, en programmeringsmiljö. Denna används för att ta fram maskinlärande applikationer.

    Skalbart ger ekonomi

    En annan anledning till den snabba ut vecklingen och acceptansen är det ekonomiska perspektivet. När det gäller Hadoop behövs inte superdatorer eller annan dyr, specialiserad maskinvara för att behandla stora datamängder. Du får skalbarhet och distribuerad databehandling på vanliga servrar. Detta ger möjlighet att bearbeta flera petabyte med en betydligt mindre budget. Dessutom är Hadoop utformat för att vara skalbart från en enda server till tusentals datorer i olika former av kluster.

    Genom den öppna källkoden och de fria modulerna kan företag dessutom enkelt flytta data och lösningar till olika under liggande plattformar. Men värt att poängtera är att öppen källkod inte är detsamma som kostnadsfritt. Det behövs alltid servrar och sammanhållande lösningar och tjänster. Fast väljer du någon av alla molnbaserade tjänster kan du skapa ett kluster på några minuter med minimala startkostnader.

    02_al-data

    mjukvara utveckling
    Share. Facebook Twitter LinkedIn Email WhatsApp

    Missa inte

    Tester

    Test: OnePlus Pad 3 och Smart Keyboard

    10 juni, 20257 Mins Read
    Artikel

    Test: Xiaomi POCO F7 Ultra

    6 juni, 20257 Mins Read
    Artikel

    Test: Asus NUC 15 Pro+

    1 juni, 20255 Mins Read
    Tester

    Test: Kioxia Exceria Plus G4

    28 maj, 20255 Mins Read
    Add A Comment

    Leave A Reply Cancel Reply

    Senaste kommentarerna
    • Andreas Rejbrand om Test: Samsung Galaxy watch 7
    • Petter om Test: Samsung Galaxy watch 7
    • Anders Öhman om Test: Samsung Galaxy watch 7
    • Tobias om Test: Samsung Galaxy watch 7
    • Anders om Test: HP Envy X360
    Fler nyheter

    Glorious Gamings Pro-möss lanseras i vit

    25 september, 2024

    Gen Z och kvinnor väljer mobilen framför sex

    25 september, 2024

    Många Svenska företag lever inte upp till sina visioner gällande hållbarhet.

    21 augusti, 2024

    Nya Philips 49B2U6903CH – en skärm för ”den moderna arbetsplatsen”

    28 juni, 2024

    Toppklass

    Test: Huawei Watch 5 & Fit 4 Pro

    15 maj, 2025

    Test: OnePlus 12

    23 februari, 2024

    Test: Philips Evnia 49M2C8900

    7 januari, 2024

    Test: Corsair Dominator Titanium DDR5

    28 september, 2023
      Kontaktinformation
      Kontaktinformation

      Omsoc Publishing AB
      Datormagazin
      Box 440 73
      100 73 Stockholm
      Sweden

      Telefonnummer: +46 8–208 118
      E-post: datormagazin@datormagazin.se

      Missa inte

      M.2 optimerad NAS-prestanda

      2 september, 2024

      WiFi 7 – När, var, hur & varför

      23 augusti, 2023

      TCS digitala tvillingar och deras prediktiva kraft.

      4 juli, 2023
      Datormagazin
      Facebook YouTube RSS
      • Om cookies
      • Hantering av personuppgifter
      • Köpvillkor www.datormagazin.se
      © 2025 Datormagazin/Omsoc Publishing AB, org-nr: 559034-9014 – Ansvarig utgivare: Anders Öhman

      Type above and press Enter to search. Press Esc to cancel.