Hadoop Ekosistemi ve Dağıtık Depolama
Hadoop Ekosistemi ve Dağıtık Depolama
Büyük verinin tek bir sunucu veya bilgisayar üzerinde depolanması ve işlenmesi fiziksel olarak imkansızdır. Bu sorunu çözmek amacıyla geliştirilen Apache Hadoop, açık kaynaklı ve dağıtık bir veri depolama ve işleme altyapısıdır. Hadoop’un temelinde iki ana bileşen bulunur: HDFS (Hadoop Distributed File System) ve MapReduce. HDFS, devasa boyuttaki dosyaları bloklara bölerek binlerce ucuz sunucudan (düğümlerden) oluşan bir küme (cluster) üzerinde güvenli ve yedekli bir şekilde saklar. Bu sayede sunuculardan biri bozulsa dahi veri kaybı yaşanmaz. MapReduce ise verinin depolandığı sunucularda paralel olarak işlenmesini sağlayan bir programlama modelidir. Veriyi merkezi bir yere taşımak yerine, hesaplamayı verinin olduğu yere taşır. Hadoop ekosistemi, zamanla veri sorgulama için Hive, iş akışları için Oozie, ilişkisel olmayan veritabanı yönetimi için HBase gibi yan araçlarla zenginleşerek büyük veri mühendisliğinin temel standartlarından biri haline gelmiştir. Büyük miktardaki soğuk verilerin arşivlenmesi ve toplu işlenmesi (batch processing) için halen en güçlü çözümlerden biridir.
Ekosistem Bilgisi
Hadoop Ekosistemi ve Dağıtık Depolama
Ekosistem Türü
Büyük Veri
Şehir
Çevrimiçi
Benzer Ekosistem Üyeleri
Aynı kategoride yer alan diğer kuruluşlar