Big Data

Büyük Veri

1960 lı yıllardan itibaren gelişme evresinde olan veri analizi ve entegrasyonu çalışmalarının bir bütün olarak değerlendirilmesi ile Veri Bilimcisi (ing. Data Scientist) teriminin 1996 yılında ortaya çıkmasını ilişkilendirebiliriz. O yıllar, büyük miktarda verinin toplandığı ilişkisel veri tabanlarında önceden fark edilemeyen bilginin keşfedilmeyi beklediği yıllar olarak da hatırlanır.

Büyük verinin anlamlandırılması ve bilgiye dönüştürülme süreci, önceki bilimsel ve teknolojik birikimlerin üzerine yeni yapılan çalışmaların ve ortaya konan yeni problemlerin eklenmesi, Hadoop gibi  dağıtık işleme yapan ve kolayca erişilebilen açık kaynak kodlu bir yazılımın ortaya konması ile farklı bir aşamaya geldi. Daha önce başa çıkılabilenden çok daha fazla veri ile başa çıkmak, dolayısı ile iş dünyasına, araştırmalara yön verecek kararlar alacak bilgiler elde etmek mümkün hale geldi.

Büyük verinin grid hesaplama (ing. Grid Computing) yöntemleri ile işlenmesinin en az yirmi yıllık bir geçmişi olmasına rağmen, uygulandığı problem ve uygulayan kurum ve şirketlerin sayısı yıllar içinde sınırlı kaldı. Bu sınırlamada verinin her işlem öncesi ağ (ing. Network) üzerinde ilgili makineye taşınmasının problemler çıkarması ve çözümün bir türlü istenen şekilde gelmemesinin etkili olduğu söylenebilir. Yeni fikir, verinin merkezi silolarda tutulup onu işleyecek griddeki makinelere taşınması yerine, doğrudan en başta verinin gridi oluşturan makinelere dağıtılması, çalışacak prosedürün verinin olduğu makineye yollanması şeklinde ortaya çıktı. Bunu ilk çözen Google şirketi oldu ve problemi nasıl çözdüğünü 2003 yılından itibaren yayınladığı üç makale ile dünyaya duyurdu. Böyle bir sistemin temel bileşenlerini anlatan bu makaleler, özel bir dağıtık dosyalama sistemi ( ing. Google File System -GFS), Dağıtık tablo yapısı (ing.  BigTable ) ve bu dağıtık yapıda işleme yapacak bir algoritma (ing. MapReduce) dan oluşmaktaydı.

Daha sonraki süreçte bu makalelere dayanarak yapılan çalışmalar sonucu Hadoop doğdu. Tabii bu süreçte verinin birçok makineye dağıtılarak dağıtık işlenmesinin mümkün hala getirilmesi, aynı verinin anlamlandırılması ve sonuç çıkarımında da çok yol alındığı anlamı çıkarılmamalı. Bu problemin henüz tam anlamı ile çözülememesinin sebeplerini aşağıda detaylandıracağız, fakat öncelikle bu sürecin sahibi olarak isimlendirilen Veri Bilimci ve neden bu ismin ön plana çıktığı üzerinde durmakta fayda var.

Bir Cevap Yazın

Aşağıya bilgilerinizi girin veya oturum açmak için bir simgeye tıklayın:

WordPress.com Logosu

WordPress.com hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Twitter resmi

Twitter hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Facebook fotoğrafı

Facebook hesabınızı kullanarak yorum yapıyorsunuz. Çıkış  Yap /  Değiştir )

Connecting to %s