instagram twitter linkedin github youtube

6.5.15

dev data

BİG DATA

“Big Data” yani Türkçesi “Büyük Veri” (bizDev Veri diyoruz), tanımı sadece “diskte çok fazla yer kaplayan veri” anlamına değil, aynı zamanda geleneksel yöntem ve araçlarla işlenemeyen veri anlamına da geliyor.Teknolojinin ilerlemesi, internetin gelişmesi ve sosyal medya devrimi sayesinde bilginin gücünün öne çıkması iş yapma şeklimizi kökten değiştirdi. Firmalar bir adım öne geçebilmek için fark yaratmak zorundalar. Bu yüzden artık en ufak bir bilginin bile ne kadar önemli olduğu anlaşılmış durumda. Peki, bu kadar değerli olan bu veriler nerede?
Aslına bakarsanız bu veriler her yerde. Hatta biz hergün bunun bir parçası oluyoruz. İnternet kullanırken yaptığımız her tıklama çok önemli bir veri. RFID ve sensör teknolojileri giderek yaygınlaşıyor, bağlı bulundukları ortamlar ile ilgili sürekli veri topluyor. Gelecekte daha yaygın olacağı kesin ve şimdiden bazı otomobiller sürüş istatistiklerini toplamaya başladılar bile. İşte bütün bunlar, finansal veriler, medikal veriler, hepsi birleştiğinde dev veriyi oluşturuyor. Peki bu kadar çok veri nasıl saklanıyor?
Teknolojinin gelişmesi donanım fiyatlarının düşmesine sebep olduğu halde, saklanması gereken verilerin büyüklüğü ve çokluğu nedeniyle donanım maliyetlerini aşırı derecede yükseltebilir. Terrabyte büyüklüğündeki verileri saklayacak diskler ev kullanıcısına kadar inmişken dev veri petabyte, exabyte, belki zettabyte seviyesinde bile olabilir. 2000 yılında tüm dünyada 800,000 petabyte büyüklüğünde veri saklandı. 2020 yılında bu verinin 35 zetabyte olacağı tahmin ediliyor. Örneğin Twitter her gün 7 TB, Facebook 10 TB ve bazı kurumlar her gün her saat TB’larca veri saklıyor. Ancak yüksek maliyetli donanımlarla saklayabileceğimiz bu dev veriyi daha az maliyetli, basit donanımların açık kaynaklı dağıtık dosya sistemleri ile birleştirilmesiyle oluşan dev veri çözümlerinde saklamak mümkün. Peki, bu dev boyuttaki veriler nasıl işlenebilir ve ihtiyaç duyulan bilgiler elde edilir?
Yüksek hacimli bir arama motoru hizmeti veren bir firma olduğumuzu varsayalım. Arama motorumuzda hergün milyonlarca kelime aranıyor, milyonlarca tıklama yapılıyor. Eğer klasik yöntemler kullanıyor olsaydık bu verileri saklayabilmek için büyük ihtimalle milyon dolarlık donanım üzerinde çalışan yüzbinlerce dolarlık veritabanı sistemine sahip olmamız gerekirdi. Diyelim ki bu sisteme sahibiz, birbiri ile ilişkili olan kelimelerin analizini yapmak istediğimiz zaman bunu SQL sorguları ile yapabilmemiz pek mümkün değildir. Sorgu işlemleri o kadar uzun sürebilir ki çıkartacağımız sonuç güncelliğini bile yitirebilir. Başka bir engel de, bu verilerin yapılandırılmamış (unstructured) olarak tutuluyor olması durumu. Yani klasik yöntemlerle dev verinin işlenebilmesi pek söz konusu değil. Dev veri, ancak dev veri çözümleri ile işlenebilir.
Google klasik yöntemleri kullanmayarak, ihtiyacı olan teknolojiyi kendisi geliştirerek başarıya ulaştı. Google milyarlarca internet sayfasının verisini Google File System üzerinde tutuyor, veritabanı olarak Big Table kullanıyor, dev veriyi işlemek için MapReduce kullanıyor. Bu teknolojilerin hepsi düşük maliyetli binlerce bilgisayarın bir araya gelerek oluşturduğu kümeler üzerinde çalışıyor.  Benzer bir şekilde Amazon da verileriniDynamoDB üzerinde tutuyor.
Google, Amazon gibi firmalar geliştirdiği teknolojiler ile ilgili yaptıkları çalışmalar ile ilgili akademik yazılar yayınlıyorlar. Yayınladıkları yazılardan esinlenen Doug Cutting gibi bazı yazılımcılar benzer teknolojileri açık kaynaklı olarak geliştiriyorlar. Bunların en güzel örnekleri genelde Apache projeleri olarak ortaya çıkan LuceneSolrHadoopHBase gibi projeler. Bu projelerin her biri dev veriyi kullanabilen başarılı projeler.
İkinci jenerasyon diyebileceğimiz firmalardan Facebook, Twitter, Linkedin gibi firmalar dev veri için geliştirdikleri projeleri kendilerine saklamayıp açık kaynaklı olarak yayınlayarak bir adım ileriye gidiyorlar. Cassandra, Hive, Pig, Voldemort, Storm, IndexTank projeleri bunlara örnek. Bunların dışında MongoDB, Riak, Redis gibi yüzlerce dev veri işlemek üzerine geliştirilmiş projeler mevcut ve neredeyse her gün buna bir yenisi katılıyor. Bu esnada dev verinin önem kazanmasıyla mevcut projeler de hem finansal destek buluyor, hem de teknolojik olarak olgunlaşıyor. Peki dev veri ile neler yapılabilir?
İhtiyacımız olan bilgiler dev verinin içerisinde mevcut. Bir bilgi teknolojileri şirketi sistemlerinin yaptığı her hareketi kaydedip, “hangi hatalar birbirleriyle ilişkili”, “hangi problem sisteminizin performansını ne kadar etkiliyor” gibi soruların cevaplarını bulabilir. Bir banka, müşterilerin hareketlerinden dolandırıcılık teşebbüsünü tespit edebilir. E-posta servis sağlayıcı tüm e-postaları analiz edilerek hangilerinin spam olduğu tespit edebilir. Sosyal paylaşım sitesi kullanıcılarının beğeni ve paylaşımlarını analiz ederek ona en uygun reklamları gösterebilir. Bir mağaza müşterilerinin aldığı ürünleri analiz ederek onlara en uygun ürünleri önerip satışlarını arttırabilir. Yani, dev veri geleceğe ışık tutar.
Sitemizde amacımız Dev Veri başlığı altında toplanan NoSQL, Hadoop ve Lucene gibi teknolojileri incelemek ve tecrübelerimizi paylaşmaktır.