Apache Kafka, büyük veriler için tekerlekleri nasıl yağlar?

2024

Реактивные микросервисы с Apache Kafka / Денис Иванов (2ГИС)

Analitik genellikle büyük verilerle ilgili en büyük zorluklardan biri olarak tanımlanır, ancak bu adımın gerçekleşmesinden önce bile, verilerin kurumsal kullanıcılar tarafından alınması ve sunulması gerekir. İşte Apache Kafka'nın içeri girdiği yer burası.

Aslen LinkedIn'de geliştirilen Kafka, web sitelerinden, uygulamalardan ve sensörlerden gerçek zamanlı veri akışlarını yönetmek için açık kaynaklı bir sistemdir.

Esas olarak, bir çeşit işletme gibi davranır. Örneğin, kullanıcı etkinliği, kayıtlar, uygulama ölçümleri, hisse senedi etiketleri ve cihaz enstrümantasyonu gibi şeylerle ilgili yüksek hacimli verileri toplayan ve kurumsal kullanıcılar tarafından tüketim için gerçek zamanlı bir akış olarak mevcut kılan merkezi sinir sistemi.

[ Daha fazla okuma: En iyi beyaz LED akıllı ampuller]

Kafka, kurum içi uygulamalar için ActiveMQ veya RabbitMQ gibi teknolojilerle ya da Amazon müşterileri için Bulut Web Servisleri Kinesis ile sık sık karşılaştırıldı. ve RedMonk ile ana analist.

"Yüksek kaliteli açık kaynaklı bir proje olduğu için daha görünür hale geliyor, ama aynı zamanda yüksek hızlı bilgi akışlarını işleme yeteneği, IoT gibi işyüklerine hizmet sağlamada giderek daha fazla talep görüyor. Diğerleri arasında, "O'Grady ekledi.

LinkedIn'de tasarlandığından beri, Kafka Netflix, Uber, Cisco ve Goldman Sachs gibi şirketlerden yüksek profilli destek aldı. Cuma günü, IBM'den, Bluemix platformu aracılığıyla iki yeni Kafka tabanlı hizmetin sunulduğunu açıklayan yeni bir artış oldu.

IBM'in yeni Streaming Analytics hizmeti, milisaniye süreleri boyunca milyonlarca kez yanıt verme süresi için milyonlarca olayı analiz etmeyi amaçlıyor. anlık karar verme. Artık IBM'de bulunan Message Hub, diğer uygulamalar ile iletişim kurmak için bir REST veya Apache Kafka API'sini (uygulama programlama arabirimi) kullanma seçeneği ile bulut uygulamaları için ölçeklenebilir, dağıtılmış, yüksek verimli, eşzamansız bir mesajlaşma sağlar.

Kafka 2011'de açık kaynaklı. Geçen yıl, Kafka'nın yaratıcılarından üçü, işletmelerin üretimde kullanmasına yardım etmeye adanmış bir girişim olan Confluent'i başlattı.

"LinkedIn'deki patlayıcı büyüme aşamasında, büyüyen kullanıcıyla yetişemedik. Kafka'nın yaratıcıları ve Konfluent'in kurucu ortaklarından Neha Narkhede, “Kullanıcı deneyimini geliştirmemize yardımcı olacak veriler ve veriler” dedi.

"Kafka'nın yapmanıza izin verdiği şey, verileri şirket genelinde taşımak ve Narkhede, bunu kullanmaya ihtiyaç duyan insanlara saniyeler içinde sürekli olarak serbest akan bir akım olarak kullanılabilir. “Ve bunu büyük ölçüde yapıyor.”

LinkedIn'deki etki "dönüşümsel" idi. Bugün, LinkedIn, üretimdeki en büyük Kafka dağıtımını sürdürüyor; Günde 1,1 trilyon mesajını aşmaktadır

Bu arada, Confluent, büyük şirketlerin üretim sistemleri için Kafka'yı çalıştırmasına yardımcı olmak için abonelikle gelişmiş yönetim yazılımı sunmaktadır. Müşterileri arasında büyük bir büyük perakendeci ve "ABD'deki en büyük kredi kartı veren şirketlerden biri" diyor Narkhede.

İkincisi, gerçek zamanlı sahtecilik koruması için teknolojiyi kullanıyor.

Kafka, çok farklı türde veriyi hızlı bir şekilde entegre etmede yardımcı olan "inanılmaz derecede hızlı bir mesajlaşma otobüsü", 451 Araştırması olan bir analist olan Jason Stamper. “Bu yüzden en popüler seçimlerden biri olarak ortaya çıkıyor.”

ActiveMQ ve RabbitMQ dışında, benzer işlevselliği sunan başka bir ürün de Apache Flume oldu; Fırtına ve Kıvılcım Akışı birçok yönden de benzer.

Confluent'in rakipleri arasında IBM'in InfoSphere Streams'i, Informatica'nın Ultra Messaging Streaming Edition'ı ve SAS'ın Event Stream Processing Engine'i (ESP) ve Software AG'nin Apama'sı, Tibco's StreamBase'i ve SAP'nin Aleri, Stamper ekledi. Daha küçük rakipler arasında DataTorrent, Splunk, Loggly, Logentries, X15 Software, Sumo Logic ve Glassbeam bulunur.

Bulutta, AWS'nin Kinesis akış işleme servisi "Redshift veri ambarı ve S3 depolama platformunun beğenisine ek bir yarar sağladı" dedi.

Teradata'nın yeni ilan edilen Dinleyici bir başka yarışmacı ve Kafka-tabanlı Aynı zamanda, Forrester Research'ün başkan yardımcısı ve baş analisti Brian Hopkins'e de dikkat çekti.

Genelde, gerçek zamanlı verilere yönelik belirgin bir eğilim var, dedi Hopkins.

2013'e kadar ya da öylesine, " Hadoop'a doldurulmuş büyük miktarda veri hakkında "dedi. “Şimdi, bunu yapmıyorsanız, zaten güç eğrisinin arkasındasınız.”

Bugün, akıllı telefonlardan ve diğer kaynaklardan elde edilen veriler, işletmelere gerçek zamanlı olarak tüketicilerle etkileşim kurma ve bağlamsal deneyimler sağlama fırsatı veriyor. dedim. Bu, daha sonra, verileri daha hızlı anlayabilme yeteneğine dayanıyor.

"Nesnelerin İnterneti, ikinci bir mobil dalga gibi," dedi Hopkins. "Her satıcı bir veri çığlığı için konumlanıyor."

Sonuç olarak, teknoloji buna göre uyarlanıyor.

"2014 yılına kadar Hadoop ile ilgiliydi, o zaman Kıvılcımdı" dedi. "Şimdi, bu Hadoop, Kıvılcım ve Kafka. Bunlar, bu modern analitik mimaride veri toplama hattında üç eşit akran var."