Πώς Apache Kafka λιπαίνει τους τροχούς για μεγάλα δεδομένα

2024

Apache Kafka in 6 minutes

Το Analytics συχνά περιγράφεται ως μία από τις μεγαλύτερες προκλήσεις που σχετίζονται με τα μεγάλα δεδομένα, αλλά ακόμα και πριν γίνει αυτό το βήμα, τα δεδομένα πρέπει να ληφθούν και να διατεθούν σε επιχειρησιακούς χρήστες. Αυτό είναι όπου Apache Kafka έρχεται.

Αρχικά αναπτύχθηκε στο LinkedIn, το Kafka είναι ένα σύστημα ανοιχτού κώδικα για τη διαχείριση ροών δεδομένων σε πραγματικό χρόνο από ιστοσελίδες, εφαρμογές και αισθητήρες.

Ουσιαστικά λειτουργεί ως ένα είδος επιχείρησης " κεντρικό νευρικό σύστημα ", το οποίο συλλέγει για παράδειγμα δεδομένα μεγάλης ποσότητας σχετικά με πράγματα όπως η δραστηριότητα των χρηστών, τα αρχεία καταγραφής, οι μετρήσεις εφαρμογών, οι σημειώσεις αποθεμάτων και τα όργανα των συσκευών και το καθιστά διαθέσιμο ως ροή πραγματικού χρόνου για κατανάλωση από επιχειρησιακούς χρήστες.

Η Kafka συγκρίνεται συχνά με τεχνολογίες όπως το ActiveMQ ή το RabbitMQ για εφαρμογές στο χώρο της εγκατάστασης ή με το Kinesis της Amazon Web Services για τους νέους πελάτες, δήλωσε ο Stephen O'Grady, συνιδρυτής και ο κύριος αναλυτής με το RedMonk

«Είναι όλο και πιο ορατό γιατί είναι ένα υψηλής ποιότητας έργο ανοικτού κώδικα αλλά και επειδή η ικανότητά του να χειρίζεται ροές πληροφοριών υψηλής ταχύτητας είναι ολοένα και πιο απαιτητική για τη χρήση φορτίων εργασίας όπως το IoT, μεταξύ άλλων, "πρόσθεσε O'Grady.

Από τότε που σχεδιάστηκε στο LinkedIn, η Kafka έχει κερδίσει υψηλού επιπέδου υποστήριξη από εταιρείες όπως οι Netflix, Uber, Cisco και Goldman Sachs. Την Παρασκευή πήρε νέα ώθηση από την IBM, η οποία ανακοίνωσε τη διαθεσιμότητα δύο νέων υπηρεσιών που βασίζονται στην Kafka μέσω της πλατφόρμας Bluemix.

Η νέα υπηρεσία Streaming Analytics της IBM στοχεύει στην ανάλυση εκατομμυρίων γεγονότων ανά δευτερόλεπτο για τους χρόνους απόκρισης σε χιλιοστά του δευτερολέπτου άμεση λήψη αποφάσεων. Το IBM Message Hub, τώρα σε έκδοση beta, παρέχει κλιμακωτά, κατανεμημένα, υψηλής απόδοσης, ασύγχρονα μηνύματα για εφαρμογές σύννεφο, με την επιλογή χρήσης API Apache Kafka API για την επικοινωνία με άλλες εφαρμογές.

Η Kafka ήταν που άνοιξε το 2011. Τον περασμένο χρόνο, τρεις από τους δημιουργούς της Kafka ξεκίνησαν το Confluent, μια εκκίνηση που αφιερώθηκε στις επιχειρήσεις που την βοηθούσαν στην παραγωγή σε κλίμακα.

"Κατά τη διάρκεια της φάσης εκρηκτικής ανάπτυξης στο LinkedIn, δεν μπορούσαμε να συμβαδίσουμε με τον αυξανόμενο χρήστη βάση και τα δεδομένα που θα μπορούσαν να χρησιμοποιηθούν για να μας βοηθήσουν να βελτιώσουμε την εμπειρία των χρηστών », δήλωσε ο Neha Narkhede, ένας από τους δημιουργούς της Kafka και οι συνιδρυτές της Confluent.

" Αυτό που σας επιτρέπει να κάνετε Kafka είναι να μεταφέρετε δεδομένα στην εταιρεία και να τα καταφέρετε διατίθεται ως συνεχές ρεύμα ελεύθερης ροής μέσα σε λίγα δευτερόλεπτα για τους ανθρώπους που πρέπει να το χρησιμοποιήσουν », εξήγησε ο Narkhede. "Και το κάνει σε κλίμακα."

Η επίδραση στο LinkedIn ήταν "μετασχηματιστική", είπε. Σήμερα, η LinkedIn παραμένει η μεγαλύτερη ανάπτυξη της Kafka στην παραγωγή. υπερβαίνει τα 1,1 τρισεκατομμύρια μηνύματα την ημέρα.

Η Confluent προσφέρει, εν τω μεταξύ, προηγμένο λογισμικό διαχείρισης με συνδρομή για να βοηθήσει τις μεγάλες επιχειρήσεις να διαχειρίζονται την Kafka για συστήματα παραγωγής. Μεταξύ των πελατών της είναι ένας μεγάλος λιανοπωλητής και ένας από τους μεγαλύτερους εκδότες πιστωτικών καρτών στις Ηνωμένες Πολιτείες, δήλωσε ο Narkhede.

Ο τελευταίος χρησιμοποιεί την τεχνολογία για την προστασία από απάτες σε πραγματικό χρόνο, ανέφερε. > Το Kafka είναι ένα "απίστευτα γρήγορο λεωφορείο ανταλλαγής μηνυμάτων", το οποίο βοηθά στην γρήγορη ενσωμάτωση πολλών διαφορετικών τύπων δεδομένων, δήλωσε ο Jason Stamper, αναλυτής της 451 Research. "Γι 'αυτό και αναδύεται ως μία από τις πιο δημοφιλείς επιλογές."

Εκτός από τα ActiveMQ και RabbitMQ, ένα άλλο προϊόν που προσφέρει παρόμοια λειτουργικότητα είναι το Apache Flume, σημείωσε. Οι ανταγωνιστές της Confluent περιλαμβάνουν τον IBM InfoSphere Streams, την Ultra Streaming Edition της Informatica και την Μηχανή επεξεργασίας ροής συμβάντων (ESP) της SAS μαζί με την Apama της Software AG, το StreamBase της Tibco και το StreamBase του Tibco. SAP Aleri, Stamper πρόσθεσε. Μικρότεροι ανταγωνιστές περιλαμβάνουν τα DataTorrent, Splunk, Loggly, Logentries, Λογισμικό X15, Sumo Logic και Glassbeam

Στο σύννεφο, η υπηρεσία επεξεργασίας ροής Kinesis της AWS "έχει το πρόσθετο πλεονέκτημα της ενσωμάτωσης με όσους θέλουν την αποθήκη δεδομένων Redshift και την πλατφόρμα αποθήκευσης S3", ανέφερε.

Ο πρόσφατα ανακοινωμένος Listener της Teradata είναι άλλος υποψήφιος και είναι βασισμένος στο Kafka όπως δήλωσε ο Brian Hopkins, αντιπρόεδρος και κύριος αναλυτής της Forrester Research.

Γενικά, υπάρχει μια αξιοσημείωτη τάση για δεδομένα σε πραγματικό χρόνο, δήλωσε ο Hopkins.

Μέχρι το 2013 περίπου " για τις τεράστιες ποσότητες δεδομένων γεμισμένες στον Hadoop », είπε. "Τώρα, εάν δεν το κάνετε αυτό, βρίσκεστε ήδη πίσω από την καμπύλη εξουσίας."

Σήμερα, τα δεδομένα από smartphones και άλλες πηγές δίνουν στις επιχειρήσεις την ευκαιρία να ασχοληθούν με τους καταναλωτές σε πραγματικό χρόνο και να παράσχουν συνειδητές εμπειρίες, αυτός είπε. Αυτό, με τη σειρά του, βασίζεται στην ικανότητα ταχύτερης κατανόησης των δεδομένων.

«Το Διαδίκτυο των πραγμάτων είναι σαν ένα δεύτερο κύμα κινητής τηλεφωνίας», εξήγησε ο Hopkins. "Κάθε πωλητής τοποθετείται για μια χιονοστιβάδα δεδομένων."

Ως αποτέλεσμα, η τεχνολογία προσαρμόζεται αναλόγως.

Μέχρι το 2014 ήταν όλα για τον Hadoop, τότε ήταν ο Spark », είπε. "Τώρα είναι ο Hadoop, ο Spark και ο Kafka, οι οποίοι είναι τρεις ίσοι οπαδοί στον αγωγό λήψης δεδομένων σε αυτή τη σύγχρονη αναλυτική αρχιτεκτονική."