Βρύσες Apache Spark για αρχεία δεδομένων μνήμης

2024

Apache Spark - Computerphile

Οι σημερινοί όγκοι δεδομένων σήμερα έχουν δημιουργήσει μια ποικιλία νέων υποψηφίων για βάσεις δεδομένων, το καθένα με ιδιαίτερα πλεονεκτήματα και χαρακτηριστικά για να τα συστήσει. Ο μηχανισμός Splice είναι ένα τέτοιο ξεκίνημα και ενώ είναι πάντα τραπεζίτης στις δυνατότητες εξαγορών της Hadoop, την Τρίτη έβαλε ένα συνοδευτικό στοίχημα στην τεχνολογία της μνήμης της Apache Spark.

Το Splice Machine 2.0, το οποίο είναι τώρα δημόσια beta, ενσωματώνει τον κινητήρα Apache Spark ανοιχτού κώδικα στην υπάρχουσα αρχιτεκτονική Hadoop, δημιουργώντας μια εύκαμπτη υβριδική βάση δεδομένων SQL που επιτρέπει στις επιχειρήσεις να εκτελούν ταυτόχρονα συναλλακτικές και αναλυτικές εργασίες.

"Τα περισσότερα συστήματα μνήμης απαιτούν την αποθήκευση όλων των δεδομένων στη μνήμη », δήλωσε ο Monte Zweben, Διευθύνων Σύμβουλος του Splice Machine, σε συνέντευξή του τον περασμένο μήνα.

Αυτές οι τεχνολογίες μπορούν να γίνουν απαγορευτικά ακριβές καθώς οι όγκοι δεδομένων αυξάνονται. "Το λογισμικό Splice Machine 2.0 χρησιμοποιεί υπολογισμό εντός της μνήμης για να αναδείξει τα αναλυτικά αποτελέσματα επιχειρηματικής ευφυΐας πιο γρήγορα, αλλά χρησιμοποιεί τη βάση δεδομένων HBase Hadoop για να αποθηκεύει διαρκώς και πρόσβαση στα δεδομένα σε κλίμακα. Τα οφέλη περιλαμβάνουν χαμηλότερο κόστος και υψηλότερη ταχύτητα, δήλωσε ο Zweben.

"Η προσπάθεια μας είναι να χρησιμοποιήσουμε μέσα στην μνήμη για να δημιουργήσουμε μια ολοκληρωμένη υβριδική τεχνολογία", ανέφερε. «Με τις ξεχωριστές διαδικασίες και τη διαχείριση των πόρων για τον Hadoop και τον Spark, το RDBMS Machine Splice μπορεί να εξασφαλίσει ότι μεγάλα, σύνθετα ερωτήματα αναλυτικής επεξεργασίας δεν θα κάνουν δεν συντρίβουν τις συναλλακτικές συναλλαγές που είναι ευαίσθητες στο χρόνο. Για παράδειγμα, οι χρήστες μπορούν να ορίσουν προσαρμοσμένα επίπεδα προτεραιότητας για αναλυτικά ερωτήματα για να διασφαλίσουν ότι οι σημαντικές αναφορές δεν αποκλείονται πίσω από μια μαζική διαδικασία δέσμης που καταναλώνει όλους τους πόρους συμπλεγμάτων.

Το αποτέλεσμα είναι απόδοση 10 έως 20 φορές καλύτερη από αυτή που προσφέρεται από την παραδοσιακή σχεσιακή τα συστήματα διαχείρισης βάσεων δεδομένων, μόλις το ένα τέταρτο του κόστους, δήλωσε η εταιρεία.

Το Splice Machine 2.0 είναι ιδιαίτερα κατάλληλο για εφαρμογές όπως ψηφιακό μάρκετινγκ, λιμνών επιχειρησιακών δεδομένων, αποθήκες δεδομένων και το Διαδίκτυο των πραγμάτων, πρόσθεσε. Το όφελος από την κατώτατη γραμμή, δήλωσε ο Zweben, "είναι σε θέση να λάβει αποφάσεις αυτή τη στιγμή."

Εκτός από την ταχύτερη και αποδοτικότερη κατανάλωση ενέργειας , τα νέα τσιπ Xeon περιλαμβάνουν υποστήριξη για τεχνολογίες που επιτρέπουν ταχύτερες διαδρομές δεδομένων για διακομιστές να αναλαμβάνουν φορτία υπολογιστών υψηλών επιδόσεων, όπως είπε η IBM και η Dell. Οι διακομιστές είναι πυκνότεροι και φέρουν επίσης περισσότερες υποδοχές μνήμης από τους προκατόχους τους, οι οποίες επιτρέπουν την καλύτερη απόδοση της βάσης δεδομένων μέσω περισσότερων φόρτων εργασίας εντός της μνήμης.

[Περισσότερες πληροφορίες: Οι καλύτερες υπηρεσίες τηλεοπτικής ροής]

Βρύσες Apache Spark για αρχεία δεδομένων μνήμης

Η μηχανή συρραφής έχει πάντα τράπεζα στις δυνατότητες εξαγορών της Hadoop, αλλά την Τρίτη έβαλε ένα συνοδευτικό στοίχημα στην τεχνολογία της μνήμης της Apache Spark.