Tiered Storage in Kafka – Zusammenfassung aus dem Technologie-Blog von Uber - Programmierung

Titelseite > Programmierung > Tiered Storage in Kafka – Zusammenfassung aus dem Technologie-Blog von Uber

Tiered Storage in Kafka – Zusammenfassung aus dem Technologie-Blog von Uber

Veröffentlicht am 17.08.2024

Durchsuche:237

Tiered Storage in Kafka - Summary from Uber

Der Technologieblog von Uber veröffentlichte einen Artikel mit dem Titel „Einführung in Kafka Tiered Storage bei Uber“, der darauf abzielt, die Datenaufbewahrung mit weniger Kafka-Brokern und weniger Speicher zu maximieren. Dies ermöglicht längere Nachrichtenaufbewahrungszeiten in verschiedenen Geschäftsanwendungen.

Eine gängige Lösung besteht darin, externen Speicher manuell zu integrieren und die Daten regelmäßig mit dem externen System zu synchronisieren. Dies erfordert jedoch einen erheblichen Entwicklungs- und Wartungsaufwand, z. B. die Festlegung, wie die Daten gespeichert werden sollen, das Festlegen der Synchronisierungshäufigkeit, das Auslösen von Prozessen, das Abrufen von Daten und die Verwendung der Indizierung.

Daher hat Uber eine Lösung vorgeschlagen, die die Logik des externen Speichers kapselt und ihn mit einfachen Konfigurationen Plug-and-Play-fähig macht. Diese Funktion wird in Zusammenarbeit mit der Apache Foundation entwickelt und wird in zukünftigen Versionen verfügbar sein.

Szenario

Es ist wichtig zu verstehen, dass Kafka eine reine Append-Message-Queue-Komponente (MQ) mit sehr hohen Durchsatzfunktionen ist. Kafka speichert Protokolle im lokalen Speicher des Brokers und Benutzer können die Aufbewahrungszeit oder Protokollgröße konfigurieren. In meinem vorherigen Unternehmen (Lenovo) haben wir Flink verwendet, um kontinuierlich Daten zu verbrauchen. Eine große Datenmenge würde dazu führen, dass Kafka das Festplattenspeicherlimit überschreitet, was zu Datenschreibfehlern und Geschäftsfehlern führen würde. Um die Kosten zu senken, konnten wir, anstatt mehr Maschinen bereitzustellen, nur die Aufbewahrungszeit anpassen.

Außerdem wäre es mit einem enormen Entwicklungsaufwand verbunden, wenn jedes Unternehmen ein eigenes System entwickeln würde, um ältere Daten auf einem externen Speicher zu speichern. Außerdem gäbe es zahlreiche Probleme im Zusammenhang mit der Synchronisierung und Datenkonsistenz.

Lösung

Das Wesentliche besteht darin, den Broker zu transformieren, indem ihm Remote-Protokollverwaltung und Speicherverwaltung hinzugefügt werden.

RemoteLogManager: Verwaltet den Lebenszyklus von Remote-Protokollsegmenten, einschließlich Kopieren, Bereinigen und Abrufen.

RemoteStorageManager: Verwaltet Aktionen für Remote-Protokollsegmente, einschließlich Kopieren, Abrufen und Löschen. Die mit Remote-Protokollsegmenten verknüpften Metadaten umfassen Informationen über die Start- und Endoffsets des Segments, Zeitstempel, Snapshots des Produzentenstatus und Checkpoints der Leader-Epoche.
RemoteLogMetadataManager verfolgt diese Metadaten, um sicherzustellen, dass das System weiß, wo jedes Segment beginnt und endet, sowie andere wichtige Informationen, die für den Datenabruf und die Datenverwaltung erforderlich sind.

RemoteLogMetadataManager: Verwaltet den Metadatenlebenszyklus für Remote-Protokollsegmente mit starker Konsistenz.

Unter anderem fungiert RemoteLogManager als Steuerungskomponente und stellt eine direkte Verbindung zur Festplatte im Broker her, um die gelesenen Daten abzurufen. Es ist auch für den Rückruf der Remote-Daten verantwortlich. RemoteStorageManager ist die Entität, die mit den Daten arbeitet, und RemoteLogMetadataManager ist für die Verwaltung der Metadaten verantwortlich.

Zusammenfassung der drei Aktionen in Kafka Tiered Storage

Segmente in den Remote-Speicher kopieren
Ein Protokollsegment gilt als zum Kopieren in den Remotespeicher geeignet, wenn sein Endoffset (der Offset der letzten Nachricht im Segment) kleiner als der Last-Stable-Offset der Partition ist.（Last-Stable-Offset (LSO): Der höchste Offset Dabei werden alle vorherigen Nachrichten vollständig von allen synchronen Replikaten bestätigt, wodurch kein Datenverlust gewährleistet wird.）RemoteStorageManager übernimmt das Kopieren von Protokollsegmenten zusammen mit den zugehörigen Indizes, Zeitstempeln, Produzenten-Snapshots und dem Leader-Epochen-Cache.
Bereinigung von Remote-Segmenten
Remote-Daten werden in regelmäßigen Abständen bereinigt, indem die geeigneten Segmente durch einen dedizierten Thread-Pool berechnet werden. Dies unterscheidet sich von der asynchronen Bereinigung der lokalen Protokollsegmente. Wenn ein Thema gelöscht wird, erfolgt die Bereinigung von Remote-Protokollsegmenten asynchron und es wird weder der vorhandene Löschvorgang blockiert noch ein neues Thema neu erstellt.
Abrufen von Segmenten aus dem Remote-Speicher
RemoteLogManager bestimmt das Ziel-Remote-Segment basierend auf dem gewünschten Offset und der Leader-Epoche, indem es mit RemoteLogMetadataManager in den Metadatenspeicher schaut. Es verwendet RemoteStorageManager, um die Position innerhalb des Segments zu finden und mit dem Abrufen der gewünschten Daten zu beginnen.

Freigabeerklärung Dieser Artikel ist abgedruckt unter: https://dev.to/bochaoli95/tiered-storage-in-kafka-summary-from-ubers-technology-blog-40cg?1 Bei Verstößen wenden Sie sich bitte an [email protected] um es zu löschen

Neuestes Tutorial Mehr>

Wie rufe ich die neueste JQuery -Bibliothek von Google APIs ab?
abrufen die neueste jQuery -Bibliothek von Google apis Die bereitgestellte jQuery -URL in der Frage ist für Version 1.2.6. Für das Abrufen der...

Programmierung Gepostet am 2025-06-08
Warum kann Microsoft Visual C ++ keine zweiphasige Vorlage-Instanziierung korrekt implementieren?
Das Geheimnis von "kaputte" Two-Phase-Vorlage Instantiation in Microsoft visual c Problemanweisung: Benutzer werden häufig besorgt...

Programmierung Gepostet am 2025-06-08
Wie kann ich Werte von zwei gleichen Arrays in PHP synchron iterieren und drucken?
synchron iterierend und drucken Werte aus zwei Arrays derselben Größe beim Erstellen einer Selectbox unter Verwendung von zwei Arrays gleicher G...

Programmierung Gepostet am 2025-06-08
Wie vereinfachen Javas Map.Enty und SimpleEnry das Schlüsselwertpaarmanagement?
Eine umfassende Sammlung für Wertpaare: Einführung von Javas map.Entry und SimpleEnry in Java, wenn eine Sammlung definiert wird, bei der jede...

Programmierung Gepostet am 2025-06-08
Python Metaclass -Arbeitsprinzip und Klassenerstellung und -anpassung
Was sind Metaklassen in Python? Metaklassen sind dafür verantwortlich, Klassenobjekte in Python zu erstellen. So wie Klassen Instanzen erstellen...

Programmierung Gepostet am 2025-06-08
Wie kann man die Funktionsbeschränkungen von PHP 'Funktionen überwinden?
Überwindung von PHP-Funktionsfunktionen Einschränkungen In PHP sind eine Funktion mit demselben Namen mehrmals ein No-no. Der Versuch, dies zu...

Programmierung Gepostet am 2025-06-08
Muss ich vor dem Programm Exit explizit Heap -Zuordnungen in C ++ löschen?
explizites Löschen in C trotz des Programms exit Wenn Sie mit dynamischer Speicherzuweisung in C arbeiten, fragen sich Entwickler oft, ob es n...

Programmierung Gepostet am 2025-06-08
Warum führt PHPs DateTime :: Modify ('+1 Monat') unerwartete Ergebnisse zu?
Monate mit PHP DATETIME: Aufdeckung des beabsichtigten Verhaltens Wenn Sie mit der DateTime -Klasse von PHP die erwarteten Ergebnisse hinzufüg...

Programmierung Gepostet am 2025-06-08
Wie zeige ich das aktuelle Datum und die aktuelle Uhrzeit in "DD/MM/JJJJ HH: MM: SS.SS" -Format in Java richtig?
wie man aktuelles Datum und Uhrzeit in "dd/mm/yyyy hh: mm: ss.sS" Format In dem vorgesehenen Java -Code, das Problem mit dem Datum u...

Programmierung Gepostet am 2025-06-08
Warum wird die Anfrage nicht nach dem Erfassen von Eingaben in PHP trotz gültiger Code erfasst?
adressieren nach Anfrage Fehlfunktion in php in dem vorgestellten Code -Snippet: action='' Die Intented -In -Intented -Aufnahme. Die Ausg...

Programmierung Gepostet am 2025-06-08
Wie kann ich mehrere SQL-Anweisungen in einer einzelnen Abfrage mit Node-Mysql ausführen?
Multi-Statement-Abfrageunterstützung in node-mysql In Node.js entstehen die Frage, wenn mehrere SQL-Anweisungen in einem einzigen Abfragelemen...

Programmierung Gepostet am 2025-06-08
Effektive Überprüfungsmethode für Java-Zeichenfolgen, die nicht leer und nicht null sind
prüfen, ob ein String nicht null ist und nicht leer , ob ein String nicht null und nicht leer ist, Java bietet verschiedene Methoden. 1.6 and l...

Programmierung Gepostet am 2025-06-08
Wie beheben Sie die "ungültige Verwendung der Gruppenfunktion" in MySQL beim Finden der Maximalzahl?
wie man die maximale zählende mit mysql in mysql abrufen Wählen Sie max (count (*)) aus der Emp1 -Gruppe nach Namen; ERROR 1111 (HY000): Ungül...

Programmierung Gepostet am 2025-06-08
Warum erscheint mein CSS -Hintergrundbild nicht?
Fehlerbehebung: CSS -Hintergrundbild erscheinen nicht Sie haben auf ein Problem gestoßen, bei dem Ihr Hintergrundbild trotz der folgenden Tuto...

Programmierung Gepostet am 2025-06-08
Wie kann ich nach der Bearbeitung von Zellen eine kundenspezifische JTable -Zell -Rendering beibehalten?
beibehalten von jtable cell rendering nach cell edit in einem jtable, in dem benutzerdefinierte Zellenwiedergabe implementiert werden, kann di...

Programmierung Gepostet am 2025-06-08

Einstufung Mehr>

Japanisch lernen Koreanisch lernen Chinesisch lernen Fremdsprache lernen Spiel Häufiges Problem Technologie-Peripheriegeräte KI Software-Tutorial Programmierung Artikel