Predictive Optimization (PO) in Databricks’ Unity Catalog wurde im Jahr 2025 massiv ausgebaut und ist inzwischen standardmässig aktiviert.
PO automatisiert die Optimierung von Delta Tables, indem es Nutzungs- und Abfrageverhalten analysiert und selbstständig Wartungsprozesse wie Kompaktierung, Clustering, Statistikpflege und VACUUM durchführt.Für 2026 kündigt Databricks weitere Automatisierungen an, die den gesamten Datenlebenszyklus abdecken sollen — inklusive automatischer Löschung veralteter Daten und verbesserter Observability.
Wichtigste Punkte
1. Adoption & Wirkung in 2025
Predictive Optimization wurde im Jahr 2025 breit ausgerollt und erzielte beeindruckende Ergebnisse:
Exabytes ungenutzter Daten wurden automatisch gelöscht → massive Speicherkosteneinsparungen
Hundert Petabytes wurden automatisch kompaktiert und effizienter organisiert
Millionen Delta Tables nutzen Automatic Liquid Clustering
PO ist jetzt Standard für alle neuen Unity-Catalog-Tabellen, Workspaces und Accounts
2. Wie Predictive Optimization funktioniert
PO analysiert kontinuierlich:
Schreibmuster
Abfrageverhalten
Dateigrössen & Statistiken
Basierend darauf führt PO automatisch aus:
OPTIMIZE (Dateikompaktierung)
VACUUM (Löschen unreferenzierter Dateien)
CLUSTER BY (automatische Auswahl optimaler Cluster-Schlüssel)
ANALYZE (Statistikpflege für Query Planning)
Alles geschieht ohne manuelle Eingriffe oder Cron-Jobs.
3. Wichtige Neuerungen 2025
Automatic Statistics → bis zu 22 % schnellere Abfragen
Statistiken werden automatisch gepflegt
Kombination aus „Stats-on-write“ und Hintergrundaktualisierung
Kein manuelles ANALYZE mehr nötig
Optimierter VACUUM → 6× schneller, 4× günstiger
PO nutzt Delta-Logs statt teurer Dateilisten
Besonders wirksam bei Delta Tables mit Millionen Dateien
Vollautomatische Auswahl optimaler Cluster-Schlüssel
Modelliert Workloads und testet verschiedene Strategien
Entfernt die Notwendigkeit manueller Tuning-Entscheidungen
Automatic Liquid Clustering
Plattformweite Abdeckung
4. Was kommt 2026?
Auto‑TTL (Automatic Row Deletion)
Automatische Löschung veralteter Daten basierend auf einer einfachen TTL-Regel
PO führt DELETE + VACUUM vollständig autonom aus
In Private Preview bereits verfügbar
Erweiterte Observability
Neues Dashboard im Data Governance Hub
Zeigt:
Bytes kompaktiert
Bytes geclustert
Bytes vacuumed
Statistiken & ROI
Transparenz darüber, warum PO bestimmte Optimierungen überspringt
Verbesserte Storage-Transparenz
Neue Metriken zu Dateianzahl, Speicherwachstum und Tabellenzustand
Bessere Visualisierung des Einflusses automatischer Wartung
Fazit
Predictive Optimization entwickelt sich zu einem vollständig autonomen Optimierungs- und Datenlebenszyklus-Managementsystem für das Databricks Lakehouse. 2025 brachte massive Performance- und Kostenvorteile, 2026 erweitert Databricks den Fokus auf Lifecycle Automation und Observability, um Datenverwaltung noch stärker zu automatisieren.
