στο Blog
Εισαγωγή
Τα δεδομένα τροφοδοτούν τη σημερινή επιχείρηση και το εργαλείο Power BI της Microsoft σάς βοηθά να κατανοήσετε αυτά τα δεδομένα. Το Power BI είναι μια σουίτα εργαλείων επιχειρηματικής ανάλυσης για την ανάλυση δεδομένων και την κοινή χρήση πληροφοριών. Υπάρχουν δύο επιλογές αδειοδότησης για το Power BI: Power BI Pro και Power BI Premium.
Μεταξύ άλλων διαφορών μεταξύ των δύο επιλογών, η αποθήκευση δεδομένων είναι ένας κύριος παράγοντας – ανάλογα με την απαίτηση δεδομένων, μπορείτε να επιλέξετε ποια επιλογή του εργαλείου θα χρησιμοποιήσετε.
Με άδεια Power BI Pro, μπορείτε να ανεβάσετε έως και 10 GB δεδομένων στο Power BI Cloud. Αλλά με μια άδεια Power BI Premium, μπορείτε να αποθηκεύσετε στοιχεία BI στις εγκαταστάσεις και να λάβετε ένα όριο 50 GB για το μέγεθος δεδομένων και αποθήκευση δεδομένων έως και 100 TB. Έτσι, μπορείτε να επιλέξετε να χρησιμοποιήσετε το Power BI Pro εάν είστε βαρύς χρήστης επιχειρηματικών αναλυτικών στοιχείων που το χρησιμοποιείτε τακτικά για τη δημιουργία και την κατανάλωση δεδομένων χρησιμοποιώντας πίνακες εργαλείων, δεδομένα και αναφορές. Ωστόσο, το Power BI Premium θα ήταν μια καλύτερη επιλογή εάν έχετε μια μεγάλη επιχείρηση που χρειάζεται πολλά άτομα σε όλη την επιχείρηση για να χρησιμοποιήσουν τα δεδομένα και να προβάλουν αναφορές και πίνακες εργαλείων.
Προκλήσεις Power BI στον χειρισμό μεγάλου όγκου δεδομένων
Για όλες τις πηγές δεδομένων που χρησιμοποιούνται στην υπηρεσία Power BI, ισχύουν οι ακόλουθοι παράγοντες και περιορισμοί. Αυτές είναι οι προκλήσεις και οι περιορισμοί που αφορούν τον χειρισμό και την αποθήκευση δεδομένων:
-
- Όριο μεγέθους συνόλου δεδομένων – υπάρχει όριο 1 GB για κάθε σύνολο δεδομένων στην υπηρεσία Power BI.
- Όριο σειρών – ο μέγιστος αριθμός σειρών στο σύνολο δεδομένων σας (όταν δεν χρησιμοποιείται το DirectQuery) είναι 2 δισεκατομμύρια, με δεσμευμένες τρεις από αυτές τις σειρές (με αποτέλεσμα το μέγιστο δυνατό να χρησιμοποιηθούν 1.999.999.997 σειρές). ο μέγιστος αριθμός σειρών κατά τη χρήση του DirectQuery είναι 1 εκατομμύριο σειρές.
- Όριο στηλών – ο μέγιστος αριθμός στηλών που επιτρέπεται σε ένα σύνολο δεδομένων, σε όλους τους πίνακες του συνόλου δεδομένων, είναι 16.000 στήλες. Αυτό ισχύει για την υπηρεσία Power BI και για σύνολα δεδομένων που χρησιμοποιούνται στο Power BI Desktop. Το Power BI χρησιμοποιεί μια εσωτερική στήλη αριθμού γραμμής ανά πίνακα που περιλαμβάνεται στο σύνολο δεδομένων, πράγμα που σημαίνει ότι ο μέγιστος αριθμός στηλών είναι 16.000 μείον μία για κάθε πίνακα που χρησιμοποιείται στο σύνολο δεδομένων.
- Το Power BI Premium υποστηρίζει μεταφορτώσεις αρχείων Power BI Desktop (.pbix) με μέγεθος έως 10 GB. Μετά τη μεταφόρτωση, ένα σύνολο δεδομένων μπορεί να ανανεωθεί σε μέγεθος έως και 12 GB.
Τεχνικές για τη διαχείριση μεγάλων δεδομένων
Το Power BI χρησιμοποιεί μοντέλα εισαγωγής που φορτώνονται με δεδομένα, τα οποία στη συνέχεια συμπιέζονται και βελτιστοποιούνται και στη συνέχεια αποθηκεύονται στο δίσκο. Όταν τα δεδομένα προέλευσης φορτώνονται στη μνήμη, είναι δυνατό να δούμε 10x συμπίεση και επομένως είναι λογικό να αναμένεται ότι 10 GB δεδομένων πηγής μπορούν να συμπιεστούν σε μέγεθος περίπου 1 GB. Επιπλέον, όταν επιμένει στον δίσκο μπορεί να επιτευχθεί επιπλέον μείωση 20%.
Αν και αυτό μπορεί να επιτύχει κάποιο επίπεδο βελτιστοποίησης, είναι σημαντικό να προσπαθήσετε να ελαχιστοποιήσετε τα δεδομένα που πρόκειται να φορτωθούν στα μοντέλα σας. Ειδικά όταν χειρίζεστε μεγάλους όγκους δεδομένων, είναι σημαντικό να βελτιστοποιήσετε τον τρόπο φόρτωσης δεδομένων στα μοντέλα δεδομένων και την αποθήκευση.
Υπάρχουν ορισμένες τεχνικές που μπορείτε να χρησιμοποιήσετε για να βελτιώσετε τον χειρισμό δεδομένων και την ανταπόκριση του Power BI σας. Μερικά από αυτά περιγράφονται παρακάτω:
-
-
- Βελτιστοποίηση σειρών/Φιλτράρισμα δεδομένων πηγής – Εισαγάγετε μόνο τις σειρές που χρειάζεστε για την ανάλυσή σας. Αυτό θα διασφαλίσει ότι θα διατηρείτε μόνο τα απαιτούμενα δεδομένα στη μνήμη και επομένως θα τα χρησιμοποιείτε βέλτιστα. Για παράδειγμα, μπορείτε να ορίσετε το φίλτρο ημερομηνίας ώστε να εισάγει μόνο συναλλαγές για τα δύο τελευταία χρόνια και όχι ολόκληρο το ιστορικό πωλήσεων.
- Βελτιστοποίηση στηλών – Καταργήστε όλες τις στήλες που δεν σχετίζονται με την ανάλυσή σας, όπως πρωτεύοντα κλειδιά που δεν χρησιμοποιούνται σε σχέσεις ή στήλες που μπορούν να υπολογιστούν από άλλες στήλες ή στήλες περιγραφής που δεν χρειάζονται.
- Μείωση ευκρίνειας/Ομαδοποίηση κατά και σύνοψη – Τα λεπτομερή σύνολα δεδομένων έχουν πολλές σειρές δεδομένων, με πληροφορίες που βρίσκονται σε αναλυτικό επίπεδο. Όσο μεγαλύτερη είναι η ευαισθησία, τόσο περισσότερες σειρές δεδομένων θα έχετε. Διατηρήστε λοιπόν τα σύνολα δεδομένων λιγότερο αναλυτικά και χρησιμοποιήστε ομαδοποίηση όπου είναι δυνατόν για να κάνετε τα δεδομένα πιο συνοπτικά. Για παράδειγμα, εάν αναλύετε μηνιαία ή ετήσια δεδομένα, θα μπορούσατε να ομαδοποιήσετε τα δεδομένα σας σε μηνιαία βάση, έτσι ώστε να μειωθεί η ευαισθησία.
- Βελτιστοποίηση τύπων δεδομένων στηλών – Μειώστε την καρδινάτητα για όλες τις στήλες που είναι αποθηκευμένες σε μεγάλους πίνακες, όπως έναν πίνακα γεγονότων. Για να το κάνετε αυτό, στρογγυλοποιήστε τους αριθμούς για να αφαιρέσετε τα παρωχημένα δεκαδικά. στρογγυλό χρόνο για να αφαιρέσετε χιλιοστά του δευτερολέπτου/δευτερόλεπτα. Διαχωρίστε τις στήλες κειμένου σε δύο ή περισσότερα μέρη. χωρίστε το DateTime σε στήλες ημερομηνίας και ώρας, κ.λπ. Επίσης, αποφύγετε τις υπολογισμένες στήλες επειδή καταναλώνουν μνήμη. Βεβαιωθείτε ότι όλες οι στήλες έχουν τον σωστό τύπο δεδομένων.
- Απενεργοποίηση φόρτωσης – Όταν εισάγετε δεδομένα από μια πηγή, εφαρμόζετε μετασχηματισμούς, όπως συγχώνευση και προσάρτηση ερωτημάτων. Ως αποτέλεσμα, ενδέχεται να καταλήξετε με ερωτήματα που χρησιμοποιούνται μόνο ως ενδιάμεσα βήματα μετασχηματισμού. Από προεπιλογή, όλα τα ερωτήματα από το Query Editor είναι
φορτώνεται στη μνήμη του μοντέλου Power BI. Είναι σημαντικό να απενεργοποιήσετε τη φόρτωση για όλα τα ερωτήματα που δεν απαιτούνται στο τελικό μοντέλο. - Απενεργοποίηση αυτόματης ημερομηνίας/ώρας – Το Power BI δημιουργεί αυτόματα έναν ενσωματωμένο πίνακα ημερομηνιών για κάθε πεδίο ημερομηνιών στο μοντέλο για την υποστήριξη συναρτήσεων χρονικής ευφυΐας DAX. Αυτοί οι πίνακες είναι κρυφοί, καταναλώνουν μνήμη και δεν υπάρχει ευελιξία για την προσθήκη προσαρμοσμένων στηλών. Για να αφαιρέσετε όλους τους κρυφούς πίνακες ημερομηνιών από το μοντέλο σας, στο Power BI Desktop επιλέξτε Αρχείο / Επιλογές και Ρυθμίσεις / Επιλογές / Φόρτωση δεδομένων και καταργήστε την επιλογή της Αυτόματης ημερομηνίας/ώρας.
- Μετατρέψτε δεδομένα στο σωστό μέρος – Οι περισσότεροι μετασχηματισμοί δεδομένων πραγματοποιούνται γενικά στο Query Editor στο Power BI Desktop. Το Query Editor είναι ένα ισχυρό και φιλικό προς τον χρήστη εργαλείο που παρακολουθεί όλα τα εφαρμοσμένα βήματα μετασχηματισμού, το οποίο είναι χρήσιμο για την ιχνηλασιμότητα και τη μελλοντική συντήρηση. Ωστόσο, ενδέχεται να έχετε βελτιωμένη απόδοση όταν εφαρμόζετε μετασχηματισμούς απευθείας στη βάση δεδομένων προέλευσης. Για παράδειγμα, η ομαδοποίηση των δεδομένων πωλήσεών σας ανά μήνα στη βάση δεδομένων συναλλαγών θα αυξήσει τους χρόνους εκτέλεσης του ερωτήματος προέλευσης και ως εκ τούτου, μόνο ομαδοποιημένα δεδομένα θα αποστέλλονται μέσω του δικτύου στο Power BI.
- Εξετάστε το ενδεχόμενο να χρησιμοποιήσετε το DirectQuery ή ένα μικτό μοντέλο – Θα πρέπει να εισάγετε δεδομένα στο Power BI όπου είναι δυνατόν, ωστόσο, εάν οι στόχοι σας δεν μπορούν να επιτευχθούν με την εισαγωγή δεδομένων, σκεφτείτε να χρησιμοποιήσετε το DirectQuery. Στη λειτουργία DirectQuery, δεν χρειάζεται να εισάγετε τα δεδομένα. Μπορείτε να λάβετε τα δεδομένα απευθείας από την προέλευση δεδομένων και έτσι δεν υπάρχουν όρια στον όγκο δεδομένων στην πλευρά του Power BI. Ωστόσο, η απόδοση της αναφοράς θα ήταν πιο αργή και δεν θα ήταν διαθέσιμη όλη η λειτουργικότητα. Έτσι, μπορείτε να επιλέξετε να έχετε ένα μικτό ή σύνθετο μοντέλο όπου μπορείτε να αποθηκεύσετε ορισμένους από τους πίνακες σε λειτουργία εισαγωγής και άλλους σε DirectQuery.
- Μετακίνηση υπολογισμών στο backend – Σκεφτείτε καλά πώς μπορείτε να μετακινήσετε τους υπολογισμούς στο back-end όσο το δυνατόν περισσότερο. Για παράδειγμα, δημιουργώντας νέα πεδία στην προέλευση δεδομένων που σας επιτρέπουν να μειώσετε την προσπάθεια υπολογισμών του PBI.
-
συμπέρασμα
Θυμηθείτε, η μνήμη είναι το μεγαλύτερο πλεονέκτημα στο Power BI. Οι τεχνικές που παρουσιάζονται σε αυτήν την ανάρτηση θα μειώσουν το αποτύπωμα μνήμης που έχει άμεσο αντίκτυπο στην απόδοση των αναφορών και των πινάκων εργαλείων σας