Το Regression είναι μια τεχνική εξόρυξης δεδομένων που χρησιμοποιείται για την πρόβλεψη ενός εύρους αριθμητικών τιμών (ονομάζεται επίσης συνεχείς τιμές), δεδομένου ενός συγκεκριμένου συνόλου δεδομένων. Για παράδειγμα, η παλινδρόμηση μπορεί να χρησιμοποιηθεί για την πρόβλεψη του κόστους ενός προϊόντος ή μιας υπηρεσίας, δεδομένων άλλων μεταβλητών. Το Regression χρησιμοποιείται σε πολλούς κλάδους για επιχειρηματικό σχεδιασμό και μάρκετινγκ, οικονομικές προβλέψεις, περιβαλλοντική μοντελοποίηση και ανάλυση τάσεων.
Παλινδρόμηση έναντι ταξινόμησης
Η παλινδρόμηση και η ταξινόμηση είναι τεχνικές εξόρυξης δεδομένων που χρησιμοποιούνται για την επίλυση παρόμοιων προβλημάτων, αλλά συχνά συγχέονται. Και τα δύο χρησιμοποιούνται στην ανάλυση προβλέψεων, αλλά η παλινδρόμηση χρησιμοποιείται για την πρόβλεψη μιας αριθμητικής ή συνεχούς τιμής, ενώ η ταξινόμηση εκχωρεί δεδομένα σε διακριτές κατηγορίες. Για παράδειγμα, η παλινδρόμηση θα χρησιμοποιείται για την πρόβλεψη της αξίας ενός σπιτιού με βάση την τοποθεσία του, τα τετραγωνικά πόδια, την τιμή κατά την τελευταία πώληση, την τιμή παρόμοιων σπιτιών και άλλους παράγοντες. Η ταξινόμηση θα ήταν σωστή εάν θέλετε να οργανώσετε σπίτια σε κατηγορίες, όπως δυνατότητα πεζοπορίας, μέγεθος παρτίδας ή ποσοστά εγκληματικότητας.
Τύποι τεχνικών παλινδρόμησης
Η απλούστερη και παλαιότερη μορφή παλινδρόμησης είναι η γραμμική παλινδρόμηση που χρησιμοποιείται για την εκτίμηση της σχέσης μεταξύ δύο μεταβλητών. Αυτή η τεχνική χρησιμοποιεί τον μαθηματικό τύπο μιας ευθείας γραμμής (y = mx + b). Με απλά λόγια, αυτό σημαίνει απλώς ότι, δεδομένου ενός γραφήματος με έναν άξονα Υ και Χ, η σχέση μεταξύ Χ και Υ είναι μια ευθεία γραμμή με λίγα ακραία σημεία. Για παράδειγμα, μπορούμε να υποθέσουμε ότι, δεδομένης της αύξησης του πληθυσμού, η παραγωγή τροφίμων θα αυξηθεί με τον ίδιο ρυθμό – αυτό απαιτεί μια ισχυρή, γραμμική σχέση μεταξύ των δύο αριθμών. Για να το δείτε αυτό, σκεφτείτε ένα γράφημα στο οποίο ο άξονας Υ παρακολουθεί την αύξηση του πληθυσμού και ο άξονας Χ παρακολουθεί την παραγωγή τροφίμων. Καθώς η τιμή Υ αυξάνεται, η τιμή Χ θα αυξάνεται με τον ίδιο ρυθμό, καθιστώντας τη σχέση μεταξύ τους ευθεία. Οι προηγμένες τεχνικές, όπως η πολλαπλή παλινδρόμηση, προβλέπουν μια σχέση μεταξύ πολλαπλών μεταβλητών – για παράδειγμα, υπάρχει συσχέτιση μεταξύ εισοδήματος, εκπαίδευσης και πού επιλέγει να ζήσει; Η προσθήκη περισσότερων μεταβλητών αυξάνει σημαντικά την πολυπλοκότητα της πρόβλεψης. Υπάρχουν διάφοροι τύποι τεχνικών πολλαπλής παλινδρόμησης, συμπεριλαμβανομένων τυπικών, ιεραρχικών, ρυθμιστικών και σταδιακών, καθένας με τη δική του εφαρμογή. Σε αυτό το σημείο, είναι σημαντικό να κατανοήσουμε τι προσπαθούμε να προβλέψουμε (το εξαρτώμενο ή προβλεπόμενη μεταβλητή) και τα δεδομένα που χρησιμοποιούμε για να κάνουμε την πρόβλεψη (το ανεξάρτητο ή προφήτης μεταβλητές). Στο παράδειγμά μας, θέλουμε να προβλέψουμε την τοποθεσία στην οποία κάποιος επιλέγει να ζήσει (το προβλεπόμενη μεταβλητή) δεδομένου εισοδήματος και εκπαίδευσης (και τα δύο προφήτης μεταβλητές).
- Τυπική πολλαπλή παλινδρόμηση λαμβάνει υπόψη όλες τις μεταβλητές πρόβλεψης ταυτόχρονα. Για παράδειγμα 1) ποια είναι η σχέση μεταξύ εισοδήματος και εκπαίδευσης (προβλέψεις) και επιλογής γειτονιάς (προβλεπόμενη); και 2) σε ποιο βαθμό συμβάλλει κάθε ένας από τους μεμονωμένους προγνωστικούς παράγοντες σε αυτήν τη σχέση;
- Σταδιακή πολλαπλή παλινδρόμηση απαντά σε μια εντελώς διαφορετική ερώτηση. Ένας αλγόριθμος σταδιακής παλινδρόμησης θα αναλύσει ποιοι προγνωστικοί παράγοντες χρησιμοποιούνται καλύτερα για να προβλέψουν την επιλογή της γειτονιάς – πράγμα που σημαίνει ότι το σταδιακό μοντέλο αξιολογεί τη σειρά σπουδαιότητας των μεταβλητών πρόβλεψης και στη συνέχεια επιλέγει ένα σχετικό υποσύνολο. Αυτός ο τύπος προβλήματος παλινδρόμησης χρησιμοποιεί «βήματα» για την ανάπτυξη της εξίσωσης παλινδρόμησης. Δεδομένου αυτού του τύπου παλινδρόμησης, όλοι οι προγνωστικοί παράγοντες ενδέχεται να μην εμφανίζονται καν στην τελική εξίσωση παλινδρόμησης.
- Ιεραρχική παλινδρόμηση, όπως σταδιακά, είναι μια διαδοχική διαδικασία, αλλά οι μεταβλητές πρόβλεψης εισάγονται στο μοντέλο με μια προκαθορισμένη σειρά που έχει καθοριστεί εκ των προτέρων, δηλαδή ο αλγόριθμος δεν περιέχει ένα ενσωματωμένο σύνολο εξισώσεων για τον προσδιορισμό της σειράς με την οποία θα εισαχθεί το προβλέψεις. Αυτό χρησιμοποιείται συχνότερα όταν το άτομο που δημιουργεί την εξίσωση παλινδρόμησης έχει ειδικές γνώσεις στον τομέα.
- Ρυθμιστική παλινδρόμηση είναι επίσης παρόμοιο με σταδιακά αλλά αναλύει σύνολα μεταβλητών παρά μεμονωμένες μεταβλητές.