Saltar al contenido

Τι είναι το K-Means Clustering;

15 de mayo de 2021

ο κ-σημαίνει ο αλγόριθμος συμπλέγματος είναι ένα εργαλείο εξόρυξης δεδομένων και μηχανικής εκμάθησης που χρησιμοποιείται για τη συγκέντρωση παρατηρήσεων σε ομάδες σχετικών παρατηρήσεων χωρίς προηγούμενη γνώση αυτών των σχέσεων. Με δειγματοληψία, ο αλγόριθμος επιχειρεί να δείξει σε ποια κατηγορία ή σύμπλεγμα ανήκουν τα δεδομένα, με τον αριθμό των συστάδων να καθορίζεται από την τιμή κ.

ο κ-σημαίνει ότι ο αλγόριθμος είναι μία από τις απλούστερες τεχνικές ομαδοποίησης και χρησιμοποιείται συνήθως στην ιατρική απεικόνιση, στη βιομετρική και σε συναφείς τομείς. Το πλεονέκτημα του κ-σημαίνει ομαδοποίηση είναι ότι λέει για τα δεδομένα σας (χρησιμοποιώντας τη μη εποπτευόμενη φόρμα του) αντί να χρειάζεται να καθοδηγήσετε τον αλγόριθμο σχετικά με τα δεδομένα στην αρχή (χρησιμοποιώντας την εποπτευόμενη μορφή του αλγορίθμου). Μερικές φορές αναφέρεται ως Αλγόριθμος του Lloyd, ιδιαίτερα στους κύκλους της επιστήμης των υπολογιστών, επειδή ο τυπικός αλγόριθμος προτάθηκε για πρώτη φορά από τον Stuart Lloyd το 1957. Ο όρος «k-means» επινοήθηκε το 1967 από τον James McQueen.

Πώς λειτουργεί ο αλγόριθμος K-Means

ο κ-σημαίνει ο αλγόριθμος είναι ένας εξελικτικός αλγόριθμος που κερδίζει το όνομά του από τη μέθοδο λειτουργίας του. Ο αλγόριθμος συγκεντρώνει τις παρατηρήσεις σε κ ομάδες, όπου κ παρέχεται ως παράμετρος εισαγωγής. Στη συνέχεια εκχωρεί κάθε παρατήρηση σε συστάδες με βάση την εγγύτητα της παρατήρησης με το μέσο όρο του συμπλέγματος. Ο μέσος όρος του συμπλέγματος στη συνέχεια υπολογίζεται εκ νέου και η διαδικασία ξεκινά ξανά. Δείτε πώς λειτουργεί ο αλγόριθμος:

  1. Ο αλγόριθμος επιλέγει αυθαίρετα κ σημεία ως τα αρχικά κέντρα συμπλέγματος (τα μέσα).
  2. Κάθε σημείο του συνόλου δεδομένων αντιστοιχεί στο κλειστό σύμπλεγμα, με βάση την απόσταση Ευκλείδειας μεταξύ κάθε σημείου και κάθε κέντρου συμπλέγματος.
  3. Κάθε κέντρο συμπλέγματος υπολογίζεται εκ νέου ως ο μέσος όρος των σημείων σε αυτό το σύμπλεγμα.
  4. Τα βήματα 2 και 3 επαναλαμβάνονται έως ότου συγκλίνουν οι συστάδες. Η σύγκλιση μπορεί να οριστεί διαφορετικά ανάλογα με την υλοποίηση, αλλά συνήθως σημαίνει ότι ούτε οι παρατηρήσεις αλλάζουν συστάδες όταν επαναλαμβάνονται τα βήματα 2 και 3, ή ότι οι αλλαγές δεν κάνουν σημαντική διαφορά στον ορισμό των συστάδων.

Επιλέγοντας τον αριθμό των συστάδων

Ένα από τα κύρια μειονεκτήματα κ-σημαίνει ομαδοποίηση είναι το γεγονός ότι πρέπει να καθορίσετε τον αριθμό των συστάδων ως είσοδο στον αλγόριθμο. Όπως έχει σχεδιαστεί, ο αλγόριθμος δεν είναι ικανός να προσδιορίσει τον κατάλληλο αριθμό συστάδων και εξαρτάται από τον χρήστη να το αναγνωρίσει εκ των προτέρων. Για παράδειγμα, εάν είχατε μια ομάδα ατόμων που πρόκειται να συγκεντρωθούν βάσει δυαδικής ταυτότητας φύλου ως άνδρα ή γυναίκα, καλέστε το κ-σημαίνει αλγόριθμος χρησιμοποιώντας την είσοδο k = 3 θα αναγκάσει τους ανθρώπους σε τρεις συστάδες όταν μόνο δύο, ή μια είσοδο του k = 2, θα παρέχει μια πιο φυσική εφαρμογή. Ομοίως, εάν μια ομάδα ατόμων ήταν εύκολα συγκεντρωμένη με βάση την κατάσταση της κατοικίας και κάλεσε το κ-σημαίνει αλγόριθμος με την είσοδο k = 20, τα αποτελέσματα μπορεί να είναι πολύ γενικευμένα για να είναι αποτελεσματικά. Για αυτόν τον λόγο, είναι συχνά καλή ιδέα να πειραματιστείτε με διαφορετικές τιμές κ για να προσδιορίσετε την τιμή που ταιριάζει καλύτερα στα δεδομένα σας. Μπορεί επίσης να θέλετε να εξερευνήσετε τη χρήση άλλων αλγορίθμων εξόρυξης δεδομένων στην αναζήτησή σας για γνώσεις μηχανικής.