Information

Wie klassifiziert oder gruppiert ein Mensch Daten?

Wie klassifiziert oder gruppiert ein Mensch Daten?


We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Mit DATEN meine ich hier Textdokumente.

Ich werde über Textclustering-Algorithmen mit Hilfe von künstlichen neuronalen Netzen (KNN) forschen. Aber zuallererst muss ich wissen, wie unser Gehirn (neuronales System) Textdaten gruppiert (oder klassifiziert), während wir ein Dokument lesen.

Stellen Sie sich vor, wir lesen einige nicht kategorisierte und verstreute Nachrichtenartikel im Internet (zum Beispiel in einem Weblog). Hier, wenn wir einen Artikel lesen, werden wir leicht herausfinden, worum es geht oder zu welcher Gruppe er gehört: Politik, Sport, Wirtschaft usw. Wir wissen es anhand der Wörter im Artikel, ich weiß .

Wie bündelt unser Gehirn diese Daten in sich selbst? Wie erstellen wir Cluster/Kategorien in unserem Gehirn und weisen ihnen dann Daten zu?


Hier ist ein Artikel über eine Studie über die gemessenen Auswirkungen des Blutflusses im Gehirn aus "zwei Stunden Filmtrailern, die über 1.700 Kategorien von Aktionen und Objekten enthielten". Ein Video (im Artikel beigefügt) beschreibt die verwendeten Methoden und die Ergebnisse der Studie. Sie fanden heraus, dass das Gehirn dazu neigt, Dinge zu kategorisieren, die ähnliche Funktionen oder Ist-A-Beziehungen teilen. Dies kann in der resultierenden Grafik gesehen werden, in der die Knoten, die "Säugetiere", "Menschen" und "Kommunikationsverben" darstellen, eng miteinander verbunden sind. Das Gehirn schien auch Dinge zu trennen, die sich bewegten oder als lebendige und unbelebte Objekte galten.

Diese Studie wurde mit nur 5 Teilnehmern durchgeführt, daher ist es fair zu sagen, dass mehr Forschung betrieben werden muss, bevor wir mehr über die Wahrheit zu diesem Thema aufdecken können.

Um Ihre zweite Frage zu beantworten, wie Informationen im Gehirn gespeichert werden, müssen wir einen Prozess namens "Codierung" verstehen. Ich verstehe nicht ganz, wie dieser Prozess auf biologischer Ebene funktioniert, aber als grobe Erklärung speichert das Gehirn sensorische Informationen, die es für wichtig hält, und durchläuft dann einen sekundären Prozess namens "Konsolidierung". Dieser Prozess zielt darauf ab, die Spur einer Erinnerung zu stabilisieren, nachdem sie anfänglich kodiert wurde. Der letzte Prozess, das "Abrufen", ist der Akt des Erinnerns an die Informationen. Während dieser Phase rekonstruiert das Gehirn das Gedächtnis oder die Informationen und stärkt dadurch die Nervenbahn, aus der dieses Gedächtnis besteht.

Kurz gesagt, das Gehirn speichert Informationen durch komplexe neuronale Verbindungen. Diese neuronalen Verbindungen sind an die ursprünglich wahrgenommenen Sinnesinformationen gebunden, die rekonstruiert werden, wenn Sie sich daran erinnern.

Ich hoffe, ich konnte einige deiner Fragen klären :)


3 Antworten 3

Das Clustern erfolgt für Daten ohne Label, die für jeden Datenpunkt ein Label zurückgeben. Die Klassifizierung erfordert Etiketten.

Daher gruppieren Sie zuerst Ihre Daten und speichern die resultierenden Cluster-Labels. Dann trainieren Sie einen Klassifikator mit diesen Labels als Zielvariable. Durch das Speichern der Labels trennen Sie effektiv die Schritte des Clusterings und der Klassifizierung.

Dadurch können Sie jeden Klassifizierungsalgorithmus verwenden (Random Forest, SVM, Naive Bayes, . ).

Der problematische Teil dieser Pipeline ist die mangelnde Robustheit des kmeans-Algorithmus. Daher müssen Sie das Clustering-Ergebnis auswerten und möglicherweise wiederholt k-Means durchführen. Alternativ können Sie andere Clustering-Algorithmen verwenden und die Ergebnisse vergleichen.

Obwohl es möglich ist, eine Klassifizierung einschließlich Training, Lebenslauf und Benchmarking unter Verwendung von Cluster-Labels anzuwenden, die durch das Clustern derselben Daten erhalten wurden, sollte klar sein, dass dies auch dann "erfolgreich" ist, wenn Sie RANDOM-hochdimensionale Daten haben. Benchmarking mit denselben Daten, die Sie für das Clustering verwendet haben, führt zu zu optimistischen Leistungsschätzungen des Klassifikators.

Daher mögen es Data-Science-Puristen nicht.

In ähnlicher Weise erhalten Sie überoptimistische p-Werte, wenn Sie Unterschiede für Daten zwischen Clustern einiger stark abgedunkelter Daten bewerten. Seien Sie also vorsichtig, statistische Tests für die Merkmalsauswahl vor dem Erstellen von Klassifikatoren zu verwenden - Tests können nur als heuristische Verfahren zur Priorisierung von Merkmalen angesehen werden - der p-Wert darf nicht auf die übliche Weise interpretiert werden.


Clusteranalyse, 5. Auflage

Die Clusteranalyse umfasst eine Reihe von Methoden zur Klassifizierung multivariater Daten in Untergruppen. Durch die Organisation multivariater Daten in solche Untergruppen kann das Clustering helfen, die Charakteristika von vorhandenen Strukturen oder Mustern aufzudecken. Diese Techniken haben sich in einer Vielzahl von Bereichen wie Medizin, Psychologie, Marktforschung und Bioinformatik als nützlich erwiesen.

Diese fünfte Ausgabe des sehr erfolgreichen Clusteranalyse umfasst die neuesten Entwicklungen auf diesem Gebiet und ein neues Kapitel, das sich mit endlichen Mischungsmodellen für strukturierte Daten befasst.

Durchweg werden Beispiele aus dem wirklichen Leben verwendet, um die Anwendung der Theorie zu demonstrieren, und Zahlen werden ausgiebig verwendet, um grafische Techniken zu veranschaulichen. Das Buch ist umfassend, aber relativ unmathematisch und konzentriert sich auf die praktischen Aspekte der Clusteranalyse.

  • Präsentiert einen umfassenden Leitfaden zu Clustering-Techniken mit Schwerpunkt auf den praktischen Aspekten der Clusteranalyse
  • Bietet eine gründliche Überarbeitung der vierten Auflage, einschließlich neuer Entwicklungen beim Clustering von Längsschnittdaten und Beispielen aus Bioinformatik und Genstudien./li>
  • Aktualisiert das Kapitel über Gemischmodelle, um aktuelle Entwicklungen einzubeziehen, und präsentiert ein neues Kapitel über Gemischmodellierung für strukturierte Daten

Praktiker und Forscher, die in der Clusteranalyse und Datenanalyse arbeiten, werden von diesem Buch profitieren.

Autor Bios

Brian S. Everitt, Leiter der Abteilung für Biostatistik und Informatik und Professor für Verhaltensstatistik am Kings College London. Er ist Autor/Co-Autor von über 50 Büchern über Statistik und etwa 100 Aufsätzen und anderen Artikeln und ist außerdem Mitherausgeber von Statistische Methoden in der medizinischen Forschung.

Dr. Sabine Landau, Leiter der Abteilung für Biostatistik, Institut für Psychiatrie, Kings College London.

Dr. Morven Leese, Gesundheitswesen und Bevölkerungsforschung, Institut für Psychiatrie, Kings College London.

Dr. Daniel Stahl, Department of Biostatistics & Computing, Institut für Psychiatrie, Kings College London.


Originaler Forschungsartikel

Rafael E. Reigal 1 , José Luis Pastrana-Brincones 2 , Sergio Luis González-Ruiz 1 , Antonio Hernández-Mendo 3 , Juan Pablo Morillo-Baro 1 und Verónica Morales-Sánchez 3*
  • 1 Universität Málaga, Málaga, Spanien
  • 2 Fachbereich Sprachen und Informatik, Universität Málaga, Málaga, Spanien
  • 3 Institut für Sozialpsychologie, Sozialarbeit, Anthropologie und Ostasienwissenschaften, Universität Málaga, Málaga, Spanien

MenPas ist eine psychosoziale Bewertungsplattform 1, die 2008 von der Universität Malaga entwickelt wurde. Der Datenverkehr hat während der Zeit der Haft durch COVID-19 (März und April �) im Vergleich zum gleichen Zeitraum in der Vergangenheit deutlich zugenommen Jahr. Das Hauptziel dieser Arbeit ist es, die Nutzungsmuster dieser Plattform in beiden Zeiträumen zu bestimmen. Daher möchten wir auf die folgende Frage antworten: Also, die folgende Frage: Hat die COVID-19-Pandemie das Muster der Menpas-Benutzer verändert? Um darauf zu reagieren, wurden Techniken der Clusteranalyse (Data Mining) verwendet, um Personen, die an Umfragen teilnehmen, in Quotientenmengen (Cluster) zu klassifizieren. Hierbei handelt es sich um eine multivariate Technik, um Daten in möglichst homogene und untereinander heterogene Datensätze zu unterteilen. Konkret wurde für diese Analyse der K-Means-Algorithmus verwendet, der auf der Auswertung des Abstands zwischen den Daten und dem Durchschnitt jeder Variablen basiert. Es wird daher empfohlen, Muster oder Beziehungen zwischen den Daten zu entdecken. Konkret wurde die Verwendung der folgenden Fragebögen analysiert: Competitive State Anxiety Inventory-2 (CSAI-2), State Trait Anxiety Inventory (STAI), Profile of Mood State (POMS), Resilienzskala (RS), Sport Performance Psychological Inventory (IPED), Maslach Burnout Inventory (MBI) und Selbstkonzept Form-5 (AF-5). Die Analysen zeigen Veränderungen der Clusterbildung zwischen 2019 und 2020 anhand der Variablen Geschlecht, Alter, Familienstand oder körperliche Praxis. Daher waren die durchgeführten Analysen sensibel, um mehrere Profile von Personen zu ermitteln, die die MenPas-Plattform verwenden, da sich die Eigenschaften der Benutzergruppen, die die analysierten Tests durchgeführt haben, geändert haben.


Wie klassifiziert oder gruppiert ein Mensch Daten? - Psychologie

Kategorisierung ist der Prozess, durch den Ideen und Objekte erkannt, differenziert, klassifiziert und verstanden werden.

Lernziele

Unterscheiden Sie zwischen den drei allgemeinen Ansätzen zur Kategorisierung

Die zentralen Thesen

Wichtige Punkte

  • Kategorisierung ist der Prozess, durch den Objekte sortiert und klassifiziert werden. Es gibt drei Haupttypen der Kategorisierung, die in der Psychologie untersucht werden.
  • Die klassische Kategorisierung entstand in der klassischen Periode Griechenlands und sortiert Objekte anhand von Regeln in starre, klar definierte Kategorien.
  • Konzeptionelles Clustering ist eine modernisierte Version der klassischen Kategorisierung, während es Objekte weiterhin nach Regeln klassifiziert, es ermöglicht jedoch unterschiedliche Eignungsgrade für eine Kategorie.
  • Die Fuzzy-Set-Theorie bezieht sich auf das konzeptionelle Clustering, weil sie es Objekten ermöglicht, zu einer Menge zu gehören.
  • Die Prototyptheorie klassifiziert Objekte danach, wie ähnlich sie einem mentalen Bild eines Prototyps dieses Objekts sind.

Schlüsselbegriffe

  • Prototyp: Ein mentales Bild, das für eine bestimmte Kategorie repräsentativ ist.
  • benotete Mitgliedschaft: Unterschiedliche Grade der Zugehörigkeit zu einer Kategorie.

Kategorisierung ist der Prozess, durch den Ideen und Objekte erkannt, differenziert, klassifiziert und verstanden werden. Das Wort “kategorisierung” impliziert, dass Objekte in Kategorien einsortiert werden, normalerweise für einen bestimmten Zweck. Dieser Prozess ist für die Erkenntnis von entscheidender Bedeutung. Unser Verstand ist nicht in der Lage, jedes Objekt als einzigartig zu behandeln, sonst würden wir eine zu große kognitive Belastung erfahren, um die Welt um uns herum verarbeiten zu können. Daher entwickelt unser Geist ” Konzepte,” oder mentale Repräsentationen von Kategorien von Objekten. Kategorisierung ist grundlegend für Sprache, Vorhersage, Inferenz, Entscheidungsfindung und alle Arten von Umweltinteraktionen.

Es gibt viele Theorien darüber, wie der Geist Objekte und Ideen kategorisiert. Im Laufe der Geschichte der Kognitionswissenschaft und Psychologie wurden jedoch drei allgemeine Ansätze zur Kategorisierung genannt.

Klassische Kategorisierung

Diese Art der Kategorisierung geht auf die klassische Zeit in Griechenland zurück. Platon führte in seinen sokratischen Dialogen den Ansatz der Gruppierung von Objekten aufgrund ihrer ähnlichen Eigenschaften ein. Aristoteles untersuchte diesen Ansatz in einer seiner Abhandlungen weiter, indem er die Unterschiede zwischen Klassen und Objekten analysierte. Aristoteles wendete auch intensiv das klassische Kategorisierungsschema in seinem Ansatz zur Klassifizierung von Lebewesen an (der die Technik der Anwendung sukzessiv eingrenzender Fragen verwendet: Ist es ein Tier oder ein Gemüse? Wie viele Füße hat es? Hat es Fell oder Federn? Kann es fliegen?), die die Grundlage für die natürliche Taxonomie bildet.

Nach der klassischen Auffassung sollten Kategorien klar definiert sein, sich gegenseitig ausschließen und kollektiv erschöpfend sein. Auf diese Weise gehört jede Entität des gegebenen Klassifikationsuniversums eindeutig zu einer und nur einer der vorgeschlagenen Kategorien. Die meisten modernen Kategorisierungsformen verfügen nicht über ein solches "cut-and-dry"-System.

Konzeptionelles Clustering

Conceptual Clustering ist eine moderne Variante des klassischen Ansatzes und leitet sich aus Versuchen ab, zu erklären, wie Wissen repräsentiert wird. Bei diesem Ansatz werden Konzepte generiert, indem zunächst ihre konzeptionellen Beschreibungen formuliert und dann die Entitäten gemäß den Beschreibungen klassifiziert werden. Beim konzeptionellen Clustering hat Ihr Verstand beispielsweise die Idee, dass der Cluster-HUND die Beschreibung “Tier, Pelz, Vierbeiner, Energie hat.” Wenn Sie dann auf ein Objekt stoßen, das dieser Beschreibung entspricht, klassifizieren Sie das Objekt als Hund.

Konzeptionelles Clustering bringt die Idee von notwendigen und hinreichenden Bedingungen hervor. Um beispielsweise als HUND eingestuft zu werden, muss es die Bedingungen “tierisch, pelzig, vierbeinig, energisch” erfüllen. Diese Bedingungen sind es jedoch nicht ausreichend andere Objekte können diese Bedingungen erfüllen und trotzdem kein Hund sein. Unterschiedliche Cluster haben unterschiedliche Anforderungen und Objekte haben unterschiedliche Fitnessgrade für unterschiedliche Cluster. Dies kommt in Fuzzy-Sets vor.

Fuzzy-Sets

Konzeptuelles Clustering ist eng mit der Fuzzy-Set-Theorie verwandt, bei der Objekte in unterschiedlichem Grad an Eignung zu einem oder mehreren Konzepten gehören können. Unser Beispiel der Klasse DOG ist eine Fuzzy-Menge. Vielleicht gehört “fox” zu diesem Cluster (tierisch, pelzig, vierbeinig, energisch), aber nicht mit der gleichen Fitness wie “wolf”. Verschiedene Objekte können besser zu einem Cluster passen als andere. Die Fuzzy-Set-Theorie ist nicht binär, daher ist nicht immer klar, ob ein Objekt zu einem Cluster gehört oder nicht.

Prototypentheorie

Kategorisierung kann auch als der Prozess der Gruppierung von Dingen anhand von Prototypen angesehen werden. Das Konzept der “erforderlichen und ausreichenden Bedingungen” funktioniert normalerweise nicht in den unübersichtlichen Grenzen der natürlichen Welt. Die Prototypentheorie ist eine andere Art der Klassifizierung von Objekten. Im Wesentlichen hat eine Person einen “Prototyp” für das, was ein Objekt ist, daher kann der Prototyp einer Person für DOG ein mentales Bild eines Hundes sein, den sie als Kind kannte. Ihr Prototyp wäre ihre mentale Vorstellung von einem “typischen Hund.” Sie würden Objekte als Hunde klassifizieren oder nicht, je nachdem, wie sehr sie ihrem Prototyp entsprechen. Verschiedene Menschen haben je nach Erfahrung unterschiedliche Prototypen für dieselbe Art von Objekt.

Die Prototypentheorie ist nicht binär, sondern verwendet eine abgestufte Mitgliedschaft. Nach der Prototyptheorie kann ein Objekt eine Art Hund sein, und ein Tier kann einem Hund ähnlicher sein als ein anderes. Es gibt verschiedene Mitgliedschaftsstufen in der Kategorie DOG, und diese Stufen befinden sich in einer Hierarchie. Studien haben gezeigt, dass Kategorien auf der mittleren Ebene wahrnehmungs- und konzeptionell die hervorstechendsten sind. Dies bedeutet, dass die Kategorie DOG die reichste Abbildung hervorruft und am leichtesten in den Sinn kommt, relativ zu GOLDEN RETRIEVER (untergeordnete Hierarchie) und zu ANIMAL (obere Hierarchie).

Prototypentheorie: Gemäß der Prototyptheorie werden alle baumähnlichen Dinge auf der Grundlage eines individuellen Baumprototyps beurteilt. Die mittlere Kategorie BAUM sticht stärker hervor als die übergeordnete Kategorie PFLANZE oder die untere Kategorie ELM.


Wenn Sie einen meiner Beiträge schon einmal gelesen haben, wissen Sie wahrscheinlich, dass ich zuerst mit einem Beispiel erkläre und dann über den technischen Aspekt unseres Themas spreche. Außerdem führe ich den Leser nicht gerne durch die überwältigende Mathematik hinter Themen, da diese meiner Meinung nach für Forscher wichtiger sind als für Menschen, die ein Eigeninteresse daran haben.

Zurück zu k-Means und unserem ersten Beispiel. Nehmen wir an, wir haben einen Datensatz, der wie in der folgenden Abbildung dargestellt aussieht:

Für uns Menschen sehen diese Daten so aus, als ob sie perfekt in drei Gruppen (d. h. Cluster) passen. Maschinen können das jedoch nicht sehen, da es sich bei diesen Punkten um tatsächliche Daten-„Punkte“ handelt, deren Werte nur Zahlen sind, die für die Maschine nicht wahrnehmbar sind.

In Bezug auf das Clustering-Ziel haben wir eine Reihe von unbeschrifteten Datenpunkten, die wir in Gruppen zusammenfassen möchten. Diese Gruppen werden normalerweise vom Algorithmus selbst mit Zahlen (0,1,2..) gekennzeichnet. Implizit brauchen wir eigentlich eine Entscheidungsgrenze, die die Gruppen trennt. Wieso den? In der Praxis funktioniert die Inferenz, indem ein Datenpunkt mit einem entsprechenden Cluster verknüpft wird. Hier scheint die Entscheidungsgrenze wichtig zu sein.

Beim k-Means-Clustering geht es darum, die Trainingspunkte, die wir haben, in Cluster zusammenzufassen. Aber der Zweck davon folgt derselben Idee. Wir wollen wissen, welche Datenpunkte zusammengehören, ohne für einen von ihnen Labels zu haben.

Wir starten den Algorithmus mit k verschiedene Durchschnitte platzieren (d. h. Mittelwerte), deren Werte entweder zufällig initialisiert oder auf reale Datenpunkte auf der Ebene gesetzt werden. Lass uns beginnen mit k=3, da die Daten „scheinbar“ in drei Gruppen zu fallen sind (wir werden auf dieses „scheinbar“-Wort später im Beitrag zurückkommen). Lassen Sie uns zu Erklärungszwecken die Werte (d. h. Positionen) der Durchschnitte zufällig initialisieren:

Nun durchläuft der Algorithmus die Datenpunkte nacheinander und misst den Abstand zwischen jedem Punkt und den drei Schwerpunkten (A, B und C). Der Algorithmus gruppiert dann den Datenpunkt mit dem nächsten Schwerpunkt (d. h. dem nächsten in der Entfernung).

Zum Beispiel gehört der Datenpunkt Nummer 21 zu Gruppe A in der grünen Farbe, nur weil er näher am Schwerpunkt A liegt:

Sobald wir jeden Datenpunkt mit seinem nächsten Schwerpunkt verknüpft haben, berechnen wir die Mittelwerte neu – die Werte der Schwerpunkte Der neue Wert eines Schwerpunkts ist die Summe aller Punkte, die zu diesem Schwerpunkt gehören, geteilt durch die Anzahl der Punkte in der Gruppe.

Wir machen das obige so lange, bis kein Schwerpunkt seinen Wert bei der Neuberechnung ändert. Dies bedeutet, dass sich jeder Schwerpunkt in der Mitte seines Clusters zentriert hat, der von seiner eigenen kreisförmigen Entscheidungsgrenze umgeben ist:


Was ist Klassifizierung?

Die Klassifizierung ist ein Kategorisierungsprozess, der einen Trainingsdatensatz verwendet, um Objekte zu erkennen, zu unterscheiden und zu verstehen. Klassifikation ist eine überwachte Lerntechnik, bei der ein Trainingssatz und korrekt definierte Beobachtungen verfügbar sind.

Abbildung 02: Klassifizierung

Der Algorithmus, der die Klassifizierung implementiert, ist der Klassifikator, während die Beobachtungen die Instanzen sind. K-Nearest Neighbor Algorithmus und Entscheidungsbaumalgorithmen sind die bekanntesten Klassifikationsalgorithmen im Data Mining.


3.2.4. Harmonisierung von DSM-5 und ICD-11

Wie bereits erwähnt, befindet sich die ICD-11 derzeit in der Entwicklung mit einem voraussichtlichen Veröffentlichungsdatum im Jahr 2018. Laut DSM-5 gibt es Bestrebungen, die beiden Klassifikationssysteme zu harmonisieren, damit eine genauere Erhebung nationaler Gesundheitsstatistiken möglich ist und Design klinischer Studien, verbesserte Fähigkeit, wissenschaftliche Erkenntnisse über nationale Grenzen hinweg zu replizieren und die fehlende Übereinstimmung zwischen den Diagnosen DSM-IV und ICD-10 zu korrigieren. (APA, 2013).


Erstellen der Cluster

Sobald wir ein Maß für die Ähnlichkeit zwischen den Fällen haben, können wir darüber nachdenken, wie wir Fälle basierend auf ihrer Ähnlichkeit gruppieren können. Es gibt mehrere Möglichkeiten, Fälle basierend auf ihren Ähnlichkeitskoeffizienten zu gruppieren. Die meisten dieser Methoden arbeiten hierarchisch. Das Prinzip jeder Methode ist insofern ähnlich, als es damit beginnt, dass alle Fälle als eigenständiger Cluster behandelt werden. Die Cluster werden dann basierend auf einem für die gewählte Methode spezifischen Kriterium zusammengeführt.Bei allen Methoden beginnen wir also mit so vielen Clustern, wie es Fälle gibt, und enden mit nur einem Cluster, der alle Fälle enthält. Durch die Untersuchung des Fortschritts der Cluster-Zusammenführung ist es möglich, Cluster von Fällen mit hoher Ähnlichkeit zu isolieren.

Single Linkage oder SLINK (Nächster Nachbar):

Dies ist die einfachste Methode und somit ein guter Ausgangspunkt, um die Grundprinzipien der Clusterbildung (und die hierarchische Natur des Prozesses) zu verstehen. Die Grundidee ist wie folgt:
1. Jeder Fall beginnt als Cluster.
2. Finden Sie die beiden ähnlichsten Fälle/Cluster (z. B. A und B), indem Sie sich die Ähnlichkeitskoeffizienten zwischen Fallpaaren (z. B. die Korrelationen oder euklidischen Distanzen) ansehen. Die Fälle/Cluster mit der höchsten Ähnlichkeit werden zusammengeführt, um den Kern eines größeren Clusters zu bilden.
3. Der nächste Fall/Cluster ©, der mit diesem größeren Cluster zusammengeführt wird, ist derjenige mit dem höchsten Ähnlichkeitskoeffizienten zu A oder B.
4. Der nächste zusammengeführte Fall ist der mit der höchsten Ähnlichkeit zu A, B oder C usw.

Abbildung 3 zeigt, wie die einfache Verknüpfungsmethode funktioniert. Wenn wir 5 Tiere nach ihren körperlichen Merkmalen (Farbe, Anzahl der Beine, Augen usw.) vermessen und diese Tiere anhand dieser Merkmale gruppieren wollten, würden wir mit den beiden ähnlichsten Tieren beginnen. Stellen Sie sich zunächst den Ähnlichkeitskoeffizienten als eine vertikale Skala vor, die von geringer Ähnlichkeit bis hoch reicht. Bei der einfachen Verknüpfungsmethode beginnen wir mit den beiden ähnlichsten Fällen. Wir haben zwei Tiere, die sich in der Tat sehr ähnlich sind (eigentlich sehen sie identisch aus). Ihr Ähnlichkeitskoeffizient ist daher hoch. Eine Gabelung, die sich an dem Punkt auf der vertikalen Skala teilt, der den Ähnlichkeitskoeffizienten darstellt, repräsentiert die Ähnlichkeit zwischen diesen Tieren. Aufgrund der hohen Ähnlichkeit sind die Spitzen der Gabel also sehr lang. Diese Gabel ist (1) im Diagramm. Nachdem wir die ersten beiden Fälle für unseren Cluster gefunden haben, schauen wir uns nach anderen Fällen um. In diesem einfachen Fall bleiben drei Tiere übrig. Das Tier, das als nächstes Teil des Clusters ausgewählt wird, ist einem der Tiere, die sich bereits im Cluster befinden, am ähnlichsten. In diesem Fall handelt es sich um ein Tier, das in jeder Hinsicht ähnlich ist, außer dass es einen weißen Bauch hat. Die anderen beiden Fälle sind sich weniger ähnlich (weil einer eine völlig andere Farbe hat und der andere menschlich ist!). Der Ähnlichkeitskoeffizient des ausgewählten Tieres ist etwas niedriger als bei den ersten beiden (weil es einen weißen Bauch hat) und so teilt sich die Gabel (dargestellt durch eine gestrichelte Linie) an einem niedrigeren Punkt entlang der vertikalen Skala. Diese Stufe ist (2) im Diagramm. Nachdem wir dem Cluster hinzugefügt haben, betrachten wir erneut die verbleibenden Fälle und bewerten ihre Ähnlichkeit mit einem der drei Tiere, die bereits im Cluster sind. Es gibt ein Tier, das dem Tier, das gerade dem Cluster hinzugefügt wurde, ziemlich ähnlich ist. Obwohl es eine andere Farbe hat, hat es das gleiche markante Muster auf seinem Bauch. Daher wird dieses Tier dem Cluster aufgrund seiner Ähnlichkeit mit dem dritten Tier in dem Cluster hinzugefügt (obwohl es den anderen beiden Tieren relativ unähnlich ist). Dies ist (3) im Diagramm. Schließlich bleibt ein Tier übrig (der Mensch), das allen Tieren in der Gruppe unähnlich ist, daher wird sie schließlich in die Gruppe aufgenommen, aber seine Ähnlichkeitsbewertung wird sehr niedrig sein.
Hier gibt es mehrere wichtige Punkte. Der erste ist, dass der Prozess hierarchisch ist. Daher hängen die Ergebnisse, die wir erhalten, stark von den beiden Fällen ab, die wir als Ausgangspunkt gewählt haben. Zweitens müssen Fälle in einem Cluster nur einem anderen Fall im Cluster ähneln, daher kann über eine Reihe von Auswahlen eine große Unähnlichkeit zwischen den Fällen eingeführt werden. Schließlich ist das Diagramm, das wir gezeichnet haben, um die Fälle zu verbinden, als Dendrogramm (oder Baumdiagramm) bekannt. Die Ausgabe einer Clusteranalyse liegt in Form eines solchen Diagramms vor.

Vollständige Verknüpfung oder CLINK (Entferntester Nachbar):

Eine Variante der einfachen Verknüpfungsmethode ist als vollständige Verknüpfung (oder der entfernteste Nachbar) bekannt. Diese Methode ist das logische Gegenteil zur einfachen Verknüpfung. Zu Beginn ist das Verfahren das gleiche wie bei der einfachen Verknüpfung, indem wir zunächst nach den beiden Fällen mit der höchsten Ähnlichkeit (in Bezug auf ihre Korrelation oder durchschnittliche euklidische Distanz) suchen. Diese beiden Fälle (A und B) bilden den Kern des Clusters. Im zweiten Schritt wird der Unterschied in der Methode deutlich. Anstatt nach einem neuen Fall zu suchen, der entweder A oder B ähnlich ist, suchen wir nach einem Fall, der den höchsten Ähnlichkeitswert sowohl zu A als auch zu B hat. Der Fall © mit der höchsten Ähnlichkeit sowohl zu A als auch zu B wird dem Cluster hinzugefügt. Der nächste Fall, der dem Cluster hinzugefügt wird, ist der Fall mit der höchsten Ähnlichkeit mit A, B und C. Diese Methode reduziert die Unähnlichkeit innerhalb eines Clusters, da sie auf der Gesamtähnlichkeit mit Mitgliedern des Clusters basiert (und nicht auf der Ähnlichkeit mit einem einzelnen Mitglied). eines Clusters). Die Ergebnisse hängen jedoch immer noch stark davon ab, welche beiden Fälle Sie als Ausgangspunkt nehmen.

Durchschnittliche (zwischen Gruppen) Verknüpfung:

Diese Methode ist eine weitere Variante der einfachen Verknüpfung. Auch hier beginnen wir damit, die beiden ähnlichsten Fälle zu finden (basierend auf ihrer Korrelation oder durchschnittlichen euklidischen Distanz). Diese beiden Fälle (A und B) bilden den Kern des Clusters. In diesem Stadium wird die durchschnittliche Ähnlichkeit innerhalb des Clusters berechnet. Um zu bestimmen, welcher Fall © zu dem Cluster hinzugefügt wird, vergleichen wir die Ähnlichkeit der verbleibenden Fälle mit der durchschnittlichen Ähnlichkeit des Clusters. Der nächste Fall, der dem Cluster hinzugefügt wird, ist der mit der höchsten Ähnlichkeit zum durchschnittlichen Ähnlichkeitswert für den Cluster. Sobald dieser dritte Fall hinzugefügt wurde, wird die durchschnittliche Ähnlichkeit innerhalb des Clusters neu berechnet. Der nächste Fall (D), der dem Cluster hinzugefügt wird, ist der, der diesem neuen Wert der durchschnittlichen Ähnlichkeit am ähnlichsten ist.

Methode der Station:

Die Verknüpfungsmethoden basieren alle auf einem ähnlichen Prinzip: Es gibt eine Ähnlichkeitskette, die dazu führt, ob ein Fall zu einem Cluster hinzugefügt wird oder nicht. Die Regeln für diese Kette unterscheiden sich von einer Verknüpfungsmethode zur anderen. Ein anderer Ansatz ist die Methode von Ward, die wesentlich komplexer ist als die einfache Verknüpfungsmethode. Ziel der Methode von Ward ist es, Fälle so zu Clustern zusammenzufassen, dass die Varianz innerhalb eines Clusters minimiert wird. Dazu beginnt jeder Fall als eigener Cluster. Cluster werden dann so zusammengeführt, dass die Variabilität innerhalb eines Clusters reduziert wird. Genauer gesagt werden zwei Cluster zusammengeführt, wenn diese Zusammenführung die minimale Erhöhung der Fehlerquadratsumme ergibt. Im Grunde bedeutet dies, dass in jeder Phase die durchschnittliche Ähnlichkeit des Clusters gemessen wird. Die Differenz zwischen den einzelnen Fällen innerhalb eines Clusters und dieser durchschnittlichen Ähnlichkeit wird berechnet und quadriert (genau wie bei der Berechnung einer Standardabweichung). Die Summe der quadrierten Abweichungen wird als Maß für den Fehler innerhalb eines Clusters verwendet. Ein Fall wird ausgewählt, um in den Cluster einzutreten, wenn es der Fall ist, dessen Aufnahme in den Cluster den geringsten Anstieg des Fehlers erzeugt (gemessen an der Summe der quadrierten Abweichungen).


Die Clusteranalyse gruppiert Daten basierend auf den Eigenschaften, die sie besitzen. Die Clusteranalyse gruppiert Objekte basierend auf den Faktoren, die sie ähnlich machen. Die Clusteranalyse wird ansonsten als Segmentierungsanalyse oder Taxonomieanalyse bezeichnet. Die Clusteranalyse unterscheidet nicht abhängige und unabhängige Variablen. Clusteranalyse wird in einer Vielzahl von Bereichen wie Psychologie, Biologie, Statistik, Data Mining, Mustererkennung und anderen Sozialwissenschaften verwendet.

Zielsetzung

Das Hauptziel besteht darin, die Heterogenität in jedem Datensatz zu berücksichtigen. Die anderen Ziele der Clusteranalyse sind

Hadoop, Data Science, Statistik und andere

  • Taxonomiebeschreibung – Identifizieren von Gruppen in den Daten
  • Datenvereinfachung – Die Möglichkeit, Gruppen ähnlicher Beobachtungen anstelle aller Einzelbeobachtungen zu analysieren
  • Hypothesengenerierung oder -test – Hypothesen basierend auf der Art der Daten entwickeln oder die zuvor aufgestellte Hypothese testen
  • Beziehungsidentifikation – Die vereinfachte Struktur aus der Clusteranalyse, die die Beziehungen beschreibt

Es gibt zwei Hauptzwecke davon – Verständnis und Nützlichkeit.

Unter den Umständen des Verstehens gruppiert es Objekte, die einige gemeinsame Merkmale aufweisen

Im Sinne von Utility stellt es den Clustern, zu denen sie gehören, die Eigenschaften jedes Datenobjekts bereit.

Es geht Hand in Hand mit Faktorenanalyse und Diskriminanzanalyse.

Sie sollten sich einige Fragen zur Clusteranalyse stellen, bevor Sie damit beginnen

  • Welche Variablen sind relevant?
  • Ist die Stichprobengröße ausreichend?
  • Können Ausreißer erkannt werden und sollten diese entfernt werden?
  • Wie soll Objektähnlichkeit gemessen werden?
  • Sollen Daten standardisiert werden?

Arten von Clustern

Es gibt drei Haupttypen von Clustering

  • Hierarchisches Clustering – Enthält die agglomerative und divisive Methode
  • Partitions-Clustering – Enthält K-Means, Fuzzy K-Means, Isodaten darunter
  • Dichtebasiertes Clustering – Hat Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed darunter

Annahmen

Es gibt immer zwei Annahmen darin.

  • Es wird davon ausgegangen, dass die Stichprobe repräsentativ für die Bevölkerung ist
  • Es wird davon ausgegangen, dass die Variablen nicht korreliert sind. Auch wenn Variablen korreliert sind, entfernen Sie korrelierte Variablen oder verwenden Sie Entfernungsmaße, die die Korrelation kompensieren.

Schritte

Im Folgenden sind einige der angegebenen Schritte aufgeführt.

    • Schritt 1: Definieren Sie das Problem
    • Schritt 2: Entscheiden Sie sich für das geeignete Ähnlichkeitsmaß
    • Schritt 3: Entscheiden Sie, wie Sie die Objekte gruppieren
    • Schritt 4: Legen Sie die Anzahl der Cluster fest
    • Schritt 5: Interpretieren, beschreiben und validieren Sie den Cluster

    Clusteranalyse in SPSS

    In SPSS finden Sie die Clusteranalyse-Option in der Option Analysieren/Klassifizieren. In SPSS gibt es drei Methoden für die Clusteranalyse – K-Means Cluster, Hierarchical Cluster und Two Step Cluster.

    Die K-Means-Clustermethode klassifiziert einen bestimmten Datensatz durch eine feste Anzahl von Clustern. Diese Methode ist leicht zu verstehen und liefert die beste Ausgabe, wenn die Daten gut voneinander getrennt sind.

    Die Zwei-Schritt-Clusteranalyse ist ein Werkzeug, das für die Verarbeitung großer Datensätze entwickelt wurde. Es erstellt Cluster sowohl für kategoriale als auch für kontinuierliche Variablen.

    Der hierarchische Cluster ist die am häufigsten verwendete Methode der Clusteranalyse. Es kombiniert Fälle zu homogenen Clustern, indem es sie durch eine Reihe aufeinanderfolgender Schritte zusammenführt.

    Die hierarchische Clusteranalyse umfasst drei Schritte

    • Berechnen Sie die Entfernung
    • Verknüpfen Sie die Cluster
    • Auswahl einer Lösung durch Auswahl der richtigen Anzahl von Clustern

    Im Folgenden sind die Schritte zum Durchführen einer hierarchischen Clusteranalyse in SPSS aufgeführt.

    • Der erste Schritt besteht darin, die Variablen auszuwählen, die geclustert werden sollen. Das folgende Dialogfeld erklärt es Ihnen
    • Durch Anklicken der Statistikoption im obigen Dialogfeld erhalten Sie das Dialogfeld, in dem Sie die Ausgabe festlegen möchten
    • Fügen Sie in den Dialogfelddiagrammen das Dendrogramm hinzu. Dendrogramm ist die grafische Darstellung des hierarchischen Clusteranalyseverfahrens. Es zeigt, wie die Cluster bei jedem Schritt kombiniert werden, bis ein einzelner Cluster entsteht.
    • Die Dialogbox-Methode ist entscheidend. Sie können hier die Entfernungs- und Clustering-Methode erwähnen. In SPSS gibt es drei Maßeinheiten für Intervall, Anzahl und Binärdaten.
    • Die quadrierte euklidische Distanz ist die Summe der quadrierten Differenzen ohne die Quadratwurzel zu ziehen.
    • Bei den Zählungen können Sie zwischen Chi-Quadrat und Phi-Quadrat-Maß wählen
    • Im Bereich Binär haben Sie viele Optionen zur Auswahl. Die quadrierte euklidische Distanz ist die beste Option.
    • Der nächste Schritt besteht darin, die Clustermethode auszuwählen. Es wird immer empfohlen, Single Linkage oder Nearest Neighbor zu verwenden, da dies hilft, Ausreißer leicht zu identifizieren. Nachdem die Ausreißer identifiziert wurden, können Sie die Ward’-Methode verwenden.
    • Der letzte Schritt ist die Standardisierung

    Kritikpunkte

    Die häufigsten Kritikpunkte sind unten aufgeführt

    • Es ist beschreibend, theoretisch und nicht schlussfolgernd.
    • Es erzeugt Cluster unabhängig von der tatsächlichen Existenz einer Struktur
    • Es kann nicht allgemein verwendet werden, da es vollständig von den Variablen abhängt, die als Grundlage für das Ähnlichkeitsmaß verwendet werden

    Was ist Faktorenanalyse?

    Die Faktorenanalyse ist eine explorative Analyse, die bei der Gruppierung ähnlicher Variablen in Dimensionen hilft. Es kann verwendet werden, um die Daten zu vereinfachen, indem die Dimensionen der Beobachtungen reduziert werden. Die Faktoranalyse hat mehrere verschiedene Rotationsmethoden.

    Die Faktorenanalyse wird hauptsächlich zu Datenreduktionszwecken verwendet.

    Es gibt zwei Arten der Faktorenanalyse – Exploratory und Confirmatory

    • Die explorative Methode wird verwendet, wenn Sie keine vordefinierte Vorstellung von den Strukturen oder Dimensionen in einem Variablensatz haben.
    • Die Bestätigungsmethode wird verwendet, wenn Sie bestimmte Hypothesen über die Strukturen oder Dimensionen in einem Variablensatz testen möchten.

    Ziele

    Es gibt zwei Hauptziele der Faktorenanalyse, die unten erwähnt werden

    • Identifizierung der zugrunde liegenden Faktoren – Dazu gehört das Clustern von Variablen zu homogenen Sets, das Erstellen neuer Variablen und das Erlangen von Kenntnissen über die Kategorien
    • Screening von Variablen – Es ist hilfreich bei der Regression und identifiziert Gruppierungen, damit Sie eine Variable auswählen können, die viele repräsentiert.

    Annahmen

    Es gibt vier Hauptannahmen der Faktorenanalyse, die unten erwähnt werden

    • Modelle basieren normalerweise auf linearen Beziehungen
    • Es wird davon ausgegangen, dass die gesammelten Daten intervallskaliert sind
    • Multikollinearität in den Daten ist wünschenswert, da das Ziel darin besteht, den zusammenhängenden Satz von Variablen herauszufinden
    • Die Daten sollten offen und reaktionsfähig für die Faktorenanalyse sein. Es sollte nicht so sein, dass eine Variable nur mit sich selbst korreliert und keine Korrelation mit einer anderen Variablen besteht. Eine Faktorenanalyse kann mit solchen Daten nicht durchgeführt werden.

    Factoring-Arten

    Nachfolgend sind einige der Factoring-Arten aufgeführt.

    • Hauptkomponenten-Factoring – Am häufigsten verwendete Methode, bei der Faktorgewichtungen berechnet werden, um die maximal mögliche Varianz zu extrahieren, und so lange fortgesetzt, bis keine sinnvolle Varianz mehr vorhanden ist.
    • Kanonische Faktorenanalyse – Finde Faktoren, die die höchste kanonische Korrelation mit den beobachteten Variablen aufweisen
    • Common-Faktor-Analyse – Sucht nach der geringsten Anzahl von Faktoren, die die gemeinsame Varianz einer Reihe von Variablen erklären können
    • Imagefaktorierung – Basierend auf der Korrelationsmatrix, bei der jede Variable anhand der anderen durch multiple Regression vorhergesagt wird
    • Alpha-Factoring – Maximiert die Zuverlässigkeit von Faktoren
    • Faktorregressionsmodell – Kombination aus Faktorenmodell und Regressionsmodell, deren Faktoren teilweise bekannt sind

    Kriterien

    Im Folgenden sind einige der beschriebenen Kriterien aufgeführt.

    Eigenwertkriterien

    • Stellt den Varianzbetrag in den ursprünglichen Variablen dar, der mit einem Faktor verbunden ist
    • Die Summe der Quadrate der Faktorladungen jeder Variablen eines Faktors stellt den Eigenwert dar
    • Faktoren mit Eigenwerten größer 1.0 werden beibehalten

    Scree-Plot-Kriterien

    • Ein Diagramm der Eigenwerte gegen die Anzahl der Faktoren, in der Reihenfolge der Extraktion.
    • Die Form des Diagramms bestimmt die Anzahl der Faktoren

    Prozentsatz der Abweichungskriterien

    • Die Anzahl der extrahierten Faktoren wird so ermittelt, dass der zunehmende Prozentsatz der durch die Faktoren extrahierten Varianz den Grad der Zufriedenheit erreicht.

    Signifikanztestkriterien

    • Die statistische Bedeutung der einzelnen Eigenwerte wird ermittelt und nur die statistisch signifikanten Faktoren werden beibehalten

    Die Faktorenanalyse wird in verschiedenen Bereichen wie Psychologie, Soziologie, Politikwissenschaft, Bildung und psychische Gesundheit verwendet.

    Faktorenanalyse in SPSS

    In SPSS finden Sie die Option Faktoranalyse unter Analysieren à Dimensionsreduktion à Faktor

    • Beginnen Sie mit dem Hinzufügen der Variablen zum Abschnitt mit der Variablenliste
    • Klicken Sie auf die Registerkarte Deskriptiv und fügen Sie einige Statistiken hinzu, unter denen die Annahmen der Faktorenanalyse überprüft werden.
    • Klicken Sie auf die Option Extraktion, mit der Sie die Extraktionsmethode und den Trennwert für die Extraktion auswählen können
    • Principal Components (PCA) ist die Standardextraktionsmethode, die sogar unkorrelierte Linearkombinationen der Variablen extrahiert. PCA kann verwendet werden, wenn eine Korrelationsmatrix singulär ist. Es ist der kanonischen Korrelationsanalyse sehr ähnlich, bei der der erste Faktor eine maximale Varianz aufweist und die folgenden Faktoren einen kleineren Teil der Varianz erklären.
    • Die zweitallgemeinste Analyse ist die Hauptachsenfaktorierung. Es identifiziert die latenten Konstrukte hinter den Beobachtungen.
    • Der nächste Schritt besteht darin, eine Rotationsmethode auszuwählen. Die am häufigsten verwendete Methode ist Varimax. Diese Methode vereinfacht die Interpretation der Faktoren.
    • Die zweite Methode ist Quartimax. Bei diesem Verfahren werden die Faktoren rotiert, um die Anzahl der Faktoren zu minimieren. Es vereinfacht die Interpretation der beobachteten Variablen.
    • Die nächste Methode ist Equamax, eine Kombination der beiden oben genannten Methoden.
    • Im Dialogfeld können Sie durch Klicken auf die “Optionen” die fehlenden Werte verwalten
    • Bevor Sie die Ergebnisse im Datensatz speichern, führen Sie zuerst die Faktorenanalyse durch, prüfen Sie auf Annahmen und bestätigen Sie, dass die Ergebnisse aussagekräftig und nützlich sind.

    Clusteranalyse vs. Faktorenanalyse

    Sowohl die Clusteranalyse als auch die Faktorenanalyse sind unüberwachte Lernverfahren, die zur Segmentierung von Daten verwendet werden. Viele Forscher, die neu auf diesem Gebiet sind, meinen, dass die Clusteranalyse und die Faktorenanalyse ähnlich sind. Es mag ähnlich erscheinen, aber sie unterscheiden sich in vielerlei Hinsicht. Die Unterschiede zwischen beiden sind unten aufgeführt

    Zielsetzung

    Die Ziele der Cluster- und Faktorenanalyse sind unterschiedlich. Ziel ist es, die Beobachtungen in homogene und unterschiedliche Gruppen einzuteilen. Die Faktorenanalyse hingegen erklärt die Homogenität der Variablen, die sich aus der Ähnlichkeit der Werte ergibt.

    Komplexität

    Komplexität ist ein weiterer Faktor, bei dem sich Cluster- und Faktorenanalyse unterscheiden. Die Datengröße beeinflusst die Analyse unterschiedlich. Wenn die Datengröße zu groß ist, wird sie bei der Clusteranalyse rechnerisch schwer zu handhaben.

    Lösung

    Die Lösung eines Problems ist sowohl in der Faktoren- als auch in der Clusteranalyse mehr oder weniger ähnlich. Aber die Faktorenanalyse bietet dem Forscher in einem besseren Aspekt eine bessere Lösung. Sie liefert nicht das beste Ergebnis, da alle Algorithmen in der Clusteranalyse rechnerisch ineffizient sind.

    Anwendungen

    Faktorenanalyse und Clusteranalyse werden unterschiedlich auf reale Daten angewendet. Die Faktorenanalyse eignet sich zur Vereinfachung komplexer Modelle. Es reduziert den großen Satz von Variablen auf einen viel kleineren Satz von Faktoren. Der Forscher kann eine Reihe von Hypothesen entwickeln und eine Faktorenanalyse durchführen, um diese Hypothese zu bestätigen oder zu widerlegen.

    Es eignet sich, um Objekte nach bestimmten Kriterien zu klassifizieren. Der Forscher kann bestimmte Aspekte einer Gruppe messen und sie mithilfe der Clusteranalyse in bestimmte Kategorien einteilen.

    Es gibt auch viele andere Unterschiede, die unten erwähnt werden

    • Sie versucht, Fälle zu gruppieren, während die Faktoranalyse versucht, Merkmale zu gruppieren.
    • Es wird verwendet, um kleinere Gruppen von Fällen zu finden, die für Daten als Ganzes repräsentativ sind. Es wird verwendet, um eine kleinere Gruppe von Merkmalen zu finden, die für die ursprünglichen Merkmale von Datensätzen repräsentativ sind.
    • Der wichtigste Teil dabei ist, die Anzahl der Cluster zu finden.Grundsätzlich werden Clustering-Methoden in zwei – Agglomerative Methode und Partitioning Methode unterteilt. Die agglomerative Methode beginnt mit jedem Fall in einem eigenen Cluster und endet, wenn ein Kriterium erreicht wird. Die Partitionierungsmethode beginnt mit allen Fällen in einem Cluster.
    • Es wird verwendet, um eine zugrunde liegende Struktur in einem Datensatz herauszufinden.

    3.2.4. Harmonisierung von DSM-5 und ICD-11

    Wie bereits erwähnt, befindet sich die ICD-11 derzeit in der Entwicklung mit einem voraussichtlichen Veröffentlichungsdatum im Jahr 2018. Laut DSM-5 gibt es Bestrebungen, die beiden Klassifikationssysteme zu harmonisieren, damit eine genauere Erhebung nationaler Gesundheitsstatistiken möglich ist und Design klinischer Studien, verbesserte Fähigkeit, wissenschaftliche Erkenntnisse über nationale Grenzen hinweg zu replizieren und die fehlende Übereinstimmung zwischen den Diagnosen DSM-IV und ICD-10 zu korrigieren. (APA, 2013).


    3 Antworten 3

    Das Clustern erfolgt für Daten ohne Label, die für jeden Datenpunkt ein Label zurückgeben. Die Klassifizierung erfordert Etiketten.

    Daher gruppieren Sie zuerst Ihre Daten und speichern die resultierenden Cluster-Labels. Dann trainieren Sie einen Klassifikator mit diesen Labels als Zielvariable. Durch das Speichern der Labels trennen Sie effektiv die Schritte des Clusterings und der Klassifizierung.

    Dadurch können Sie jeden Klassifizierungsalgorithmus verwenden (Random Forest, SVM, Naive Bayes, . ).

    Der problematische Teil dieser Pipeline ist die mangelnde Robustheit des kmeans-Algorithmus. Daher müssen Sie das Clustering-Ergebnis auswerten und möglicherweise wiederholt k-Means durchführen. Alternativ können Sie andere Clustering-Algorithmen verwenden und die Ergebnisse vergleichen.

    Obwohl es möglich ist, eine Klassifizierung einschließlich Training, Lebenslauf und Benchmarking unter Verwendung von Cluster-Labels anzuwenden, die durch das Clustern derselben Daten erhalten wurden, sollte klar sein, dass dies auch dann "erfolgreich" ist, wenn Sie RANDOM-hochdimensionale Daten haben. Benchmarking mit denselben Daten, die Sie für das Clustering verwendet haben, führt zu zu optimistischen Leistungsschätzungen des Klassifikators.

    Daher mögen es Data-Science-Puristen nicht.

    In ähnlicher Weise erhalten Sie überoptimistische p-Werte, wenn Sie Unterschiede für Daten zwischen Clustern einiger stark abgedunkelter Daten bewerten. Seien Sie also vorsichtig, statistische Tests für die Merkmalsauswahl vor dem Erstellen von Klassifikatoren zu verwenden - Tests können nur als heuristische Verfahren zur Priorisierung von Merkmalen angesehen werden - der p-Wert darf nicht auf die übliche Weise interpretiert werden.


    Wenn Sie einen meiner Beiträge schon einmal gelesen haben, wissen Sie wahrscheinlich, dass ich zuerst mit einem Beispiel erkläre und dann über den technischen Aspekt unseres Themas spreche. Außerdem führe ich den Leser nicht gerne durch die überwältigende Mathematik hinter Themen, da diese meiner Meinung nach für Forscher wichtiger sind als für Menschen, die ein Eigeninteresse daran haben.

    Zurück zu k-Means und unserem ersten Beispiel. Nehmen wir an, wir haben einen Datensatz, der wie in der folgenden Abbildung dargestellt aussieht:

    Für uns Menschen sehen diese Daten so aus, als ob sie perfekt in drei Gruppen (d. h. Cluster) passen. Maschinen können das jedoch nicht sehen, da es sich bei diesen Punkten um tatsächliche Daten-„Punkte“ handelt, deren Werte nur Zahlen sind, die für die Maschine nicht wahrnehmbar sind.

    In Bezug auf das Clustering-Ziel haben wir eine Reihe von unbeschrifteten Datenpunkten, die wir in Gruppen zusammenfassen möchten. Diese Gruppen werden normalerweise vom Algorithmus selbst mit Zahlen (0,1,2..) gekennzeichnet. Implizit brauchen wir eigentlich eine Entscheidungsgrenze, die die Gruppen trennt. Wieso den? In der Praxis funktioniert die Inferenz, indem ein Datenpunkt mit einem entsprechenden Cluster verknüpft wird. Hier scheint die Entscheidungsgrenze wichtig zu sein.

    Beim k-Means-Clustering geht es darum, die Trainingspunkte, die wir haben, in Cluster zusammenzufassen. Aber der Zweck davon folgt derselben Idee. Wir wollen wissen, welche Datenpunkte zusammengehören, ohne für einen von ihnen Labels zu haben.

    Wir starten den Algorithmus mit k verschiedene Durchschnitte platzieren (d. h. Mittelwerte), deren Werte entweder zufällig initialisiert oder auf reale Datenpunkte auf der Ebene gesetzt werden. Lass uns beginnen mit k=3, da die Daten „scheinbar“ in drei Gruppen zu fallen sind (wir werden auf dieses „scheinbar“-Wort später im Beitrag zurückkommen). Lassen Sie uns zu Erklärungszwecken die Werte (d. h. Positionen) der Durchschnitte zufällig initialisieren:

    Nun durchläuft der Algorithmus die Datenpunkte nacheinander und misst den Abstand zwischen jedem Punkt und den drei Schwerpunkten (A, B und C). Der Algorithmus gruppiert dann den Datenpunkt mit dem nächsten Schwerpunkt (d. h. dem nächsten in der Entfernung).

    Zum Beispiel gehört der Datenpunkt Nummer 21 zu Gruppe A in der grünen Farbe, nur weil er näher am Schwerpunkt A liegt:

    Sobald wir jeden Datenpunkt mit seinem nächsten Schwerpunkt verknüpft haben, berechnen wir die Mittelwerte neu – die Werte der Schwerpunkte Der neue Wert eines Schwerpunkts ist die Summe aller Punkte, die zu diesem Schwerpunkt gehören, geteilt durch die Anzahl der Punkte in der Gruppe.

    Wir machen das obige so lange, bis kein Schwerpunkt seinen Wert bei der Neuberechnung ändert. Dies bedeutet, dass sich jeder Schwerpunkt in der Mitte seines Clusters zentriert hat, der von seiner eigenen kreisförmigen Entscheidungsgrenze umgeben ist:


    Wie klassifiziert oder gruppiert ein Mensch Daten? - Psychologie

    Kategorisierung ist der Prozess, durch den Ideen und Objekte erkannt, differenziert, klassifiziert und verstanden werden.

    Lernziele

    Unterscheiden Sie zwischen den drei allgemeinen Ansätzen zur Kategorisierung

    Die zentralen Thesen

    Wichtige Punkte

    • Kategorisierung ist der Prozess, durch den Objekte sortiert und klassifiziert werden. Es gibt drei Haupttypen der Kategorisierung, die in der Psychologie untersucht werden.
    • Die klassische Kategorisierung entstand in der klassischen Periode Griechenlands und sortiert Objekte anhand von Regeln in starre, klar definierte Kategorien.
    • Konzeptionelles Clustering ist eine modernisierte Version der klassischen Kategorisierung, während es Objekte weiterhin nach Regeln klassifiziert, es ermöglicht jedoch unterschiedliche Eignungsgrade für eine Kategorie.
    • Die Fuzzy-Set-Theorie bezieht sich auf das konzeptionelle Clustering, weil sie es Objekten ermöglicht, zu einer Menge zu gehören.
    • Die Prototyptheorie klassifiziert Objekte danach, wie ähnlich sie einem mentalen Bild eines Prototyps dieses Objekts sind.

    Schlüsselbegriffe

    • Prototyp: Ein mentales Bild, das für eine bestimmte Kategorie repräsentativ ist.
    • benotete Mitgliedschaft: Unterschiedliche Grade der Zugehörigkeit zu einer Kategorie.

    Kategorisierung ist der Prozess, durch den Ideen und Objekte erkannt, differenziert, klassifiziert und verstanden werden. Das Wort “kategorisierung” impliziert, dass Objekte in Kategorien einsortiert werden, normalerweise für einen bestimmten Zweck. Dieser Prozess ist für die Erkenntnis von entscheidender Bedeutung. Unser Verstand ist nicht in der Lage, jedes Objekt als einzigartig zu behandeln, sonst würden wir eine zu große kognitive Belastung erfahren, um die Welt um uns herum verarbeiten zu können. Daher entwickelt unser Geist ” Konzepte,” oder mentale Repräsentationen von Kategorien von Objekten. Kategorisierung ist grundlegend für Sprache, Vorhersage, Inferenz, Entscheidungsfindung und alle Arten von Umweltinteraktionen.

    Es gibt viele Theorien darüber, wie der Geist Objekte und Ideen kategorisiert. Im Laufe der Geschichte der Kognitionswissenschaft und Psychologie wurden jedoch drei allgemeine Ansätze zur Kategorisierung genannt.

    Klassische Kategorisierung

    Diese Art der Kategorisierung geht auf die klassische Zeit in Griechenland zurück. Platon führte in seinen sokratischen Dialogen den Ansatz der Gruppierung von Objekten aufgrund ihrer ähnlichen Eigenschaften ein. Aristoteles untersuchte diesen Ansatz in einer seiner Abhandlungen weiter, indem er die Unterschiede zwischen Klassen und Objekten analysierte. Aristoteles wendete auch intensiv das klassische Kategorisierungsschema in seinem Ansatz zur Klassifizierung von Lebewesen an (der die Technik der Anwendung sukzessiv eingrenzender Fragen verwendet: Ist es ein Tier oder ein Gemüse? Wie viele Füße hat es? Hat es Fell oder Federn? Kann es fliegen?), die die Grundlage für die natürliche Taxonomie bildet.

    Nach der klassischen Auffassung sollten Kategorien klar definiert sein, sich gegenseitig ausschließen und kollektiv erschöpfend sein. Auf diese Weise gehört jede Entität des gegebenen Klassifikationsuniversums eindeutig zu einer und nur einer der vorgeschlagenen Kategorien. Die meisten modernen Kategorisierungsformen verfügen nicht über ein solches "cut-and-dry"-System.

    Konzeptionelles Clustering

    Conceptual Clustering ist eine moderne Variante des klassischen Ansatzes und leitet sich aus Versuchen ab, zu erklären, wie Wissen repräsentiert wird. Bei diesem Ansatz werden Konzepte generiert, indem zunächst ihre konzeptionellen Beschreibungen formuliert und dann die Entitäten gemäß den Beschreibungen klassifiziert werden. Beim konzeptionellen Clustering hat Ihr Verstand beispielsweise die Idee, dass der Cluster-HUND die Beschreibung “Tier, Pelz, Vierbeiner, Energie hat.” Wenn Sie dann auf ein Objekt stoßen, das dieser Beschreibung entspricht, klassifizieren Sie das Objekt als Hund.

    Konzeptionelles Clustering bringt die Idee von notwendigen und hinreichenden Bedingungen hervor. Um beispielsweise als HUND eingestuft zu werden, muss es die Bedingungen “tierisch, pelzig, vierbeinig, energisch” erfüllen. Diese Bedingungen sind es jedoch nicht ausreichend andere Objekte können diese Bedingungen erfüllen und trotzdem kein Hund sein. Unterschiedliche Cluster haben unterschiedliche Anforderungen und Objekte haben unterschiedliche Fitnessgrade für unterschiedliche Cluster. Dies kommt in Fuzzy-Sets vor.

    Fuzzy-Sets

    Konzeptuelles Clustering ist eng mit der Fuzzy-Set-Theorie verwandt, bei der Objekte in unterschiedlichem Grad an Eignung zu einem oder mehreren Konzepten gehören können. Unser Beispiel der Klasse DOG ist eine Fuzzy-Menge. Vielleicht gehört “fox” zu diesem Cluster (tierisch, pelzig, vierbeinig, energisch), aber nicht mit der gleichen Fitness wie “wolf”. Verschiedene Objekte können besser zu einem Cluster passen als andere. Die Fuzzy-Set-Theorie ist nicht binär, daher ist nicht immer klar, ob ein Objekt zu einem Cluster gehört oder nicht.

    Prototypentheorie

    Kategorisierung kann auch als der Prozess der Gruppierung von Dingen anhand von Prototypen angesehen werden. Das Konzept der “erforderlichen und ausreichenden Bedingungen” funktioniert normalerweise nicht in den unübersichtlichen Grenzen der natürlichen Welt. Die Prototypentheorie ist eine andere Art der Klassifizierung von Objekten. Im Wesentlichen hat eine Person einen “Prototyp” für das, was ein Objekt ist, daher kann der Prototyp einer Person für DOG ein mentales Bild eines Hundes sein, den sie als Kind kannte. Ihr Prototyp wäre ihre mentale Vorstellung von einem “typischen Hund.” Sie würden Objekte als Hunde klassifizieren oder nicht, je nachdem, wie sehr sie ihrem Prototyp entsprechen. Verschiedene Menschen haben je nach Erfahrung unterschiedliche Prototypen für dieselbe Art von Objekt.

    Die Prototypentheorie ist nicht binär, sondern verwendet eine abgestufte Mitgliedschaft. Nach der Prototyptheorie kann ein Objekt eine Art Hund sein, und ein Tier kann einem Hund ähnlicher sein als ein anderes. Es gibt verschiedene Mitgliedschaftsstufen in der Kategorie DOG, und diese Stufen befinden sich in einer Hierarchie. Studien haben gezeigt, dass Kategorien auf der mittleren Ebene wahrnehmungs- und konzeptionell die hervorstechendsten sind. Dies bedeutet, dass die Kategorie DOG die reichste Abbildung hervorruft und am leichtesten in den Sinn kommt, relativ zu GOLDEN RETRIEVER (untergeordnete Hierarchie) und zu ANIMAL (obere Hierarchie).

    Prototypentheorie: Gemäß der Prototyptheorie werden alle baumähnlichen Dinge auf der Grundlage eines individuellen Baumprototyps beurteilt. Die mittlere Kategorie BAUM sticht stärker hervor als die übergeordnete Kategorie PFLANZE oder die untere Kategorie ELM.


    Originaler Forschungsartikel

    Rafael E. Reigal 1 , José Luis Pastrana-Brincones 2 , Sergio Luis González-Ruiz 1 , Antonio Hernández-Mendo 3 , Juan Pablo Morillo-Baro 1 und Verónica Morales-Sánchez 3*
    • 1 Universität Málaga, Málaga, Spanien
    • 2 Fachbereich Sprachen und Informatik, Universität Málaga, Málaga, Spanien
    • 3 Institut für Sozialpsychologie, Sozialarbeit, Anthropologie und Ostasienwissenschaften, Universität Málaga, Málaga, Spanien

    MenPas ist eine psychosoziale Bewertungsplattform 1, die 2008 von der Universität Malaga entwickelt wurde. Der Datenverkehr hat während der Zeit der Haft durch COVID-19 (März und April �) im Vergleich zum gleichen Zeitraum in der Vergangenheit deutlich zugenommen Jahr. Das Hauptziel dieser Arbeit ist es, die Nutzungsmuster dieser Plattform in beiden Zeiträumen zu bestimmen. Daher möchten wir auf die folgende Frage antworten: Also, die folgende Frage: Hat die COVID-19-Pandemie das Muster der Menpas-Benutzer verändert? Um darauf zu reagieren, wurden Techniken der Clusteranalyse (Data Mining) verwendet, um Personen, die an Umfragen teilnehmen, in Quotientenmengen (Cluster) zu klassifizieren. Hierbei handelt es sich um eine multivariate Technik, um Daten in möglichst homogene und untereinander heterogene Datensätze zu unterteilen. Konkret wurde für diese Analyse der K-Means-Algorithmus verwendet, der auf der Auswertung des Abstands zwischen den Daten und dem Durchschnitt jeder Variablen basiert. Es wird daher empfohlen, Muster oder Beziehungen zwischen den Daten zu entdecken. Konkret wurde die Verwendung der folgenden Fragebögen analysiert: Competitive State Anxiety Inventory-2 (CSAI-2), State Trait Anxiety Inventory (STAI), Profile of Mood State (POMS), Resilienzskala (RS), Sport Performance Psychological Inventory (IPED), Maslach Burnout Inventory (MBI) und Selbstkonzept Form-5 (AF-5). Die Analysen zeigen Veränderungen der Clusterbildung zwischen 2019 und 2020 anhand der Variablen Geschlecht, Alter, Familienstand oder körperliche Praxis. Daher waren die durchgeführten Analysen sensibel, um mehrere Profile von Personen zu ermitteln, die die MenPas-Plattform verwenden, da sich die Eigenschaften der Benutzergruppen, die die analysierten Tests durchgeführt haben, geändert haben.


    Clusteranalyse, 5. Auflage

    Die Clusteranalyse umfasst eine Reihe von Methoden zur Klassifizierung multivariater Daten in Untergruppen. Durch die Organisation multivariater Daten in solche Untergruppen kann das Clustering helfen, die Charakteristika von vorhandenen Strukturen oder Mustern aufzudecken. Diese Techniken haben sich in einer Vielzahl von Bereichen wie Medizin, Psychologie, Marktforschung und Bioinformatik als nützlich erwiesen.

    Diese fünfte Ausgabe des sehr erfolgreichen Clusteranalyse umfasst die neuesten Entwicklungen auf diesem Gebiet und ein neues Kapitel, das sich mit endlichen Mischungsmodellen für strukturierte Daten befasst.

    Durchweg werden Beispiele aus dem wirklichen Leben verwendet, um die Anwendung der Theorie zu demonstrieren, und Zahlen werden ausgiebig verwendet, um grafische Techniken zu veranschaulichen. Das Buch ist umfassend, aber relativ unmathematisch und konzentriert sich auf die praktischen Aspekte der Clusteranalyse.

    • Präsentiert einen umfassenden Leitfaden zu Clustering-Techniken mit Schwerpunkt auf den praktischen Aspekten der Clusteranalyse
    • Bietet eine gründliche Überarbeitung der vierten Auflage, einschließlich neuer Entwicklungen beim Clustering von Längsschnittdaten und Beispielen aus Bioinformatik und Genstudien./li>
    • Aktualisiert das Kapitel über Gemischmodelle, um aktuelle Entwicklungen einzubeziehen, und präsentiert ein neues Kapitel über Gemischmodellierung für strukturierte Daten

    Praktiker und Forscher, die in der Clusteranalyse und Datenanalyse arbeiten, werden von diesem Buch profitieren.

    Autor Bios

    Brian S. Everitt, Leiter der Abteilung für Biostatistik und Informatik und Professor für Verhaltensstatistik am Kings College London. Er ist Autor/Co-Autor von über 50 Büchern über Statistik und etwa 100 Aufsätzen und anderen Artikeln und ist außerdem Mitherausgeber von Statistische Methoden in der medizinischen Forschung.

    Dr. Sabine Landau, Leiter der Abteilung für Biostatistik, Institut für Psychiatrie, Kings College London.

    Dr. Morven Leese, Gesundheitswesen und Bevölkerungsforschung, Institut für Psychiatrie, Kings College London.

    Dr. Daniel Stahl, Department of Biostatistics & Computing, Institut für Psychiatrie, Kings College London.


    Erstellen der Cluster

    Sobald wir ein Maß für die Ähnlichkeit zwischen den Fällen haben, können wir darüber nachdenken, wie wir Fälle basierend auf ihrer Ähnlichkeit gruppieren können. Es gibt mehrere Möglichkeiten, Fälle basierend auf ihren Ähnlichkeitskoeffizienten zu gruppieren. Die meisten dieser Methoden arbeiten hierarchisch. Das Prinzip jeder Methode ist insofern ähnlich, als es damit beginnt, dass alle Fälle als eigenständiger Cluster behandelt werden. Die Cluster werden dann basierend auf einem für die gewählte Methode spezifischen Kriterium zusammengeführt. Bei allen Methoden beginnen wir also mit so vielen Clustern, wie es Fälle gibt, und enden mit nur einem Cluster, der alle Fälle enthält. Durch die Untersuchung des Fortschritts der Cluster-Zusammenführung ist es möglich, Cluster von Fällen mit hoher Ähnlichkeit zu isolieren.

    Single Linkage oder SLINK (Nächster Nachbar):

    Dies ist die einfachste Methode und somit ein guter Ausgangspunkt, um die Grundprinzipien der Clusterbildung (und die hierarchische Natur des Prozesses) zu verstehen. Die Grundidee ist wie folgt:
    1. Jeder Fall beginnt als Cluster.
    2. Finden Sie die beiden ähnlichsten Fälle/Cluster (z. B. A und B), indem Sie sich die Ähnlichkeitskoeffizienten zwischen Fallpaaren (z. B. die Korrelationen oder euklidischen Distanzen) ansehen. Die Fälle/Cluster mit der höchsten Ähnlichkeit werden zusammengeführt, um den Kern eines größeren Clusters zu bilden.
    3. Der nächste Fall/Cluster ©, der mit diesem größeren Cluster zusammengeführt wird, ist derjenige mit dem höchsten Ähnlichkeitskoeffizienten zu A oder B.
    4. Der nächste zusammengeführte Fall ist der mit der höchsten Ähnlichkeit zu A, B oder C usw.

    Abbildung 3 zeigt, wie die einfache Verknüpfungsmethode funktioniert. Wenn wir 5 Tiere nach ihren körperlichen Merkmalen (Farbe, Anzahl der Beine, Augen usw.) vermessen und diese Tiere anhand dieser Merkmale gruppieren wollten, würden wir mit den beiden ähnlichsten Tieren beginnen. Stellen Sie sich zunächst den Ähnlichkeitskoeffizienten als eine vertikale Skala vor, die von geringer Ähnlichkeit bis hoch reicht. Bei der einfachen Verknüpfungsmethode beginnen wir mit den beiden ähnlichsten Fällen. Wir haben zwei Tiere, die sich in der Tat sehr ähnlich sind (eigentlich sehen sie identisch aus). Ihr Ähnlichkeitskoeffizient ist daher hoch. Eine Gabelung, die sich an dem Punkt auf der vertikalen Skala teilt, der den Ähnlichkeitskoeffizienten darstellt, repräsentiert die Ähnlichkeit zwischen diesen Tieren. Aufgrund der hohen Ähnlichkeit sind die Spitzen der Gabel also sehr lang. Diese Gabel ist (1) im Diagramm. Nachdem wir die ersten beiden Fälle für unseren Cluster gefunden haben, schauen wir uns nach anderen Fällen um. In diesem einfachen Fall bleiben drei Tiere übrig. Das Tier, das als nächstes Teil des Clusters ausgewählt wird, ist einem der Tiere, die sich bereits im Cluster befinden, am ähnlichsten. In diesem Fall handelt es sich um ein Tier, das in jeder Hinsicht ähnlich ist, außer dass es einen weißen Bauch hat. Die anderen beiden Fälle sind sich weniger ähnlich (weil einer eine völlig andere Farbe hat und der andere menschlich ist!). Der Ähnlichkeitskoeffizient des ausgewählten Tieres ist etwas niedriger als bei den ersten beiden (weil es einen weißen Bauch hat) und so teilt sich die Gabel (dargestellt durch eine gestrichelte Linie) an einem niedrigeren Punkt entlang der vertikalen Skala. Diese Stufe ist (2) im Diagramm. Nachdem wir dem Cluster hinzugefügt haben, betrachten wir erneut die verbleibenden Fälle und bewerten ihre Ähnlichkeit mit einem der drei Tiere, die bereits im Cluster sind. Es gibt ein Tier, das dem Tier, das gerade dem Cluster hinzugefügt wurde, ziemlich ähnlich ist. Obwohl es eine andere Farbe hat, hat es das gleiche markante Muster auf seinem Bauch. Daher wird dieses Tier dem Cluster aufgrund seiner Ähnlichkeit mit dem dritten Tier in dem Cluster hinzugefügt (obwohl es den anderen beiden Tieren relativ unähnlich ist).Dies ist (3) im Diagramm. Schließlich bleibt ein Tier übrig (der Mensch), das allen Tieren in der Gruppe unähnlich ist, daher wird sie schließlich in die Gruppe aufgenommen, aber seine Ähnlichkeitsbewertung wird sehr niedrig sein.
    Hier gibt es mehrere wichtige Punkte. Der erste ist, dass der Prozess hierarchisch ist. Daher hängen die Ergebnisse, die wir erhalten, stark von den beiden Fällen ab, die wir als Ausgangspunkt gewählt haben. Zweitens müssen Fälle in einem Cluster nur einem anderen Fall im Cluster ähneln, daher kann über eine Reihe von Auswahlen eine große Unähnlichkeit zwischen den Fällen eingeführt werden. Schließlich ist das Diagramm, das wir gezeichnet haben, um die Fälle zu verbinden, als Dendrogramm (oder Baumdiagramm) bekannt. Die Ausgabe einer Clusteranalyse liegt in Form eines solchen Diagramms vor.

    Vollständige Verknüpfung oder CLINK (Entferntester Nachbar):

    Eine Variante der einfachen Verknüpfungsmethode ist als vollständige Verknüpfung (oder der entfernteste Nachbar) bekannt. Diese Methode ist das logische Gegenteil zur einfachen Verknüpfung. Zu Beginn ist das Verfahren das gleiche wie bei der einfachen Verknüpfung, indem wir zunächst nach den beiden Fällen mit der höchsten Ähnlichkeit (in Bezug auf ihre Korrelation oder durchschnittliche euklidische Distanz) suchen. Diese beiden Fälle (A und B) bilden den Kern des Clusters. Im zweiten Schritt wird der Unterschied in der Methode deutlich. Anstatt nach einem neuen Fall zu suchen, der entweder A oder B ähnlich ist, suchen wir nach einem Fall, der den höchsten Ähnlichkeitswert sowohl zu A als auch zu B hat. Der Fall © mit der höchsten Ähnlichkeit sowohl zu A als auch zu B wird dem Cluster hinzugefügt. Der nächste Fall, der dem Cluster hinzugefügt wird, ist der Fall mit der höchsten Ähnlichkeit mit A, B und C. Diese Methode reduziert die Unähnlichkeit innerhalb eines Clusters, da sie auf der Gesamtähnlichkeit mit Mitgliedern des Clusters basiert (und nicht auf der Ähnlichkeit mit einem einzelnen Mitglied). eines Clusters). Die Ergebnisse hängen jedoch immer noch stark davon ab, welche beiden Fälle Sie als Ausgangspunkt nehmen.

    Durchschnittliche (zwischen Gruppen) Verknüpfung:

    Diese Methode ist eine weitere Variante der einfachen Verknüpfung. Auch hier beginnen wir damit, die beiden ähnlichsten Fälle zu finden (basierend auf ihrer Korrelation oder durchschnittlichen euklidischen Distanz). Diese beiden Fälle (A und B) bilden den Kern des Clusters. In diesem Stadium wird die durchschnittliche Ähnlichkeit innerhalb des Clusters berechnet. Um zu bestimmen, welcher Fall © zu dem Cluster hinzugefügt wird, vergleichen wir die Ähnlichkeit der verbleibenden Fälle mit der durchschnittlichen Ähnlichkeit des Clusters. Der nächste Fall, der dem Cluster hinzugefügt wird, ist der mit der höchsten Ähnlichkeit zum durchschnittlichen Ähnlichkeitswert für den Cluster. Sobald dieser dritte Fall hinzugefügt wurde, wird die durchschnittliche Ähnlichkeit innerhalb des Clusters neu berechnet. Der nächste Fall (D), der dem Cluster hinzugefügt wird, ist der, der diesem neuen Wert der durchschnittlichen Ähnlichkeit am ähnlichsten ist.

    Methode der Station:

    Die Verknüpfungsmethoden basieren alle auf einem ähnlichen Prinzip: Es gibt eine Ähnlichkeitskette, die dazu führt, ob ein Fall zu einem Cluster hinzugefügt wird oder nicht. Die Regeln für diese Kette unterscheiden sich von einer Verknüpfungsmethode zur anderen. Ein anderer Ansatz ist die Methode von Ward, die wesentlich komplexer ist als die einfache Verknüpfungsmethode. Ziel der Methode von Ward ist es, Fälle so zu Clustern zusammenzufassen, dass die Varianz innerhalb eines Clusters minimiert wird. Dazu beginnt jeder Fall als eigener Cluster. Cluster werden dann so zusammengeführt, dass die Variabilität innerhalb eines Clusters reduziert wird. Genauer gesagt werden zwei Cluster zusammengeführt, wenn diese Zusammenführung die minimale Erhöhung der Fehlerquadratsumme ergibt. Im Grunde bedeutet dies, dass in jeder Phase die durchschnittliche Ähnlichkeit des Clusters gemessen wird. Die Differenz zwischen den einzelnen Fällen innerhalb eines Clusters und dieser durchschnittlichen Ähnlichkeit wird berechnet und quadriert (genau wie bei der Berechnung einer Standardabweichung). Die Summe der quadrierten Abweichungen wird als Maß für den Fehler innerhalb eines Clusters verwendet. Ein Fall wird ausgewählt, um in den Cluster einzutreten, wenn es der Fall ist, dessen Aufnahme in den Cluster den geringsten Anstieg des Fehlers erzeugt (gemessen an der Summe der quadrierten Abweichungen).


    Die Clusteranalyse gruppiert Daten basierend auf den Eigenschaften, die sie besitzen. Die Clusteranalyse gruppiert Objekte basierend auf den Faktoren, die sie ähnlich machen. Die Clusteranalyse wird ansonsten als Segmentierungsanalyse oder Taxonomieanalyse bezeichnet. Die Clusteranalyse unterscheidet nicht abhängige und unabhängige Variablen. Clusteranalyse wird in einer Vielzahl von Bereichen wie Psychologie, Biologie, Statistik, Data Mining, Mustererkennung und anderen Sozialwissenschaften verwendet.

    Zielsetzung

    Das Hauptziel besteht darin, die Heterogenität in jedem Datensatz zu berücksichtigen. Die anderen Ziele der Clusteranalyse sind

    Hadoop, Data Science, Statistik und andere

    • Taxonomiebeschreibung – Identifizieren von Gruppen in den Daten
    • Datenvereinfachung – Die Möglichkeit, Gruppen ähnlicher Beobachtungen anstelle aller Einzelbeobachtungen zu analysieren
    • Hypothesengenerierung oder -test – Hypothesen basierend auf der Art der Daten entwickeln oder die zuvor aufgestellte Hypothese testen
    • Beziehungsidentifikation – Die vereinfachte Struktur aus der Clusteranalyse, die die Beziehungen beschreibt

    Es gibt zwei Hauptzwecke davon – Verständnis und Nützlichkeit.

    Unter den Umständen des Verstehens gruppiert es Objekte, die einige gemeinsame Merkmale aufweisen

    Im Sinne von Utility stellt es den Clustern, zu denen sie gehören, die Eigenschaften jedes Datenobjekts bereit.

    Es geht Hand in Hand mit Faktorenanalyse und Diskriminanzanalyse.

    Sie sollten sich einige Fragen zur Clusteranalyse stellen, bevor Sie damit beginnen

    • Welche Variablen sind relevant?
    • Ist die Stichprobengröße ausreichend?
    • Können Ausreißer erkannt werden und sollten diese entfernt werden?
    • Wie soll Objektähnlichkeit gemessen werden?
    • Sollen Daten standardisiert werden?

    Arten von Clustern

    Es gibt drei Haupttypen von Clustering

    • Hierarchisches Clustering – Enthält die agglomerative und divisive Methode
    • Partitions-Clustering – Enthält K-Means, Fuzzy K-Means, Isodaten darunter
    • Dichtebasiertes Clustering – Hat Denclust, CLUPOT, Mean Shift, SVC, Parzen-Watershed darunter

    Annahmen

    Es gibt immer zwei Annahmen darin.

    • Es wird davon ausgegangen, dass die Stichprobe repräsentativ für die Bevölkerung ist
    • Es wird davon ausgegangen, dass die Variablen nicht korreliert sind. Auch wenn Variablen korreliert sind, entfernen Sie korrelierte Variablen oder verwenden Sie Entfernungsmaße, die die Korrelation kompensieren.

    Schritte

    Im Folgenden sind einige der angegebenen Schritte aufgeführt.

      • Schritt 1: Definieren Sie das Problem
      • Schritt 2: Entscheiden Sie sich für das geeignete Ähnlichkeitsmaß
      • Schritt 3: Entscheiden Sie, wie Sie die Objekte gruppieren
      • Schritt 4: Legen Sie die Anzahl der Cluster fest
      • Schritt 5: Interpretieren, beschreiben und validieren Sie den Cluster

      Clusteranalyse in SPSS

      In SPSS finden Sie die Clusteranalyse-Option in der Option Analysieren/Klassifizieren. In SPSS gibt es drei Methoden für die Clusteranalyse – K-Means Cluster, Hierarchical Cluster und Two Step Cluster.

      Die K-Means-Clustermethode klassifiziert einen bestimmten Datensatz durch eine feste Anzahl von Clustern. Diese Methode ist leicht zu verstehen und liefert die beste Ausgabe, wenn die Daten gut voneinander getrennt sind.

      Die Zwei-Schritt-Clusteranalyse ist ein Werkzeug, das für die Verarbeitung großer Datensätze entwickelt wurde. Es erstellt Cluster sowohl für kategoriale als auch für kontinuierliche Variablen.

      Der hierarchische Cluster ist die am häufigsten verwendete Methode der Clusteranalyse. Es kombiniert Fälle zu homogenen Clustern, indem es sie durch eine Reihe aufeinanderfolgender Schritte zusammenführt.

      Die hierarchische Clusteranalyse umfasst drei Schritte

      • Berechnen Sie die Entfernung
      • Verknüpfen Sie die Cluster
      • Auswahl einer Lösung durch Auswahl der richtigen Anzahl von Clustern

      Im Folgenden sind die Schritte zum Durchführen einer hierarchischen Clusteranalyse in SPSS aufgeführt.

      • Der erste Schritt besteht darin, die Variablen auszuwählen, die geclustert werden sollen. Das folgende Dialogfeld erklärt es Ihnen
      • Durch Anklicken der Statistikoption im obigen Dialogfeld erhalten Sie das Dialogfeld, in dem Sie die Ausgabe festlegen möchten
      • Fügen Sie in den Dialogfelddiagrammen das Dendrogramm hinzu. Dendrogramm ist die grafische Darstellung des hierarchischen Clusteranalyseverfahrens. Es zeigt, wie die Cluster bei jedem Schritt kombiniert werden, bis ein einzelner Cluster entsteht.
      • Die Dialogbox-Methode ist entscheidend. Sie können hier die Entfernungs- und Clustering-Methode erwähnen. In SPSS gibt es drei Maßeinheiten für Intervall, Anzahl und Binärdaten.
      • Die quadrierte euklidische Distanz ist die Summe der quadrierten Differenzen ohne die Quadratwurzel zu ziehen.
      • Bei den Zählungen können Sie zwischen Chi-Quadrat und Phi-Quadrat-Maß wählen
      • Im Bereich Binär haben Sie viele Optionen zur Auswahl. Die quadrierte euklidische Distanz ist die beste Option.
      • Der nächste Schritt besteht darin, die Clustermethode auszuwählen. Es wird immer empfohlen, Single Linkage oder Nearest Neighbor zu verwenden, da dies hilft, Ausreißer leicht zu identifizieren. Nachdem die Ausreißer identifiziert wurden, können Sie die Ward’-Methode verwenden.
      • Der letzte Schritt ist die Standardisierung

      Kritikpunkte

      Die häufigsten Kritikpunkte sind unten aufgeführt

      • Es ist beschreibend, theoretisch und nicht schlussfolgernd.
      • Es erzeugt Cluster unabhängig von der tatsächlichen Existenz einer Struktur
      • Es kann nicht allgemein verwendet werden, da es vollständig von den Variablen abhängt, die als Grundlage für das Ähnlichkeitsmaß verwendet werden

      Was ist Faktorenanalyse?

      Die Faktorenanalyse ist eine explorative Analyse, die bei der Gruppierung ähnlicher Variablen in Dimensionen hilft. Es kann verwendet werden, um die Daten zu vereinfachen, indem die Dimensionen der Beobachtungen reduziert werden. Die Faktoranalyse hat mehrere verschiedene Rotationsmethoden.

      Die Faktorenanalyse wird hauptsächlich zu Datenreduktionszwecken verwendet.

      Es gibt zwei Arten der Faktorenanalyse – Exploratory und Confirmatory

      • Die explorative Methode wird verwendet, wenn Sie keine vordefinierte Vorstellung von den Strukturen oder Dimensionen in einem Variablensatz haben.
      • Die Bestätigungsmethode wird verwendet, wenn Sie bestimmte Hypothesen über die Strukturen oder Dimensionen in einem Variablensatz testen möchten.

      Ziele

      Es gibt zwei Hauptziele der Faktorenanalyse, die unten erwähnt werden

      • Identifizierung der zugrunde liegenden Faktoren – Dazu gehört das Clustern von Variablen zu homogenen Sets, das Erstellen neuer Variablen und das Erlangen von Kenntnissen über die Kategorien
      • Screening von Variablen – Es ist hilfreich bei der Regression und identifiziert Gruppierungen, damit Sie eine Variable auswählen können, die viele repräsentiert.

      Annahmen

      Es gibt vier Hauptannahmen der Faktorenanalyse, die unten erwähnt werden

      • Modelle basieren normalerweise auf linearen Beziehungen
      • Es wird davon ausgegangen, dass die gesammelten Daten intervallskaliert sind
      • Multikollinearität in den Daten ist wünschenswert, da das Ziel darin besteht, den zusammenhängenden Satz von Variablen herauszufinden
      • Die Daten sollten offen und reaktionsfähig für die Faktorenanalyse sein. Es sollte nicht so sein, dass eine Variable nur mit sich selbst korreliert und keine Korrelation mit einer anderen Variablen besteht. Eine Faktorenanalyse kann mit solchen Daten nicht durchgeführt werden.

      Factoring-Arten

      Nachfolgend sind einige der Factoring-Arten aufgeführt.

      • Hauptkomponenten-Factoring – Am häufigsten verwendete Methode, bei der Faktorgewichtungen berechnet werden, um die maximal mögliche Varianz zu extrahieren, und so lange fortgesetzt, bis keine sinnvolle Varianz mehr vorhanden ist.
      • Kanonische Faktorenanalyse – Finde Faktoren, die die höchste kanonische Korrelation mit den beobachteten Variablen aufweisen
      • Common-Faktor-Analyse – Sucht nach der geringsten Anzahl von Faktoren, die die gemeinsame Varianz einer Reihe von Variablen erklären können
      • Imagefaktorierung – Basierend auf der Korrelationsmatrix, bei der jede Variable anhand der anderen durch multiple Regression vorhergesagt wird
      • Alpha-Factoring – Maximiert die Zuverlässigkeit von Faktoren
      • Faktorregressionsmodell – Kombination aus Faktorenmodell und Regressionsmodell, deren Faktoren teilweise bekannt sind

      Kriterien

      Im Folgenden sind einige der beschriebenen Kriterien aufgeführt.

      Eigenwertkriterien

      • Stellt den Varianzbetrag in den ursprünglichen Variablen dar, der mit einem Faktor verbunden ist
      • Die Summe der Quadrate der Faktorladungen jeder Variablen eines Faktors stellt den Eigenwert dar
      • Faktoren mit Eigenwerten größer 1.0 werden beibehalten

      Scree-Plot-Kriterien

      • Ein Diagramm der Eigenwerte gegen die Anzahl der Faktoren, in der Reihenfolge der Extraktion.
      • Die Form des Diagramms bestimmt die Anzahl der Faktoren

      Prozentsatz der Abweichungskriterien

      • Die Anzahl der extrahierten Faktoren wird so ermittelt, dass der zunehmende Prozentsatz der durch die Faktoren extrahierten Varianz den Grad der Zufriedenheit erreicht.

      Signifikanztestkriterien

      • Die statistische Bedeutung der einzelnen Eigenwerte wird ermittelt und nur die statistisch signifikanten Faktoren werden beibehalten

      Die Faktorenanalyse wird in verschiedenen Bereichen wie Psychologie, Soziologie, Politikwissenschaft, Bildung und psychische Gesundheit verwendet.

      Faktorenanalyse in SPSS

      In SPSS finden Sie die Option Faktoranalyse unter Analysieren à Dimensionsreduktion à Faktor

      • Beginnen Sie mit dem Hinzufügen der Variablen zum Abschnitt mit der Variablenliste
      • Klicken Sie auf die Registerkarte Deskriptiv und fügen Sie einige Statistiken hinzu, unter denen die Annahmen der Faktorenanalyse überprüft werden.
      • Klicken Sie auf die Option Extraktion, mit der Sie die Extraktionsmethode und den Trennwert für die Extraktion auswählen können
      • Principal Components (PCA) ist die Standardextraktionsmethode, die sogar unkorrelierte Linearkombinationen der Variablen extrahiert. PCA kann verwendet werden, wenn eine Korrelationsmatrix singulär ist. Es ist der kanonischen Korrelationsanalyse sehr ähnlich, bei der der erste Faktor eine maximale Varianz aufweist und die folgenden Faktoren einen kleineren Teil der Varianz erklären.
      • Die zweitallgemeinste Analyse ist die Hauptachsenfaktorierung. Es identifiziert die latenten Konstrukte hinter den Beobachtungen.
      • Der nächste Schritt besteht darin, eine Rotationsmethode auszuwählen. Die am häufigsten verwendete Methode ist Varimax. Diese Methode vereinfacht die Interpretation der Faktoren.
      • Die zweite Methode ist Quartimax. Bei diesem Verfahren werden die Faktoren rotiert, um die Anzahl der Faktoren zu minimieren. Es vereinfacht die Interpretation der beobachteten Variablen.
      • Die nächste Methode ist Equamax, eine Kombination der beiden oben genannten Methoden.
      • Im Dialogfeld können Sie durch Klicken auf die “Optionen” die fehlenden Werte verwalten
      • Bevor Sie die Ergebnisse im Datensatz speichern, führen Sie zuerst die Faktorenanalyse durch, prüfen Sie auf Annahmen und bestätigen Sie, dass die Ergebnisse aussagekräftig und nützlich sind.

      Clusteranalyse vs. Faktorenanalyse

      Sowohl die Clusteranalyse als auch die Faktorenanalyse sind unüberwachte Lernverfahren, die zur Segmentierung von Daten verwendet werden. Viele Forscher, die neu auf diesem Gebiet sind, meinen, dass die Clusteranalyse und die Faktorenanalyse ähnlich sind. Es mag ähnlich erscheinen, aber sie unterscheiden sich in vielerlei Hinsicht. Die Unterschiede zwischen beiden sind unten aufgeführt

      Zielsetzung

      Die Ziele der Cluster- und Faktorenanalyse sind unterschiedlich. Ziel ist es, die Beobachtungen in homogene und unterschiedliche Gruppen einzuteilen. Die Faktorenanalyse hingegen erklärt die Homogenität der Variablen, die sich aus der Ähnlichkeit der Werte ergibt.

      Komplexität

      Komplexität ist ein weiterer Faktor, bei dem sich Cluster- und Faktorenanalyse unterscheiden. Die Datengröße beeinflusst die Analyse unterschiedlich. Wenn die Datengröße zu groß ist, wird sie bei der Clusteranalyse rechnerisch schwer zu handhaben.

      Lösung

      Die Lösung eines Problems ist sowohl in der Faktoren- als auch in der Clusteranalyse mehr oder weniger ähnlich. Aber die Faktorenanalyse bietet dem Forscher in einem besseren Aspekt eine bessere Lösung. Sie liefert nicht das beste Ergebnis, da alle Algorithmen in der Clusteranalyse rechnerisch ineffizient sind.

      Anwendungen

      Faktorenanalyse und Clusteranalyse werden unterschiedlich auf reale Daten angewendet. Die Faktorenanalyse eignet sich zur Vereinfachung komplexer Modelle. Es reduziert den großen Satz von Variablen auf einen viel kleineren Satz von Faktoren. Der Forscher kann eine Reihe von Hypothesen entwickeln und eine Faktorenanalyse durchführen, um diese Hypothese zu bestätigen oder zu widerlegen.

      Es eignet sich, um Objekte nach bestimmten Kriterien zu klassifizieren. Der Forscher kann bestimmte Aspekte einer Gruppe messen und sie mithilfe der Clusteranalyse in bestimmte Kategorien einteilen.

      Es gibt auch viele andere Unterschiede, die unten erwähnt werden

      • Sie versucht, Fälle zu gruppieren, während die Faktoranalyse versucht, Merkmale zu gruppieren.
      • Es wird verwendet, um kleinere Gruppen von Fällen zu finden, die für Daten als Ganzes repräsentativ sind. Es wird verwendet, um eine kleinere Gruppe von Merkmalen zu finden, die für die ursprünglichen Merkmale von Datensätzen repräsentativ sind.
      • Der wichtigste Teil dabei ist, die Anzahl der Cluster zu finden. Grundsätzlich werden Clustering-Methoden in zwei – Agglomerative Methode und Partitioning Methode unterteilt. Die agglomerative Methode beginnt mit jedem Fall in einem eigenen Cluster und endet, wenn ein Kriterium erreicht wird. Die Partitionierungsmethode beginnt mit allen Fällen in einem Cluster.
      • Es wird verwendet, um eine zugrunde liegende Struktur in einem Datensatz herauszufinden.

      Was ist Klassifizierung?

      Die Klassifizierung ist ein Kategorisierungsprozess, der einen Trainingsdatensatz verwendet, um Objekte zu erkennen, zu unterscheiden und zu verstehen. Klassifikation ist eine überwachte Lerntechnik, bei der ein Trainingssatz und korrekt definierte Beobachtungen verfügbar sind.

      Abbildung 02: Klassifizierung

      Der Algorithmus, der die Klassifizierung implementiert, ist der Klassifikator, während die Beobachtungen die Instanzen sind. K-Nearest Neighbor Algorithmus und Entscheidungsbaumalgorithmen sind die bekanntesten Klassifikationsalgorithmen im Data Mining.