Rangkorrelationskoeffizienten nach Spearman, Kendall, Fechner-Koeffizient. Kendall-Rangkorrelationskoeffizient Wovon sollten wir ausgehen, wenn wir das Thema, den Gegenstand, den Gegenstand, den Zweck, die Ziele und die Hypothese der Studie bestimmen?

Die Bedürfnisse der wirtschaftlichen und gesellschaftlichen Praxis erfordern die Entwicklung von Methoden zur quantitativen Beschreibung von Prozessen, die es ermöglichen, nicht nur quantitative, sondern auch qualitative Faktoren genau zu erfassen. Vorausgesetzt, dass die Werte qualitativer Merkmale nach dem Grad der Abnahme (Zunahme) des Merkmals geordnet oder eingestuft werden können, ist es möglich, die Nähe der Beziehung zwischen qualitativen Merkmalen zu beurteilen. Unter qualitativ verstehen wir ein Merkmal, das nicht genau gemessen werden kann, das es Ihnen jedoch ermöglicht, Objekte miteinander zu vergleichen und sie daher in der Reihenfolge abnehmender oder steigender Qualität anzuordnen. Und der eigentliche Inhalt von Messungen in Rangskalen ist die Reihenfolge, in der Objekte entsprechend dem Ausprägungsgrad des gemessenen Merkmals angeordnet werden.

Aus praktischen Gründen ist die Verwendung der Rangkorrelation sehr nützlich. Wenn beispielsweise eine hochrangige Korrelation zwischen zwei qualitativen Merkmalen von Produkten hergestellt wird, reicht es aus, Produkte nur anhand eines der Merkmale zu kontrollieren, was die Kosten senkt und die Kontrolle beschleunigt.

Als Beispiel können wir das Bestehen eines Zusammenhangs zwischen der Verfügbarkeit kommerzieller Produkte einer Reihe von Unternehmen und den Gemeinkosten für den Vertrieb betrachten. Im Verlauf von 10 Beobachtungen wurde die folgende Tabelle erhalten:

Ordnen wir die Werte von X in aufsteigender Reihenfolge und jedem Wert wird seine Seriennummer (Rang) zugewiesen:

Auf diese Weise,

Lassen Sie uns die folgende Tabelle erstellen, in der die Paare X und Y aufgezeichnet werden, die als Ergebnis der Beobachtung mit ihren Rängen erhalten wurden:

Indem wir den Rangunterschied als bezeichnen, schreiben wir die Formel zur Berechnung des Spearman-Korrelationskoeffizienten der Stichprobe:

Dabei ist n die Anzahl der Beobachtungen, die auch die Anzahl der Rangpaare ist.

Der Spearman-Koeffizient hat die folgenden Eigenschaften:

Wenn eine vollständige direkte Beziehung zwischen den qualitativen Merkmalen wir bekommen 1.

Wenn eine vollständig inverse Beziehung zwischen den qualitativen Merkmalen

In der Tat, wenn

Wenn wir den Wert in die Korrelationskoeffizientenformel nach Spearman einsetzen, erhalten wir -1.

Wenn weder eine vollständige direkte noch eine vollständige Rückkopplung zwischen qualitativen Merkmalen besteht, liegt der Spearman-Korrelationskoeffizient der Stichprobe zwischen -1 und 1, und je näher sein Wert an 0 liegt, desto geringer ist der Zusammenhang zwischen den Merkmalen.

Anhand der Daten aus dem obigen Beispiel ermitteln wir den Wert von P; dazu ergänzen wir die Tabelle mit den Werten und:

Beispiel für den Kendall-Korrelationskoeffizienten. Sie können die Beziehung zwischen zwei qualitativen Merkmalen mithilfe des Kendall-Rangkorrelationskoeffizienten bewerten.

Die Ränge der Objekte in einer Stichprobe der Größe n seien gleich:

nach Merkmal X:

nach Merkmal Y: . Nehmen wir an, dass rechts große Ränge sind, rechts große große Ränge, rechts große große Ränge. Lassen Sie uns die Notation für die Summe der Ränge einführen

In ähnlicher Weise führen wir die Notation als Summe der Anzahl der rechts liegenden Ränge ein, jedoch kleiner.

Der Beispiel-Kendall-Korrelationskoeffizient wird wie folgt geschrieben:

Wobei n die Stichprobengröße ist.

Der Kendall-Koeffizient hat die gleichen Eigenschaften wie der Spearman-Koeffizient:

Wenn eine vollständige direkte Beziehung zwischen den qualitativen Merkmalen -1 Ränge, groß, daher stellen wir auf die gleiche Weise fest, Was. Dann. Und der Kendall-Koeffizient ist gleich: .

Wenn eine vollständig umgekehrte Beziehung zwischen den qualitativen Merkmalen Deshalb gibt es rechts keine höheren Ränge. Ebenfalls. Wenn wir den Wert R+=0 in die Kendall-Koeffizientenformel einsetzen, erhalten wir -1.

Bei einer ausreichend großen Stichprobengröße und Werten der Rangkorrelationskoeffizienten nicht nahe 1 besteht eine ungefähre Gleichheit:

Bietet der Kendall-Koeffizient eine konservativere Schätzung der Korrelation als der Spearman-Koeffizient? (Zahlenwert? immer kleiner als). Obwohl den Koeffizienten berechnen? weniger arbeitsintensiv als die Berechnung des Koeffizienten; letzterer lässt sich leichter neu berechnen, wenn der Reihe ein neuer Term hinzugefügt wird.

Ein wichtiger Vorteil des Koeffizienten besteht darin, dass er zur Bestimmung des partiellen Rangkorrelationskoeffizienten verwendet werden kann, der es ermöglicht, den Grad der „reinen“ Beziehung zwischen zwei Rangfolgemerkmalen zu beurteilen und den Einfluss des dritten zu eliminieren:

Bedeutung der Rangkorrelationskoeffizienten. Bei der Bestimmung der Stärke der Rangkorrelation aus Stichprobendaten muss die folgende Frage berücksichtigt werden: Wie sicher kann man sich auf die Schlussfolgerung verlassen, dass in der Grundgesamtheit eine Korrelation besteht, wenn ein bestimmter Rangkorrelationskoeffizient der Stichprobe ermittelt wird? Mit anderen Worten: Die Signifikanz der beobachteten Rangkorrelationen sollte auf der Grundlage der Hypothese der statistischen Unabhängigkeit der beiden betrachteten Rankings überprüft werden.

Bei einem relativ großen Stichprobenumfang n kann die Überprüfung der Signifikanz der Rangkorrelationskoeffizienten anhand der Normalverteilungstabelle (Anhang Tabelle 1) erfolgen. Um die Signifikanz des Spearman-Koeffizienten zu testen? (für n>20) Berechnen Sie den Wert

und um die Signifikanz des Kendall-Koeffizienten zu testen? (für n>10) Berechnen Sie den Wert

wobei S=R+- R-, n – Stichprobengröße.

Als nächstes legen sie das Signifikanzniveau fest?, bestimmen den kritischen Wert tcr(?,k) aus der Tabelle der kritischen Punkte der Student-Verteilung und vergleichen den berechneten Wert oder damit. Die Anzahl der Freiheitsgrade wird mit k = n-2 angenommen. Wenn oder > tcr, dann werden die Werte oder als signifikant angesehen.

Fechner-Korrelationskoeffizient.

Abschließend ist noch der Fechner-Koeffizient zu erwähnen, der den elementaren Grad der Nähe des Zusammenhangs charakterisiert und dessen Verwendung zur Feststellung des Vorliegens eines Zusammenhangs bei geringen Ausgangsinformationen sinnvoll ist. Grundlage seiner Berechnung ist die Berücksichtigung der Richtung der Abweichungen vom arithmetischen Mittel jeder Variationsreihe und die Bestimmung der Konsistenz der Vorzeichen dieser Abweichungen für die beiden Reihen, deren Beziehung zwischen ihnen gemessen wird.

Dieser Koeffizient wird durch die Formel bestimmt:

wobei na die Anzahl der Übereinstimmungen von Abweichungszeichen einzelner Werte von ihrem arithmetischen Mittel ist; nb – bzw. die Anzahl der Nichtübereinstimmungen.

Der Fechner-Koeffizient kann innerhalb von -1,0 variieren<= Кф<= +1,0.

Angewandte Aspekte der Rangkorrelation. Wie bereits erwähnt, können Rangkorrelationskoeffizienten nicht nur zur qualitativen Analyse der Beziehung zwischen zwei Rangmerkmalen verwendet werden, sondern auch zur Bestimmung der Stärke der Beziehung zwischen Rang und quantitativen Merkmalen. Dabei werden die Werte des quantitativen Merkmals geordnet und ihnen entsprechende Ränge zugeordnet.

Es gibt eine Reihe von Situationen, in denen die Berechnung von Rangkorrelationskoeffizienten auch bei der Bestimmung der Stärke des Zusammenhangs zwischen zwei quantitativen Merkmalen sinnvoll ist. Wenn also die Verteilung eines von ihnen (oder beider) erheblich von der Normalverteilung abweicht, wird die Bestimmung des Signifikanzniveaus des Sticr falsch, während die Rangkoeffizienten ? Und? unterliegen bei der Bestimmung des Signifikanzniveaus keinen derartigen Einschränkungen.

Eine andere Situation dieser Art ergibt sich, wenn die Beziehung zwischen zwei quantitativen Merkmalen nichtlinearer (sondern monotoner) Natur ist. Wenn die Anzahl der Objekte in der Stichprobe gering ist oder das Vorzeichen des Zusammenhangs für den Forscher wichtig ist, dann eine Korrelationsbeziehung verwenden? kann hier unzureichend sein. Durch die Berechnung des Rangkorrelationskoeffizienten können diese Schwierigkeiten umgangen werden.

Praktischer Teil

Aufgabe 1. Korrelations- und Regressionsanalyse

Darstellung und Formalisierung des Problems:

Es wird eine empirische Stichprobe gegeben, die auf der Grundlage einer Reihe von Beobachtungen des Zustands der Ausrüstung (auf Fehler) und der Anzahl der hergestellten Produkte zusammengestellt wurde. Die Stichprobe charakterisiert implizit den Zusammenhang zwischen der Menge ausgefallener Geräte und der Anzahl der hergestellten Produkte. Basierend auf der Bedeutung der Stichprobe ist klar, dass hergestellte Produkte auf der Ausrüstung hergestellt werden, die weiterhin in Betrieb ist, denn je höher der Prozentsatz ausgefallener Ausrüstung, desto weniger hergestellte Produkte. Es ist erforderlich, eine Untersuchung der Stichprobe auf Korrelations-Regressions-Abhängigkeit durchzuführen, d Analyse). Eine weitere Aufgabe der Korrelationsanalyse besteht darin, die Regressionsgleichung einer Variablen gegenüber einer anderen abzuschätzen. Darüber hinaus ist es notwendig, die Anzahl der produzierten Produkte bei einem Geräteausfall von 30 % vorherzusagen.

Lassen Sie uns die gegebene Stichprobe in der Tabelle formalisieren und die Daten „Geräteausfall, %“ als X und die Daten „Anzahl der Produkte“ als Y bezeichnen:

Ausgangsdaten. Tabelle 1

Aus der physikalischen Bedeutung des Problems geht hervor, dass die Anzahl der hergestellten Produkte Y direkt vom Prozentsatz des Geräteausfalls abhängt, d. h. es besteht eine Abhängigkeit von Y von X. Bei der Durchführung einer Regressionsanalyse muss a gefunden werden mathematische Beziehung (Regression), die die Werte von X und Y verbindet. In diesem Fall geht die Regressionsanalyse im Gegensatz zur Korrelation davon aus, dass der Wert X als unabhängige Variable oder Faktor fungiert, der Wert Y als abhängige Variable oder ein effektives Attribut. Daher ist es notwendig, ein angemessenes ökonomisches und mathematisches Modell zu synthetisieren, d.h. Bestimmen (finden, wählen) Sie die Funktion Y = f(X), die die Beziehung zwischen den Werten von X und Y charakterisiert und anhand derer der Wert von Y bei X = 30 vorhergesagt werden kann. Die Lösung für dieses Problem kann mittels Korrelations-Regressionsanalyse durchgeführt werden.

Ein kurzer Überblick über Methoden zur Lösung von Korrelations-Regressionsproblemen und Begründung der gewählten Lösungsmethode.

Methoden der Regressionsanalyse, die auf der Anzahl der Faktoren basieren, die das resultierende Merkmal beeinflussen, werden in ein- und mehrfaktorielle Methoden unterteilt. Einzelfaktor – Anzahl unabhängiger Faktoren = 1, d.h. Y = F(X)

multifaktoriell – Anzahl der Faktoren > 1, d.h.

Basierend auf der Anzahl der untersuchten abhängigen Variablen (resultativen Merkmalen) können Regressionsprobleme auch in Probleme mit einem und mehreren resultierenden Merkmalen unterteilt werden. Im Allgemeinen kann ein Problem mit vielen effektiven Merkmalen geschrieben werden:

Die Methode der Korrelations-Regressionsanalyse besteht darin, die Parameter der approximierenden (nähernden) Abhängigkeit der Form zu finden

Da das obige Problem nur eine unabhängige Variable betrifft, d. h. die Abhängigkeit von nur einem Faktor, der das Ergebnis beeinflusst, untersucht wird, sollte eine Studie zur Ein-Faktor-Abhängigkeit oder gepaarten Regression verwendet werden.

Wenn nur ein Faktor vorhanden ist, ist die Abhängigkeit wie folgt definiert:

Die Form des Schreibens einer bestimmten Regressionsgleichung hängt von der Wahl der Funktion ab, die die statistische Beziehung zwischen dem Faktor und dem resultierenden Merkmal darstellt und Folgendes umfasst:

lineare Regression, Gleichung der Form,

parabolisch, Gleichung der Form

kubisch, Gleichung der Form

hyperbolisch, Gleichung der Form

halblogarithmisch, Gleichung der Form

Exponential, Gleichung der Form

Potenzgleichung der Form.

Um die Funktion zu finden, müssen die Parameter der Regressionsgleichung bestimmt und die Zuverlässigkeit der Gleichung selbst beurteilt werden. Zur Bestimmung der Parameter können Sie sowohl die Methode der kleinsten Quadrate als auch die Methode des kleinsten Moduls verwenden.

Die erste davon besteht darin, sicherzustellen, dass die Summe der quadratischen Abweichungen der empirischen Werte von Yi vom berechneten Durchschnittswert Yi minimal ist.

Die Methode der kleinsten Moduli besteht darin, die Summe der Moduli der Differenz zwischen den empirischen Werten von Yi und dem berechneten Durchschnittswert Yi zu minimieren.

Um das Problem zu lösen, wählen wir die Methode der kleinsten Quadrate, da sie am einfachsten ist und gute Schätzungen hinsichtlich der statistischen Eigenschaften liefert.

Technologie zur Lösung des Problems der Regressionsanalyse mit der Methode der kleinsten Quadrate.

Sie können die Art der Beziehung (linear, quadratisch, kubisch usw.) zwischen Variablen bestimmen, indem Sie die Abweichung des tatsächlichen Werts y vom berechneten Wert abschätzen:

Wo sind Erfahrungswerte, berechnete Werte mithilfe der Näherungsfunktion. Indem wir die Werte von Si für verschiedene Funktionen schätzen und die kleinste davon auswählen, wählen wir eine Näherungsfunktion aus.

Der Typ einer bestimmten Funktion wird bestimmt, indem die Koeffizienten ermittelt werden, die für jede Funktion als Lösung eines bestimmten Gleichungssystems gefunden werden:

lineare Regression, Gleichung der Form, System -

parabolisch, Gleichung der Form, System -

kubisch, Gleichung der Form, System -

Nachdem wir das System gelöst haben, finden wir, mit dessen Hilfe wir zu einem bestimmten Ausdruck der analytischen Funktion gelangen, mit dem wir die berechneten Werte finden. Als nächstes stehen alle Daten zur Verfügung, um die Größe der Abweichung S abzuschätzen und das Minimum zu analysieren.

Für einen linearen Zusammenhang schätzen wir die Nähe des Zusammenhangs zwischen Faktor X und dem resultierenden Merkmal Y in Form des Korrelationskoeffizienten r ab:

Durchschnittswert des Indikators;

Durchschnittlicher Faktorwert;

y ist der experimentelle Wert des Indikators;

x ist der experimentelle Wert des Faktors;

Standardabweichung in x;

Standardabweichung in y.

Wenn der Korrelationskoeffizient r = 0 ist, wird davon ausgegangen, dass der Zusammenhang zwischen den Merkmalen unbedeutend oder nicht vorhanden ist; wenn r = 1, dann besteht ein sehr hoher funktionaler Zusammenhang zwischen den Merkmalen.

Mithilfe der Chaddock-Tabelle können Sie qualitativ beurteilen, wie eng der Zusammenhang zwischen den Merkmalen ist:

Chaddock-Tabelle Tabelle 2.

Für eine nichtlineare Abhängigkeit werden das Korrelationsverhältnis (0 1) und der Korrelationsindex R ermittelt, die sich aus den folgenden Abhängigkeiten berechnen.

Dabei ist Wert der aus der Regressionsabhängigkeit berechnete Wert des Indikators.

Zur Beurteilung der Genauigkeit von Berechnungen verwenden wir den Wert des durchschnittlichen relativen Näherungsfehlers

Bei hoher Genauigkeit liegt sie im Bereich von 0-12 %.

Um die Auswahl der funktionalen Abhängigkeit zu bewerten, verwenden wir das Bestimmtheitsmaß

Das Bestimmtheitsmaß wird als „verallgemeinertes“ Maß für die Anpassungsgüte eines Funktionsmodells verwendet, da es den Zusammenhang zwischen Faktor und Gesamtvarianz, genauer gesagt den Anteil der Faktorvarianz an der Gesamtvarianz, ausdrückt.

Zur Beurteilung der Signifikanz des Korrelationsindex R wird der Fisher-F-Test verwendet. Der tatsächliche Wert des Kriteriums wird durch die Formel bestimmt:

Dabei ist m die Anzahl der Parameter der Regressionsgleichung und n die Anzahl der Beobachtungen. Der Wert wird mit dem kritischen Wert verglichen, der aus der F-Kriterientabelle unter Berücksichtigung des akzeptierten Signifikanzniveaus und der Anzahl der Freiheitsgrade ermittelt wird. Wenn ja, dann wird der Wert des Korrelationsindex R als signifikant angesehen.

Für die ausgewählte Regressionsform werden die Koeffizienten der Regressionsgleichung berechnet. Der Einfachheit halber sind die Berechnungsergebnisse in einer Tabelle mit der folgenden Struktur enthalten (im Allgemeinen variieren die Anzahl der Spalten und deren Typ je nach Art der Regression):

Tisch 3

Die Lösung des Problems.

Es wurden Beobachtungen zu einem wirtschaftlichen Phänomen gemacht – der Abhängigkeit der Produktproduktion vom Prozentsatz der Geräteausfälle. Es wird eine Reihe von Werten erhalten.

Die ausgewählten Werte sind in Tabelle 1 beschrieben.

Wir erstellen ein Diagramm der empirischen Abhängigkeit basierend auf der gegebenen Stichprobe (Abb. 1).

Anhand des Aussehens des Diagramms stellen wir fest, dass die analytische Abhängigkeit als lineare Funktion dargestellt werden kann:

Berechnen wir den Paarkorrelationskoeffizienten, um die Beziehung zwischen X und Y zu beurteilen:

Lassen Sie uns eine Hilfstabelle erstellen:

Tabelle 4

Wir lösen das Gleichungssystem, um die Koeffizienten zu finden und:

aus der ersten Gleichung, Ersetzen des Wertes

in die zweite Gleichung erhalten wir:

Wir finden

Wir erhalten die Form der Regressionsgleichung:

9. Um die Dichtheit der gefundenen Verbindung zu beurteilen, verwenden wir den Korrelationskoeffizienten r:

Anhand der Chaddock-Tabelle stellen wir fest, dass für r = 0,90 die Beziehung zwischen X und Y sehr hoch ist und daher auch die Zuverlässigkeit der Regressionsgleichung hoch ist. Um die Genauigkeit der Berechnungen zu beurteilen, verwenden wir den Wert des durchschnittlichen relativen Näherungsfehlers:

Wir glauben, dass der Wert ein hohes Maß an Zuverlässigkeit der Regressionsgleichung bietet.

Für eine lineare Beziehung zwischen X und Y ist der Bestimmungsindex gleich dem Quadrat des Korrelationskoeffizienten r: . Folglich werden 81 % der Gesamtvariation durch Veränderungen im Faktormerkmal X erklärt.

Zur Beurteilung der Signifikanz des Korrelationsindex R, der bei einem linearen Zusammenhang betragsmäßig gleich dem Korrelationskoeffizienten r ist, wird der Fisher-F-Test verwendet. Den tatsächlichen Wert ermitteln wir nach der Formel:

Dabei ist m die Anzahl der Parameter der Regressionsgleichung und n die Anzahl der Beobachtungen. Das heißt, n = 5, m = 2.

Unter Berücksichtigung des akzeptierten Signifikanzniveaus =0,05 und der Anzahl der Freiheitsgrade erhalten wir den kritischen Tabellenwert. Da der Wert des Korrelationsindex R als signifikant angesehen wird.

Berechnen wir den vorhergesagten Wert von Y bei X = 30:

Lassen Sie uns die gefundene Funktion grafisch darstellen:

11. Bestimmen Sie den Fehler des Korrelationskoeffizienten anhand des Wertes der Standardabweichung

und bestimmen Sie dann den Wert der normalisierten Abweichung

Ab einem Verhältnis > 2 mit einer Wahrscheinlichkeit von 95 % können wir über die Signifikanz des resultierenden Korrelationskoeffizienten sprechen.

Problem 2. Lineare Optimierung

Variante 1.

Der regionale Entwicklungsplan sieht die Inbetriebnahme von drei Ölfeldern mit einem Gesamtfördervolumen von 9 Millionen Tonnen vor. Im ersten Feld beträgt die Produktionsmenge mindestens 1 Million Tonnen, im zweiten 3 Millionen Tonnen und im dritten 5 Millionen Tonnen. Um eine solche Produktivität zu erreichen, müssen mindestens 125 Brunnen gebohrt werden. Für die Umsetzung dieses Plans wurden 25 Millionen Rubel bereitgestellt. Kapitalinvestitionen (Indikator K) und 80 km Rohre (Indikator L).

Es ist notwendig, die optimale (maximale) Anzahl von Brunnen zu bestimmen, um die geplante Produktivität jedes Feldes sicherzustellen. Die Ausgangsdaten für die Aufgabe sind in der Tabelle angegeben.

Ausgangsdaten

Die Problemstellung ist oben angegeben.

Lassen Sie uns die im Problem angegebenen Bedingungen und Einschränkungen formalisieren. Das Ziel der Lösung dieses Optimierungsproblems besteht darin, den maximalen Wert der Ölförderung mit der optimalen Anzahl von Bohrlöchern für jedes Feld unter Berücksichtigung der bestehenden Einschränkungen des Problems zu finden.

Die Zielfunktion hat entsprechend den Anforderungen des Problems die Form:

Wo ist die Anzahl der Brunnen für jedes Feld?

Bestehende Aufgabenbeschränkungen für:

Rohrverlegelänge:

Anzahl der Brunnen pro Feld:

Kosten für den Bau eines Brunnens:

Lineare Optimierungsprobleme werden beispielsweise durch folgende Methoden gelöst:

Grafisch

Simplex-Methode

Die Verwendung der grafischen Methode ist nur dann praktisch, wenn lineare Optimierungsprobleme mit zwei Variablen gelöst werden. Bei einer größeren Anzahl von Variablen ist die Verwendung algebraischer Apparate erforderlich. Betrachten wir eine allgemeine Methode zur Lösung linearer Optimierungsprobleme, die sogenannte Simplex-Methode.

Die Simplex-Methode ist ein typisches Beispiel für iterative Berechnungen, die zur Lösung der meisten Optimierungsprobleme verwendet werden. Wir betrachten solche iterativen Verfahren, die mithilfe von Operations-Research-Modellen Lösungen für Probleme liefern.

Um ein Optimierungsproblem mit der Simplex-Methode zu lösen, muss die Anzahl der Unbekannten Xi größer sein als die Anzahl der Gleichungen, d. h. Gleichungssystem

erfüllt die Beziehung m

A=war gleich m.

Bezeichnen wir die Spalte der Matrix A als und die Spalte der freien Terme als

Die Grundlösung von System (1) ist eine Menge von m Unbekannten, die eine Lösung für System (1) darstellen.

Kurz gesagt wird der Algorithmus der Simplex-Methode wie folgt beschrieben:

Die ursprüngliche Einschränkung, geschrieben als Typungleichung<= (=>) kann als Gleichheit ausgedrückt werden, indem die Restvariable auf der linken Seite der Einschränkung hinzugefügt wird (die überschüssige Variable von der linken Seite subtrahiert wird).

Zum Beispiel auf der linken Seite der ursprünglichen Einschränkung

Es wird eine Restvariable eingeführt, wodurch aus der ursprünglichen Ungleichheit Gleichheit wird

Wenn die anfängliche Einschränkung die Durchflussrate der Rohre bestimmt, sollte die Variable als Rest oder ungenutzter Teil dieser Ressource interpretiert werden.

Das Maximieren einer Zielfunktion ist gleichbedeutend mit dem Minimieren derselben Funktion mit umgekehrtem Vorzeichen. Das heißt, in unserem Fall

Äquivalent

Für eine Grundlösung der folgenden Form wird eine Simplex-Tabelle erstellt:

Aus dieser Tabelle geht hervor, dass diese Zellen nach der Lösung des Problems die grundlegende Lösung enthalten. - Quotienten aus der Division einer Spalte durch eine der Spalten; - zusätzliche Multiplikatoren zum Zurücksetzen von Werten in Tabellenzellen, die sich auf die Auflösungsspalte beziehen. - Mindestwert der Zielfunktion -Z, - Werte der Koeffizienten in der Zielfunktion für Unbekannte.

Unter den Werten wird jeder positive Wert gefunden. Ist dies nicht der Fall, gilt das Problem als gelöst. Wählen Sie eine beliebige Spalte der Tabelle aus, die Folgendes enthält. Diese Spalte wird als „permissive“ Spalte bezeichnet. Wenn es unter den Elementen der Auflösungsspalte keine positiven Zahlen gibt, ist das Problem aufgrund der Unbeschränktheit der Zielfunktion auf der Menge ihrer Lösungen unlösbar. Wenn die Auflösungsspalte positive Zahlen enthält, fahren Sie mit Schritt 5 fort.

Die Spalte ist mit Brüchen gefüllt, deren Zähler die Elemente der Spalte und deren Nenner die entsprechenden Elemente der auflösenden Spalte sind. Der kleinste aller Werte wird ausgewählt. Die Linie, die das kleinste Ergebnis erzeugt, wird als „Auflösungslinie“ bezeichnet. Am Schnittpunkt der auflösenden Zeile und der auflösenden Spalte befindet sich ein auflösendes Element, das auf irgendeine Weise, beispielsweise durch Farbe, hervorgehoben wird.

Basierend auf der ersten Simplex-Tabelle wird die nächste zusammengestellt, in der:

Ersetzt einen Zeilenvektor durch einen Spaltenvektor

Die Aktivierungszeichenfolge wird durch dieselbe Zeichenfolge, dividiert durch das Aktivierungselement, ersetzt

Jede der verbleibenden Zeilen der Tabelle wird durch die Summe dieser Zeile mit der auflösenden Zeile ersetzt, multipliziert mit einem speziell ausgewählten zusätzlichen Faktor, um 0 in der Zelle der auflösenden Spalte zu erhalten.

Wir verweisen auf Punkt 4 mit der neuen Tabelle.

Die Lösung des Problems.

Basierend auf der Formulierung des Problems haben wir das folgende Ungleichungssystem:

und objektive Funktion

Lassen Sie uns das Ungleichungssystem in ein Gleichungssystem umwandeln, indem wir zusätzliche Variablen einführen:

Reduzieren wir die Zielfunktion auf ihr Äquivalent:

Lassen Sie uns die anfängliche Simplex-Tabelle erstellen:

Wählen wir die Auflösungsspalte aus. Berechnen wir die Spalte:

Wir tragen die Werte in die Tabelle ein. Mit der kleinsten davon = 10 bestimmen wir die Auflösungszeichenfolge: . Am Schnittpunkt der auflösenden Zeile und der auflösenden Spalte finden wir das auflösende Element = 1. Wir füllen einen Teil der Tabelle mit zusätzlichen Faktoren, so dass: die mit ihnen multiplizierte auflösende Zeile, addiert zu den verbleibenden Zeilen der Tabelle, entsteht Nullen in den Elementen der auflösenden Spalte.

Erstellen wir die zweite Simplex-Tabelle:

Darin nehmen wir die Auflösungsspalte, berechnen die Werte und tragen sie in die Tabelle ein. Im Minimum erhalten wir die Auflösungslinie. Das auflösende Element ist 1. Wir finden zusätzliche Faktoren und füllen die Spalten aus.

Wir erstellen die folgende Simplex-Tabelle:

Auf ähnliche Weise finden wir die auflösende Spalte, die auflösende Zeile und das auflösende Element = 2. Wir erstellen die folgende Simplex-Tabelle:

Da es in der -Z-Zeile keine positiven Werte gibt, ist diese Tabelle endlich. Die erste Spalte gibt die gewünschten Werte der Unbekannten an, d.h. optimale Grundlösung:

In diesem Fall beträgt der Wert der Zielfunktion -Z = -8000, was Zmax = 8000 entspricht. Das Problem ist gelöst.

Aufgabe 3. Clusteranalyse

Formulierung des Problems:

Teilen Sie Objekte anhand der in der Tabelle angegebenen Daten auf. Wählen Sie selbst eine Lösungsmethode aus und erstellen Sie ein Datenabhängigkeitsdiagramm.

Variante 1.

Ausgangsdaten

Überblick über Methoden zur Lösung dieser Art von Problemen. Begründung der Lösungsmethode.

Clusteranalyseprobleme werden mit den folgenden Methoden gelöst:

Die Vereinigungs- oder Baumclustermethode wird bei der Bildung von „Unähnlichkeits“- oder „Abstand zwischen Objekten“-Clustern verwendet. Diese Abstände können im eindimensionalen oder mehrdimensionalen Raum definiert werden.

Eine bidirektionale Verknüpfung wird (relativ selten) in Situationen verwendet, in denen die Daten nicht im Hinblick auf „Objekte“ und „Objekteigenschaften“, sondern im Hinblick auf Beobachtungen und Variablen interpretiert werden. Es wird erwartet, dass sowohl Beobachtungen als auch Variablen gleichzeitig zur Entdeckung sinnvoller Cluster beitragen.

K-means-Methode. Wird verwendet, wenn bereits eine Hypothese bezüglich der Anzahl der Cluster besteht. Sie können dem System beispielsweise vorgeben, genau drei Cluster zu bilden, damit diese möglichst unterschiedlich sind. Im Allgemeinen werden bei der K-Means-Methode genau K verschiedene Cluster konstruiert, die möglichst weit voneinander entfernt liegen.

Zur Entfernungsmessung gibt es folgende Methoden:

Euklidische Entfernung. Dies ist die häufigste Distanzart. Es handelt sich einfach um einen geometrischen Abstand im mehrdimensionalen Raum und wird wie folgt berechnet:

Beachten Sie, dass der euklidische Abstand (und sein Quadrat) aus den Originaldaten und nicht aus den standardisierten Daten berechnet wird.

Stadtblockentfernung (Manhattan-Entfernung). Dieser Abstand ist einfach der Durchschnitt der Unterschiede über die Koordinaten. In den meisten Fällen liefert dieses Abstandsmaß die gleichen Ergebnisse wie der gewöhnliche euklidische Abstand. Wir stellen jedoch fest, dass bei diesem Maß der Einfluss einzelner großer Unterschiede (Ausreißer) geringer ist (da diese nicht quadriert werden). Die Manhattan-Entfernung wird nach folgender Formel berechnet:

Tschebyscheff-Distanz. Dieser Abstand kann nützlich sein, wenn man zwei Objekte als „verschieden“ definieren möchte, wenn sie sich in einer Koordinate (in einer Dimension) unterscheiden. Der Tschebyscheff-Abstand wird nach folgender Formel berechnet:

Machtdistanz. Manchmal möchte man ein Gewicht in Bezug auf eine Dimension, für die die entsprechenden Objekte sehr unterschiedlich sind, schrittweise erhöhen oder verringern. Dies kann mithilfe der Potenzgesetzdistanz erreicht werden. Die Leistungsdistanz wird nach folgender Formel berechnet:

Dabei sind r und p benutzerdefinierte Parameter. Wie diese Maßnahme „funktioniert“, können einige Beispielrechnungen zeigen. Der p-Parameter ist für die allmähliche Gewichtung von Unterschieden entlang einzelner Koordinaten verantwortlich, der r-Parameter für die progressive Gewichtung großer Entfernungen zwischen Objekten. Wenn beide Parameter r und p gleich zwei sind, dann stimmt dieser Abstand mit dem euklidischen Abstand überein.

Prozentsatz der Uneinigkeit. Dieses Maß wird verwendet, wenn die Daten kategorisch sind. Dieser Abstand wird nach folgender Formel berechnet:

Um das Problem zu lösen, wählen wir die Methode der Vereinheitlichung (Baum-Clustering) als diejenige, die den Bedingungen und der Formulierung des Problems (Aufteilen von Objekten) am besten entspricht. Die Verbindungsmethode kann wiederum mehrere Varianten von Kommunikationsregeln verwenden:

Einzellink (Nearest-Neighbor-Methode). Bei dieser Methode wird der Abstand zwischen zwei Clustern durch den Abstand zwischen den beiden nächstgelegenen Objekten (nächsten Nachbarn) in verschiedenen Clustern bestimmt. Das heißt, zwei beliebige Objekte in zwei Clustern sind näher beieinander als die entsprechende Kommunikationsentfernung. Diese Regel muss gewissermaßen Objekte aneinanderreihen, um Cluster zu bilden, und die resultierenden Cluster werden in der Regel durch lange „Ketten“ dargestellt.

Vollständiger Link (Methode der am weitesten entfernten Nachbarn). Bei dieser Methode werden Abstände zwischen Clustern durch den größten Abstand zwischen zwei beliebigen Objekten in verschiedenen Clustern (d. h. den „am weitesten entfernten Nachbarn“) bestimmt.

Es gibt auch viele andere Cluster-Joining-Methoden wie diese (z. B. ungewichtetes paarweises Joinen, gewichtetes paarweises Joinen usw.).

Lösungsmethodentechnologie. Berechnung von Indikatoren.

Wenn im ersten Schritt jedes Objekt ein separater Cluster ist, werden die Abstände zwischen diesen Objekten durch das ausgewählte Maß bestimmt.

Da das Problem die Maßeinheiten der Merkmale nicht angibt, wird davon ausgegangen, dass sie übereinstimmen. Daher besteht keine Notwendigkeit, die Quelldaten zu normalisieren, sodass wir sofort mit der Berechnung der Distanzmatrix fortfahren.

Die Lösung des Problems.

Lassen Sie uns ein Abhängigkeitsdiagramm basierend auf den Ausgangsdaten erstellen (Abbildung 2).

Als Abstand zwischen Objekten nehmen wir den üblichen euklidischen Abstand. Dann nach der Formel:

wo l Zeichen sind; k ist die Anzahl der Features, der Abstand zwischen Objekt 1 und 2 ist gleich:

Wir berechnen weiterhin die verbleibenden Entfernungen:

Lassen Sie uns aus den erhaltenen Werten eine Tabelle erstellen:

Kürzeste Distanz. Das bedeutet, dass wir die Elemente 3,6 und 5 zu einem Cluster zusammenfassen. Wir erhalten die folgende Tabelle:

Kürzeste Distanz. Die Elemente 3,6,5 und 4 werden zu einem Cluster zusammengefasst. Wir erhalten eine Tabelle mit zwei Clustern:

Der Mindestabstand zwischen den Elementen 3 und 6 ist gleich. Das bedeutet, dass die Elemente 3 und 6 zu einem Cluster zusammengefasst werden. Wir wählen den maximalen Abstand zwischen dem neu gebildeten Cluster und den verbleibenden Elementen. Beispielsweise beträgt der Abstand zwischen Cluster 1 und Cluster 3.6 max(13.34166, 13.60147)= 13.34166. Lassen Sie uns die folgende Tabelle erstellen:

Darin ist der Mindestabstand der Abstand zwischen den Clustern 1 und 2. Wenn wir 1 und 2 zu einem Cluster kombinieren, erhalten wir:

So haben wir mit der Methode „Entfernter Nachbar“ zwei Cluster erhalten: 1,2 und 3,4,5,6, deren Abstand 13,60147 beträgt.

Das Problem ist behoben.

Anwendungen. Problemlösung mit Anwendungspaketen (MS Excel 7.0)

Die Aufgabe der Korrelations- und Regressionsanalyse.

Wir tragen die Ausgangsdaten in die Tabelle ein (Abb. 1)

Wählen Sie das Menü „Service / Datenanalyse“. Wählen Sie im erscheinenden Fenster die Zeile „Regression“ (Abb. 2).

Legen wir im nächsten Fenster die Eingabeintervalle in X und Y fest, belassen den Zuverlässigkeitsgrad bei 95 % und platzieren die Ausgabedaten auf einem separaten Blatt „Berichtsblatt“ (Abb. 3).

Nach der Berechnung erhalten wir die endgültigen Daten der Regressionsanalyse auf dem Blatt „Berichtsblatt“:

Hier wird auch ein Streudiagramm der Näherungsfunktion oder „Fit Graph“ angezeigt:


Die berechneten Werte und Abweichungen werden in der Tabelle jeweils in den Spalten „Vorhergesagtes Y“ und „Residuen“ angezeigt.

Basierend auf den Ausgangsdaten und Abweichungen wird ein Restdiagramm erstellt:

Optimierungsproblem


Die Ausgangsdaten geben wir wie folgt ein:

Wir geben die erforderlichen Unbekannten X1, X2, X3 jeweils in die Zellen C9, D9, E9 ein.

Die Koeffizienten der Zielfunktion für X1, X2, X3 werden jeweils in C7, D7, E7 eingegeben.

Wir geben die Zielfunktion in Zelle B11 als Formel ein: =C7*C9+D7*D9+E7*E9.

Bestehende Aufgabeneinschränkungen

Für Rohrverlegelänge:

Geben Sie in die Zellen C5, D5, E5, F5, G5 ein

Anzahl der Brunnen pro Feld:

X3 Ј 100; Geben Sie in die Zellen C8, D8, E8 ein.

Kosten für den Bau eines Brunnens:

Geben Sie in die Zellen C6, D6, E6, F6, G6 ein.

Die Formel zur Berechnung der Gesamtlänge C5*C9+D5*D9+E5*E9 wird in Zelle B5 platziert, die Formel zur Berechnung der Gesamtkosten C6*C9+D6*D9+E6*E9 wird in Zelle B6 platziert.


Wählen Sie im Menü „Service/Lösungssuche“, geben Sie Parameter für die Lösungssuche entsprechend den eingegebenen Ausgangsdaten ein (Abb. 4):

Stellen Sie über die Schaltfläche „Parameter“ folgende Parameter für die Lösungssuche ein (Abb. 5):


Nach der Suche nach einer Lösung erhalten wir einen Bericht über die Ergebnisse:

Microsoft Excel 8.0e-Ergebnisbericht

Bericht erstellt: 17.11.2002 01:28:30 Uhr

Zielzelle (Maximum)

Ergebnis

Gesamtproduktion

Veränderbare Zellen

Ergebnis

Anzahl der Brunnen

Anzahl der Brunnen

Anzahl der Brunnen

Einschränkungen

Bedeutung

Länge

Verwandt

Projektkosten

nicht verbunden.

Anzahl der Brunnen

nicht verbunden.

Anzahl der Brunnen

Verwandt

Anzahl der Brunnen

Verwandt

Die erste Tabelle zeigt den anfänglichen und endgültigen (optimalen) Wert der Zielzelle, in der die Zielfunktion des zu lösenden Problems platziert wurde. In der zweiten Tabelle sehen wir die Anfangs- und Endwerte der optimierten Variablen, die in den veränderbaren Zellen enthalten sind. Die dritte Tabelle im Ergebnisbericht enthält Informationen zu den Einschränkungen. Die Spalte „Wert“ enthält die optimalen Werte der benötigten Ressourcen und optimierten Variablen. Die Spalte „Formel“ enthält Einschränkungen für verbrauchte Ressourcen und optimierte Variablen, geschrieben in Form von Links zu Zellen, die diese Daten enthalten. Die Spalte „Status“ bestimmt, ob bestimmte Einschränkungen gebunden oder ungebunden sind. „Gebunden“ sind hier Einschränkungen, die in der optimalen Lösung in Form strenger Gleichungen umgesetzt werden. Die Spalte „Differenz“ für Ressourceneinschränkungen bestimmt den Saldo der genutzten Ressourcen, d.h. die Differenz zwischen der benötigten Menge an Ressourcen und ihrer Verfügbarkeit.

Ebenso erhalten wir durch die Aufzeichnung des Ergebnisses der Lösungssuche im Formular „Stabilitätsbericht“ folgende Tabellen:

Microsoft Excel 8.0e Nachhaltigkeitsbericht

Arbeitsblatt: [Lösung des Optimierungsproblems.xls] Lösung des Produktionsoptimierungsproblems

Bericht erstellt: 17.11.2002 01:35:16 Uhr

Veränderbare Zellen

Akzeptabel

Akzeptabel

Bedeutung

Preis

Koeffizient

Zunahme

Verringern

Anzahl der Brunnen

Anzahl der Brunnen

Anzahl der Brunnen

Einschränkungen

Einschränkung

Akzeptabel

Akzeptabel

Bedeutung

Richtiger Teil

Zunahme

Verringern

Länge

Projektkosten

Der Nachhaltigkeitsbericht enthält Informationen über die geänderten (optimierten) Variablen und die Modellbeschränkungen. Die angegebenen Informationen beziehen sich auf die Simplex-Methode zur Optimierung linearer Probleme, die oben im Teil der Problemlösung beschrieben wurde. Damit können Sie bewerten, wie empfindlich die resultierende optimale Lösung auf mögliche Änderungen der Modellparameter reagiert.

Der erste Teil des Berichts enthält Informationen über veränderbare Zellen, die Werte für die Anzahl der Vertiefungen in den Feldern enthalten. Die Spalte „Resultierender Wert“ gibt die optimalen Werte der optimierten Variablen an. Die Spalte „Zielkoeffizient“ enthält die Ausgangsdaten für die Koeffizientenwerte der Zielfunktion. Die nächsten beiden Spalten veranschaulichen, wie diese Faktoren erhöht und verringert werden können, ohne die gefundene optimale Lösung zu ändern.

Der zweite Teil des Nachhaltigkeitsberichts enthält Informationen zu den Einschränkungen der optimierten Variablen. Die erste Spalte gibt den Ressourcenbedarf für die optimale Lösung an. Die zweite enthält Schattenpreise für die Arten der verwendeten Ressourcen. Die letzten beiden Spalten enthalten Daten zu einer möglichen Erhöhung oder Verringerung des Volumens der verfügbaren Ressourcen.

Clustering-Problem.

Eine schrittweise Methode zur Lösung des Problems ist oben angegeben. Hier sind Excel-Tabellen, die den Fortschritt bei der Lösung des Problems veranschaulichen:

„Nearest-Neighbor-Methode“

Lösung des Problems der Clusteranalyse – „NEAREST NEIGHBOR METHOD“

Ausgangsdaten

wobei x1 das Ausgabevolumen ist;

x2 - durchschnittliche jährliche Kosten des Anlagevermögens

Industrielle Produktionsanlagen

„Far-Neighbor-Methode“

Lösung des Problems der Clusteranalyse – „FAR NEIGHBOR METHOD“

Ausgangsdaten

wobei x1 das Ausgabevolumen ist;

x2 - durchschnittliche jährliche Kosten des Anlagevermögens

Industrielle Produktionsanlagen

Es wird verwendet, um die Beziehung zwischen quantitativen oder qualitativen Indikatoren zu ermitteln, sofern diese in eine Rangfolge gebracht werden können. Die Werte des X-Indikators werden in aufsteigender Reihenfolge angezeigt und mit Rängen versehen. Die Werte des Y-Indikators werden in eine Rangfolge gebracht und der Kendall-Korrelationskoeffizient berechnet:

Wo S = PQ.

P groß der Wert der Ränge Y.

Q- die Gesamtzahl der Beobachtungen nach den aktuellen Beobachtungen mit kleiner der Wert der Ränge Y. (gleiche Ränge werden nicht berücksichtigt!)

Wenn die untersuchten Daten wiederholt werden (die gleichen Ränge haben), wird der angepasste Kendall-Korrelationskoeffizient in den Berechnungen verwendet:

T- die Anzahl der zugehörigen Ränge in der Reihe X bzw. Y.

19. Wovon sollten wir ausgehen, wenn wir Thema, Gegenstand, Subjekt, Zweck, Ziele und Hypothese der Studie festlegen?

Das Forschungsprogramm besteht in der Regel aus zwei Abschnitten: methodische und prozedurale. Die erste umfasst die Begründung der Relevanz des Themas, die Formulierung des Problems, die Definition des Gegenstands und Subjekts, die Ziele und Zielsetzungen der Studie, die Formulierung grundlegender Konzepte (kategorialer Apparat), die vorläufige systemische Analyse des Untersuchungsgegenstands und die Formulierung einer Arbeitshypothese. Im zweiten Abschnitt werden das strategische Design der Studie sowie das Design und die grundlegenden Verfahren zur Erhebung und Analyse von Primärdaten erläutert.

Bei der Auswahl eines Forschungsthemas muss man zunächst von der Relevanz ausgehen. Begründung der Relevanz enthält einen Hinweis auf die Notwendigkeit und Aktualität der Untersuchung und Lösung des Problems für die Weiterentwicklung der Theorie und Praxis von Lehre und Bildung. Die aktuelle Forschung liefert Antworten auf die drängendsten Fragen dieser Zeit, spiegelt die soziale Ordnung der Gesellschaft für die pädagogische Wissenschaft wider und deckt die wichtigsten Widersprüche auf, die in der Praxis auftreten. Das Relevanzkriterium ist dynamisch, flexibel, zeitabhängig und berücksichtigt spezifische und spezifische Umstände. In seiner allgemeinsten Form charakterisiert Relevanz den Grad der Diskrepanz zwischen dem Bedarf an wissenschaftlichen Ideen und praktischen Empfehlungen (zur Befriedigung eines bestimmten Bedarfs) und den Vorschlägen, die Wissenschaft und Praxis derzeit liefern können.

Die überzeugendste Grundlage für das Forschungsthema ist die Gesellschaftsordnung, die die drängendsten, gesellschaftlich bedeutsamsten Probleme widerspiegelt, die dringender Lösung bedürfen. Gesellschaftliche Ordnung erfordert eine Begründung für ein bestimmtes Thema. Normalerweise handelt es sich dabei um eine Analyse des Grades, in dem eine Fragestellung in der Wissenschaft entwickelt wurde.

Wenn sich die soziale Ordnung aus der Analyse der pädagogischen Praxis ergibt, dann ist die wissenschaftliches Problem ist in einer anderen Ebene. Es bringt den Hauptwiderspruch zum Ausdruck, der mit wissenschaftlichen Mitteln gelöst werden muss. Die Lösung des Problems ist normalerweise Zweck der Studie. Das Ziel ist ein reformuliertes Problem.

Die Formulierung des Problems beinhaltet Objektauswahl Forschung. Es kann sich um einen pädagogischen Prozess, einen Bereich der pädagogischen Realität oder eine pädagogische Beziehung handeln, die einen Widerspruch enthält. Mit anderen Worten: Das Objekt kann alles sein, was explizit oder implizit einen Widerspruch enthält und eine problematische Situation hervorruft. Ein Objekt ist das Ziel des Erkenntnisprozesses. Gegenstand der Studie - Teil, Seite eines Objekts. Dabei handelt es sich um die aus praktischer oder theoretischer Sicht bedeutsamsten Eigenschaften, Aspekte und Merkmale eines Objekts, die direkt untersucht werden können.

Entsprechend dem Zweck, Gegenstand und Gegenstand der Studie wird die Forschung bestimmt Aufgaben, die in der Regel der Überprüfung dienen Hypothesen. Bei Letzterem handelt es sich um eine Reihe theoretisch fundierter Annahmen, deren Wahrheit überprüft werden muss.

Kriterium wissenschaftliche Neuheit anwendbar, um die Qualität abgeschlossener Studien zu beurteilen. Es charakterisiert neue theoretische und praktische Schlussfolgerungen, Bildungsmuster, ihre Struktur und Mechanismen, Inhalte, Prinzipien und Technologien, die zu diesem Zeitpunkt noch nicht bekannt waren und in der pädagogischen Literatur nicht erfasst waren. Die Neuheit der Forschung kann sowohl theoretische als auch praktische Bedeutung haben. Die theoretische Bedeutung der Forschung liegt in der Erstellung eines Konzepts, der Gewinnung einer Hypothese, eines Musters, einer Methode, eines Modells zur Identifizierung eines Problems, Trends, einer Richtung. Die praktische Bedeutung der Forschung liegt in der Ausarbeitung von Vorschlägen, Empfehlungen etc. Die Kriterien für Neuheit, theoretische und praktische Bedeutung variieren je nach Art der Forschung, sie hängen auch vom Zeitpunkt der Gewinnung neuer Erkenntnisse ab.

Beim Ranking muss der Experte die bewerteten Elemente in aufsteigender (absteigender) Reihenfolge seiner Präferenz anordnen und jedem von ihnen Ränge in Form natürlicher Zahlen zuweisen. Beim direkten Ranking hat das am meisten bevorzugte Element den Rang 1 (manchmal 0) und das am wenigsten bevorzugte Element den Rang m.

Wenn der Sachverständige keine strenge Rangfolge vornehmen kann, weil seiner Meinung nach einige Elemente in der Präferenz gleich sind, ist es zulässig, diesen Elementen die gleichen Ränge zuzuordnen. Um sicherzustellen, dass die Summe der Ränge gleich der Summe der Plätze der geordneten Elemente ist, werden sogenannte standardisierte Ränge verwendet. Der standardisierte Rang ist das arithmetische Mittel der Anzahl der Elemente in einer Rangreihe, die in ihrer Präferenz gleich sind.

Beispiel 2.6. Der Experte ordnete die sechs Punkte nach Präferenz wie folgt ein:

Dann werden die standardisierten Ränge dieser Elemente sein

Somit ist die Summe der den Elementen zugewiesenen Ränge gleich der Summe der Zahlen in der natürlichen Reihe.

Die Genauigkeit des Ausdrucks von Präferenzen durch die Rangfolge von Elementen hängt wesentlich von der Aussagekraft der Präsentationen ab. Das Ranking-Verfahren liefert die zuverlässigsten Ergebnisse (im Hinblick auf den Grad der Nähe zwischen der offenbarten Präferenz und der „Wahrheit“), wenn die Anzahl der bewerteten Elemente nicht mehr als 10 beträgt. Die maximale Leistung des Präsentationssatzes sollte 20 nicht überschreiten.

Die Verarbeitung und Analyse von Rankings erfolgt mit dem Ziel, eine Gruppenpräferenzbeziehung basierend auf individuellen Präferenzen aufzubauen. In diesem Fall können folgende Aufgaben gestellt werden: a) Bestimmung der Nähe des Zusammenhangs zwischen den Rankings zweier Experten zu Elementen einer Reihe von Präsentationen; b) Bestimmung der Beziehung zwischen zwei Elementen entsprechend den individuellen Meinungen der Gruppenmitglieder zu den verschiedenen Merkmalen dieser Elemente; c) Beurteilung der Konsistenz von Expertenmeinungen in einer Gruppe mit mehr als zwei Experten.

In den ersten beiden Fällen wird der Rangkorrelationskoeffizient als Maß für die Nähe des Zusammenhangs verwendet. Abhängig davon, ob nur eine strenge oder eine nicht strenge Rangfolge zulässig ist, wird entweder der Rangkorrelationskoeffizient von Kendall oder von Spearman verwendet.

Kendalls Rangkorrelationskoeffizient für Problem (a)

Wo M− Anzahl der Elemente; r 1 i – Rang, der vom ersten Experten vergeben wird ich−tes Element; r 2 i – das Gleiche, vom zweiten Sachverständigen.

Für Problem (b) haben die Komponenten (2.5) folgende Bedeutung: m – die Anzahl der Merkmale der beiden zu bewertenden Elemente; r 1 i(r 2 i) – Rang des i-ten Merkmals in der Rangfolge des ersten (zweiten) Elements, festgelegt von einer Expertengruppe.

Für eine strikte Rangfolge wird der Rangkorrelationskoeffizient verwendet R Speermann:


deren Komponenten die gleiche Bedeutung wie in (2.5) haben.

Die Korrelationskoeffizienten (2,5), (2,6) variieren von -1 bis +1. Wenn der Korrelationskoeffizient +1 beträgt, bedeutet dies, dass die Rangfolge gleich ist; wenn es gleich -1 ist, dann sind − entgegengesetzt (Rangfolgen sind zueinander umgekehrt). Wenn der Korrelationskoeffizient Null ist, bedeutet dies, dass die Rankings linear unabhängig (unkorreliert) sind.

Da bei diesem Ansatz (ein Experte ist ein „Messer“ mit einem zufälligen Fehler) einzelne Rankings als zufällig gelten, stellt sich die Aufgabe, die Hypothese über die Signifikanz des resultierenden Korrelationskoeffizienten statistisch zu überprüfen. Dabei kommt das Neyman-Pearson-Kriterium zum Einsatz: Das Signifikanzniveau des Kriteriums α wird festgelegt und unter Kenntnis der Verteilungsgesetze des Korrelationskoeffizienten der Schwellenwert bestimmt c α, mit dem der resultierende Wert des Korrelationskoeffizienten verglichen wird. Der kritische Bereich ist rechtshändig (in der Praxis wird meist zunächst der Kriteriumswert berechnet und daraus das Signifikanzniveau ermittelt, das mit dem Schwellenwert verglichen wird α ).

Für m > 10 hat der Kendall-Rangkorrelationskoeffizient τ eine nahezu normale Verteilung mit den Parametern:

wo M [τ] – mathematische Erwartung; D [τ] – Streuung.

In diesem Fall werden Tabellen der Sverwendet:

und die Grenze τ α des kritischen Bereichs wird als Wurzel der Gleichung definiert

Wenn der berechnete Wert des Koeffizienten τ ≥ τ α ist, dann gelten die Rangfolgen als wirklich gut übereinstimmend. Typischerweise wird der Wert von α im Bereich von 0,01–0,05 gewählt. Für t ≤ 10 ist die Verteilung von t in der Tabelle angegeben. 2.1.

Die Überprüfung der Signifikanz der Konsistenz zweier Rankings anhand des Spearman-Koeffizienten ρ erfolgt in der gleichen Reihenfolge anhand von Student-Verteilungstabellen für m > 10.

In diesem Fall der Wert

hat eine Verteilung, die der Student-Verteilung gut angenähert ist M– 2 Freiheitsgrade. Bei M> 30 stimmt die Verteilung von ρ gut mit der Normalverteilung überein, mit M [ρ] = 0 und D [ρ] = .

Für m ≤ 10 wird die Signifikanz von ρ anhand der Tabelle überprüft. 2.2.

Wenn die Rangfolge nicht streng ist, dann der Spearman-Koeffizient

wobei ρ – nach (2.6) berechnet wird;

wobei k 1 , k 2 die Anzahl der verschiedenen Gruppen nicht strenger Ränge im ersten bzw. zweiten Rang sind; l i ist die Anzahl der identischen Ränge in ich Gruppe. Bei der praktischen Verwendung der Rangkorrelationskoeffizienten ρ Spearman und τ Kendall ist zu beachten, dass der Koeffizient ρ ein genaueres Ergebnis im Sinne einer minimalen Varianz liefert.

Tabelle 2.1.Kendalls Rangkorrelationskoeffizientenverteilung

Der Kendall-Korrelationskoeffizient wird verwendet, wenn Variablen auf zwei Ordinalskalen dargestellt werden, sofern keine zugeordneten Ränge vorhanden sind. Bei der Berechnung des Kendall-Koeffizienten wird die Anzahl der Übereinstimmungen und Inversionen gezählt. Betrachten wir dieses Vorgehen am Beispiel des vorherigen Problems.

Der Algorithmus zur Lösung des Problems lautet wie folgt:

    Wir ordnen die Daten in der Tabelle neu. 8,5, sodass eine der Reihen (in diesem Fall die Reihe X i) stellte sich als rangiert heraus. Mit anderen Worten: Wir ordnen die Paare neu X Und j in der richtigen Reihenfolge und Wir tragen die Daten in die Spalten 1 und 2 der Tabelle ein. 8.6.

Tabelle 8.6

X ich

j ich

2. Bestimmen Sie den „Ranggrad“ der 2. Zeile ( j ich). Dieser Vorgang wird in der folgenden Reihenfolge durchgeführt:

a) Nehmen Sie den ersten Wert der unbewerteten Reihe „3“. Zählen der Anzahl der Ränge unten gegebene Zahl, die mehr verglichener Wert. Es gibt 9 solcher Werte (Zahlen 6, 7, 4, 9, 5, 11, 8, 12 und 10). Geben Sie in der Spalte „Übereinstimmungen“ die Zahl 9 ein. Dann zählen wir die Anzahl der Werte weniger drei. Es gibt 2 solcher Werte (Rang 1 und 2); In der Spalte „Inversion“ tragen wir die Zahl 2 ein.

b) Verwerfen Sie die Zahl 3 (wir haben bereits damit gearbeitet) und wiederholen Sie den Vorgang für den nächsten Wert „6“: Die Anzahl der Übereinstimmungen beträgt 6 (Ränge 7, 9, 11, 8, 12 und 10), die Anzahl der Inversionen sind 4 (Ränge 1, 2, 4 und 5). In die Spalte „Zufall“ tragen wir die Zahl 6 und in die Spalte „Inversion“ die Zahl 4 ein.

c) der Vorgang wird in ähnlicher Weise bis zum Ende der Reihe wiederholt; Dabei ist zu beachten, dass jeder „errechnete“ Wert von der weiteren Betrachtung ausgeschlossen wird (es werden nur Ränge berechnet, die unterhalb dieser Zahl liegen).

Notiz

Um bei den Berechnungen keine Fehler zu machen, ist zu bedenken, dass mit jedem „Schritt“ die Summe der Zufälle und Inversionen um eins abnimmt; Dies ist verständlich, da jeweils ein Wert von der Berücksichtigung ausgeschlossen wird.

3. Die Summe der Treffer wird berechnet (R) und die Summe der Inversionen (Q); Die Daten werden in eine und drei austauschbare Formeln für den Kendall-Koeffizienten (8.10) eingegeben. Die entsprechenden Berechnungen werden durchgeführt.

T (8.10)

In unserem Fall:

In der Tabelle Anhang XIV enthält die kritischen Werte des Koeffizienten für diese Stichprobe: τ cr. = 0,45; 0,59. Der empirisch ermittelte Wert wird mit dem tabellierten Wert verglichen.

Abschluss

τ = 0,55 > τ cr. = 0,45. Die Korrelation ist auf Ebene 1 statistisch signifikant.

Notiz:

Falls erforderlich (z. B. wenn keine Tabelle mit kritischen Werten vorhanden ist), statistische Signifikanz T Kendall kann durch die folgende Formel bestimmt werden:

(8.11)

Wo S* = P – Q+ 1 wenn P< Q , Und S* = P – Q – 1 wenn P>Q.

Werte z für das entsprechende Signifikanzniveau entsprechen dem Pearson-Maß und sind in den entsprechenden Tabellen zu finden (nicht im Anhang enthalten). Für Standard-Signifikanzniveaus z kr = 1,96 (für β 1 = 0,95) und 2,58 (für β 2 = 0,99). Der Kendall-Korrelationskoeffizient ist statistisch signifikant, wenn z > z cr

In unserem Fall S* = P – Q– 1 = 35 und z= 2,40, d. h. die erste Schlussfolgerung bestätigt sich: Die Korrelation zwischen den Merkmalen ist für die 1. Signifikanzebene statistisch signifikant.

Rangkorrelationskoeffizient charakterisiert die allgemeine Natur der nichtlinearen Beziehung: eine Zunahme oder Abnahme des resultierenden Attributs mit einer Zunahme des faktoriellen Attributs. Dies ist ein Indikator für die Enge einer monotonen nichtlinearen Verbindung.

Zweck des Dienstes. Mit diesem Online-Rechner können Sie berechnen Kendal-Rangkorrelationskoeffizient nach allen Grundformeln sowie eine Einschätzung seiner Bedeutung.

Anweisungen. Geben Sie die Datenmenge (Anzahl der Zeilen) an. Die resultierende Lösung wird in einer Word-Datei gespeichert.

Der von Kendal vorgeschlagene Koeffizient basiert auf Beziehungen vom Typ „mehr-weniger“, deren Gültigkeit bei der Konstruktion der Skalen festgestellt wurde.
Wählen wir ein paar Objekte aus und vergleichen wir ihre Ränge nach einem Merkmal und einem anderen. Wenn die Ränge für ein bestimmtes Merkmal eine direkte Reihenfolge bilden (d. h. die Reihenfolge der natürlichen Reihe), wird dem Paar +1 zugewiesen, wenn das Gegenteil der Fall ist, dann –1. Für das ausgewählte Paar werden die entsprechenden Plus- und Minuseinheiten (nach Attribut X und nach Attribut Y) multipliziert. Das Ergebnis ist offensichtlich +1; wenn die Ränge eines Paares beider Merkmale in derselben Reihenfolge liegen, und –1, wenn in umgekehrter Reihenfolge.
Wenn die Rangordnungen für beide Merkmale für alle Paare gleich sind, ist die Summe der allen Objektpaaren zugeordneten Einheiten maximal und gleich der Anzahl der Paare. Wenn die Rangfolge aller Paare umgekehrt ist, dann –C 2 N . Im allgemeinen Fall ist C 2 N = P + Q, wobei P die Anzahl der positiven und Q die Anzahl der negativen Einheiten ist, die Paaren beim Vergleich ihrer Ränge nach beiden Kriterien zugewiesen werden.
Der Wert wird Kendall-Koeffizient genannt.
Aus der Formel geht klar hervor, dass der Koeffizient τ die Differenz zwischen dem Anteil der Objektpaare, deren Reihenfolge in beiden Fällen gleich ist (relativ zur Anzahl aller Paare), und dem Anteil der Objektpaare, deren Reihenfolge nicht übereinstimmt, darstellt.
Ein Koeffizientenwert von 0,60 bedeutet beispielsweise, dass 80 % der Paare die gleiche Reihenfolge der Objekte haben und 20 % nicht (80 % + 20 % = 100 %; 0,80 – 0,20 = 0,60). Diese. τ kann als Unterschied in den Wahrscheinlichkeiten für übereinstimmende und nicht übereinstimmende Ordnungen für beide Merkmale für ein zufällig ausgewähltes Objektpaar interpretiert werden.
Im allgemeinen Fall erweist sich die Berechnung von τ (genauer P oder Q) selbst für N in der Größenordnung von 10 als umständlich.
Wir zeigen Ihnen, wie Sie die Berechnungen vereinfachen.


Beispiel. Das Verhältnis zwischen dem Volumen der Industrieproduktion und den Investitionen in Anlagekapital in 10 Regionen eines der föderalen Bezirke der Russischen Föderation im Jahr 2003 wird durch folgende Daten charakterisiert:


Berechnen Sie die Rangkorrelationskoeffizienten nach Spearman und Kendal. Überprüfen Sie ihre Signifikanz bei α=0,05. Formulieren Sie eine Schlussfolgerung über den Zusammenhang zwischen dem Volumen der Industrieproduktion und den Investitionen in Anlagekapital für die betrachteten Regionen der Russischen Föderation.

Lösung. Lassen Sie uns dem Merkmal Y und dem Faktor X Ränge zuweisen.


Sortieren wir die Daten nach X.
In der Zeile Y rechts von 3 gibt es 7 Ränge größer als 3, daher erzeugt 3 den Term 7 in P.
Rechts von 1 stehen 8 Ränge größer als 1 (das sind 2, 4, 6, 9, 5, 10, 7, 8), d. h. P umfasst 8 usw. Als Ergebnis ist P = 37 und unter Verwendung der Formeln erhalten wir:

XYRang X, d xRang Y, d yPQ
18.4 5.57 1 3 7 2
20.6 2.88 2 1 8 0
21.5 4.12 3 2 7 0
35.7 7.24 4 4 6 0
37.1 9.67 5 6 4 1
39.8 10.48 6 9 1 3
51.1 8.58 7 5 3 0
54.4 14.79 8 10 0 2
64.6 10.22 9 7 1 0
90.6 10.45 10 8 0 0
37 8


Verwendung vereinfachter Formeln:




wobei n die Stichprobengröße ist; z kp ist der kritische Punkt des zweiseitigen kritischen Bereichs, der aus der Tabelle der Laplace-Funktion durch die Gleichung Ф(z kp)=(1-α)/2 ermittelt wird.
Wenn |τ|< T kp - нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |τ| >T kp – die Nullhypothese wird abgelehnt. Es besteht eine signifikante Rangkorrelation zwischen qualitativen Merkmalen.
Finden wir den kritischen Punkt z kp
Ф(z kp) = (1-α)/2 = (1 - 0,05)/2 = 0,475

Finden wir den kritischen Punkt:

Da τ ​​> T kp – lehnen wir die Nullhypothese ab; Die Rangkorrelation zwischen den Ergebnissen der beiden Tests ist signifikant.

Beispiel. Bestimmen Sie anhand von Daten zum Umfang der selbst durchgeführten Bau- und Installationsarbeiten und zur Anzahl der Mitarbeiter in 10 Bauunternehmen in einer der Städte der Russischen Föderation den Zusammenhang zwischen diesen Merkmalen mithilfe des Kendel-Koeffizienten.

Lösung Finden Sie es mit einem Taschenrechner.
Lassen Sie uns dem Merkmal Y und dem Faktor X Ränge zuweisen.
Ordnen wir die Objekte so an, dass ihre Ränge in X die natürliche Reihe darstellen. Da die jedem Paar dieser Reihe zugeordneten Schätzungen positiv sind, werden die in P enthaltenen Werte „+1“ nur von den Paaren generiert, deren Ränge in Y eine direkte Reihenfolge bilden.
Sie können leicht berechnet werden, indem nacheinander die Ränge jedes Objekts in der Y-Reihe mit denen aus Stahl verglichen werden.
Kendal-Koeffizient.

Im allgemeinen Fall erweist sich die Berechnung von τ (genauer P oder Q) selbst für N in der Größenordnung von 10 als umständlich. Wir zeigen Ihnen, wie Sie die Berechnungen vereinfachen.

oder

Lösung.
Sortieren wir die Daten nach X.
In der Zeile Y rechts von 2 gibt es 8 Ränge größer als 2, daher erzeugt 2 den Term 8 in P.
Rechts von 4 stehen 6 Ränge größer als 4 (das sind 7, 5, 6, 8, 9, 10), d. h. P umfasst 6 usw. Als Ergebnis ist P = 29 und unter Verwendung der Formeln erhalten wir:

XYRang X, d xRang Y, d yPQ
38 292 1 2 8 1
50 302 2 4 6 2
52 366 3 7 3 4
54 312 4 5 4 2
59 359 5 6 3 2
61 398 6 8 2 2
66 401 7 9 1 2
70 298 8 3 1 1
71 283 9 1 1 0
73 413 10 10 0 0
29 16


Verwendung vereinfachter Formeln:


Um die Nullhypothese auf dem Signifikanzniveau α zu testen, dass der allgemeine Kendall-Rangkorrelationskoeffizient unter der konkurrierenden Hypothese H 1: τ ≠ 0 gleich Null ist, muss der kritische Punkt berechnet werden:

wobei n die Stichprobengröße ist; z kp ist der kritische Punkt des zweiseitigen kritischen Bereichs, der aus der Tabelle der Laplace-Funktion durch die Gleichung Ф(z kp)=(1 - α)/2 ermittelt wird.
Wenn |τ| T kp – die Nullhypothese wird abgelehnt. Es besteht eine signifikante Rangkorrelation zwischen qualitativen Merkmalen.
Finden wir den kritischen Punkt z kp
Ф(z kp) = (1 - α)/2 = (1 - 0,05)/2 = 0,475
Mithilfe der Laplace-Tabelle finden wir z kp = 1,96
Finden wir den kritischen Punkt:

Da τ
gastroguru 2017