Studierende und Schüler – Unterstützung im Studium. Daten gruppieren und eine Verteilungsreihe erstellen

Was eine Gruppierung statistischer Daten ist und in welcher Beziehung sie zu Verteilungsreihen steht, wurde in dieser Vorlesung besprochen. Dort erfahren Sie auch, was eine diskrete und Variationsverteilungsreihe ist.

Verteilungsreihen sind eine der Varianten statistischer Reihen (neben ihnen werden in der Statistik Dynamikreihen verwendet), sie dienen der Analyse von Daten zu Phänomenen des gesellschaftlichen Lebens. Das Erstellen von Variationsreihen ist für jedermann eine durchaus machbare Aufgabe. Es gibt jedoch Regeln, die beachtet werden müssen.

So erstellen Sie eine diskrete Variationsverteilungsreihe

Beispiel 1. Es liegen Daten zur Anzahl der Kinder in 20 befragten Familien vor. Konstruieren Sie eine diskrete Variationsreihe Familienverteilung nach Anzahl der Kinder.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

Lösung:

  1. Beginnen wir mit einem Tabellenlayout, in das wir dann Daten eingeben. Da die Verteilungszeilen aus zwei Elementen bestehen, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer eine Option – was wir studieren – wir nehmen ihren Namen von der Aufgabe (das Ende des Satzes mit der Aufgabe in den Bedingungen) – nach Anzahl der Kinder– Das heißt, unsere Option ist die Anzahl der Kinder.

Die zweite Spalte ist die Häufigkeit – wie oft unsere Variante im untersuchten Phänomen vorkommt – wir übernehmen auch den Namen der Spalte aus der Aufgabe – Familienverteilung – Das heißt, unsere Häufigkeit entspricht der Anzahl der Familien mit der entsprechenden Anzahl Kinder.

  1. Aus den Quelldaten wählen wir nun diejenigen Werte aus, die mindestens einmal vorkommen. In unserem Fall ist es so

Und ordnen wir diese Daten in der ersten Spalte unserer Tabelle in logischer Reihenfolge an, in diesem Fall aufsteigend von 0 auf 4. Wir erhalten

Und schließlich zählen wir, wie oft jeder Wert der Variante vorkommt.

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

Als Ergebnis erhalten wir eine vollständige Tabelle bzw. die erforderliche Zeile zur Verteilung der Familien nach Anzahl der Kinder.

Übung . Es liegen Daten zu den Tarifkategorien von 30 Arbeitnehmern des Unternehmens vor. Konstruieren Sie eine diskrete Variationsreihe für die Verteilung der Arbeitnehmer nach Tarifkategorien. 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

So erstellen Sie eine Intervallvariationsverteilungsreihe

Lassen Sie uns eine Intervallverteilungsreihe konstruieren und sehen, wie sich ihre Konstruktion von einer diskreten Reihe unterscheidet.

Beispiel 2. Es gibt Daten über die Höhe des Gewinns von 16 Unternehmen, Millionen Rubel. — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. Konstruieren Sie eine Intervallvariationsreihe der Verteilung der Unternehmen nach Gewinnvolumen und identifizieren Sie drei Gruppen mit gleichen Intervallen.

Das allgemeine Prinzip der Reihenkonstruktion bleibt natürlich die gleichen zwei Spalten, die gleichen Optionen und die gleiche Häufigkeit, aber in diesem Fall liegen die Optionen im Intervall und die Häufigkeiten werden unterschiedlich gezählt.

Lösung:

  1. Beginnen wir ähnlich wie bei der vorherigen Aufgabe mit dem Aufbau eines Tabellenlayouts, in das wir dann Daten eingeben. Da die Verteilungszeilen aus zwei Elementen bestehen, besteht die Tabelle aus zwei Spalten. Die erste Spalte ist immer eine Option – was wir studieren – wir nehmen ihren Namen von der Aufgabe (das Ende des Satzes mit der Aufgabe in den Bedingungen) – nach der Höhe des Gewinns – was bedeutet, dass unsere Option die Höhe des erhaltenen Gewinns ist .

Die zweite Spalte ist die Häufigkeit – wie oft unsere Variante im untersuchten Phänomen vorkommt – den Namen der Spalte übernehmen wir auch von der Aufgabe – der Verteilung der Unternehmen – was bedeutet, dass unsere Häufigkeit die Anzahl der Unternehmen mit dem entsprechenden Gewinn ist, in dieser Fall fällt in das Intervall.

Als Ergebnis sieht unser Tabellenlayout folgendermaßen aus:

wobei i der Wert oder die Länge des Intervalls ist,

Xmax und Xmin – Maximal- und Minimalwert des Attributs,

n ist die erforderliche Anzahl von Gruppen entsprechend den Bedingungen des Problems.

Berechnen wir die Größe des Intervalls für unser Beispiel. Dazu finden wir unter den Ausgangsdaten die größten und kleinsten

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – Höchstwert 118 Millionen Rubel und Mindestwert 9 Millionen Rubel. Führen wir die Berechnung anhand der Formel durch.

In der Berechnung haben wir die Zahl 36, (3) drei in der Periode erhalten, in solchen Situationen muss der Wert des Intervalls aufgerundet werden, damit nach den Berechnungen die maximalen Daten nicht verloren gehen, weshalb in der Berechnung der Wert von das Intervall beträgt 36,4 Millionen Rubel.

  1. Lassen Sie uns nun Intervalle konstruieren – unsere Optionen in diesem Problem. Der Aufbau des ersten Intervalls beginnt ab dem Minimalwert, der Wert des Intervalls wird dazu addiert und man erhält die Obergrenze des ersten Intervalls. Dann wird die Obergrenze des ersten Intervalls zur Untergrenze des zweiten Intervalls, der Wert des Intervalls wird dazu addiert und man erhält das zweite Intervall. Und so weiter, so oft wie nötig, um Intervalle entsprechend der Bedingung zu konstruieren.

Passen wir auf: Hätten wir den Wert des Intervalls nicht auf 36,4 gerundet, sondern bei 36,3 belassen, dann wäre der letzte Wert 117,9 gewesen. Um Datenverluste zu vermeiden, ist es erforderlich, den Intervallwert auf einen größeren Wert zu runden.

  1. Zählen wir die Anzahl der Unternehmen, die in jedes bestimmte Intervall fallen. Bei der Verarbeitung von Daten müssen Sie bedenken, dass der obere Wert des Intervalls in einem bestimmten Intervall nicht berücksichtigt wird (nicht in diesem Intervall enthalten ist), aber im nächsten Intervall berücksichtigt wird (die untere Grenze des Intervalls ist enthalten). in diesem Intervall, und das obere ist nicht enthalten), mit Ausnahme des letzten Intervalls.

Bei der Datenverarbeitung ist es am besten, die ausgewählten Daten durch Symbole oder Farben zu kennzeichnen, um die Verarbeitung zu vereinfachen.

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

Markieren wir das erste Intervall in Gelb – und bestimmen wir, wie viele Daten in das Intervall von 9 bis 45,4 fallen, während diese 45,4 im zweiten Intervall berücksichtigt werden (sofern es in den Daten enthalten ist) – als Ergebnis erhalten wir 7 Unternehmen im ersten Abschnitt. Und so weiter in allen Intervallen.

  1. (zusätzliche Aktion) Berechnen wir den Gesamtgewinn, den die Unternehmen für jedes Intervall und im Allgemeinen erzielen. Addieren Sie dazu die in verschiedenen Farben markierten Daten und erhalten Sie den Gesamtgewinnwert.

Für das erste Intervall - 23 + 12 + 9 + 16 + 22 + 27 + 45 = 154 Millionen Rubel.

Für das zweite Intervall - 48 + 57 + 48 + 56 + 63 = 272 Millionen Rubel.

Für das dritte Intervall - 118 + 87 + 98 + 88 = 391 Millionen Rubel.

Übung . Es gibt Daten über die Höhe der Einlagen bei der Bank von 30 Einlegern, tausend Rubel. 150, 120, 300, 650, 1500, 900, 450, 500, 380, 440,

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

Bauen Intervallvariationsreihe Verteilung der Einleger entsprechend der Größe der Einlage, wobei 4 Gruppen mit gleichen Abständen unterschieden werden. Berechnen Sie für jede Gruppe den Gesamtbetrag der Einzahlungen.

Der einfachste Weg, statistisches Material zusammenzufassen, ist die Erstellung von Reihen. Das Ergebnis einer statistischen Studienzusammenfassung kann eine Verteilungsreihe sein. Eine Verteilungsreihe in der Statistik ist eine geordnete Verteilung von Bevölkerungseinheiten in Gruppen nach einem beliebigen Merkmal: qualitativ oder quantitativ. Wenn eine Reihe auf qualitativer Basis aufgebaut ist, wird sie als attributiv bezeichnet, und wenn sie quantitativ ist, wird sie als Variation bezeichnet.

Eine Variationsreihe ist durch zwei Elemente gekennzeichnet: Variante (X) und Häufigkeit (f). Eine Variante ist ein separater Wert eines Merkmals einer einzelnen Einheit oder Gruppe einer Population. Die Zahl, die angibt, wie oft ein bestimmter Wert eines Merkmals auftritt, wird als Häufigkeit bezeichnet. Wenn die Häufigkeit als relative Zahl ausgedrückt wird, wird sie als Häufigkeit bezeichnet. Eine Variationsreihe kann intervallartig sein, wenn die Grenzen „von“ und „bis“ definiert sind, oder sie kann diskret sein, wenn das untersuchte Merkmal durch eine bestimmte Zahl gekennzeichnet ist.

Schauen wir uns die Konstruktion von Variationsreihen anhand von Beispielen an.

Beispiel. und es gibt Daten über die Tarifkategorien von 60 Arbeitern in einer der Werkstätten des Werks.

Verteilen Sie die Arbeitnehmer nach Tarifkategorien und erstellen Sie eine Variationsreihe.

Dazu notieren wir alle Werte des Merkmals in aufsteigender Reihenfolge und zählen die Anzahl der Arbeiter in jeder Gruppe.

Tabelle 1.4

Verteilung der Arbeitnehmer nach Kategorie

Arbeiterrang (X)

Anzahl der Arbeiter

Person (w)

in % der Gesamtsumme (insbesondere)

Wir haben eine diskrete Variationsreihe erhalten, in der das untersuchte Merkmal (der Rang des Arbeiters) durch eine bestimmte Zahl dargestellt wird. Aus Gründen der Übersichtlichkeit werden Variationsreihen grafisch dargestellt. Basierend auf dieser Verteilerreihe wurde eine Verteilerfläche konstruiert.

Reis. 1.1. Polygon zur Verteilung der Arbeitnehmer nach Tarifkategorien

Wir betrachten die Konstruktion einer Intervallreihe mit gleichen Intervallen anhand des folgenden Beispiels.

Beispiel. Es sind Daten über den Wert des Anlagekapitals von 50 Unternehmen in Millionen Rubel bekannt. Es ist erforderlich, die Verteilung der Unternehmen nach Anlagekosten darzustellen.

Um die Verteilung der Unternehmen nach Anlagekosten aufzuzeigen, lösen wir zunächst die Frage nach der Anzahl der Gruppen, die wir hervorheben möchten. Angenommen, wir haben beschlossen, fünf Unternehmensgruppen zu identifizieren. Dann bestimmen wir die Größe des Intervalls in der Gruppe. Dazu verwenden wir die Formel

Nach unserem Beispiel.

Indem wir den Wert des Intervalls zum Mindestwert des Attributs addieren, erhalten wir Gruppen von Unternehmen nach Anlagekosten.

Eine Einheit mit einem doppelten Wert gehört zu der Gruppe, in der sie als Obergrenze fungiert (d. h. der Wert des Attributs 17 geht an die erste Gruppe, 24 an die zweite usw.).

Zählen wir die Anzahl der Fabriken in jeder Gruppe.

Tabelle 1.5

Verteilung der Unternehmen nach Wert des Anlagekapitals (Millionen Rubel)

Kosten des Anlagekapitals
in Millionen Rubel (X)

Anzahl der Firmen
(Frequenz) (f)

Akkumulierte Frequenzen
(kumulativ)

Gemäß dieser Verteilung wurde eine Variationsintervallreihe erhalten, aus der hervorgeht, dass 36 Unternehmen über ein Anlagekapital im Wert von 10 bis 24 Millionen Rubel verfügen. usw.

Intervallverteilungsreihen können grafisch in Form eines Histogramms dargestellt werden.

Die Ergebnisse der Datenverarbeitung werden in dargestellt statistische Tabellen. Statistische Tabellen enthalten ein eigenes Subjekt und Prädikat.

Das Subjekt ist die Gesamtheit oder ein Teil der Gesamtheit, die charakterisiert wird.

Prädikate sind Indikatoren, die das Subjekt charakterisieren.

Es werden Tabellen unterschieden: einfache und Gruppentabellen, kombinatorische Tabellen mit einfacher und komplexer Entwicklung des Prädikats.

Eine einfache Tabelle im Betreff enthält eine Liste der einzelnen Einheiten.

Wenn das Subjekt eine Gruppierung von Einheiten enthält, wird eine solche Tabelle als Gruppentabelle bezeichnet. Beispielsweise eine Gruppe von Unternehmen nach Anzahl der Arbeitnehmer, Bevölkerungsgruppen nach Geschlecht.

Der Betreff der Kombinationstabelle enthält eine Gruppierung nach zwei oder mehr Merkmalen. Beispielsweise wird die Bevölkerung nach Geschlecht in Gruppen nach Bildung, Alter usw. eingeteilt.

Kombinationstabellen enthalten Informationen, die es ermöglichen, die Beziehung einer Reihe von Indikatoren und das Muster ihrer räumlichen und zeitlichen Änderungen zu identifizieren und zu charakterisieren. Um die Tabelle bei der Entwicklung ihres Themas übersichtlicher zu gestalten, beschränken Sie sich auf zwei oder drei Merkmale und bilden für jedes davon eine begrenzte Anzahl von Gruppen.

Das Prädikat in Tabellen kann auf unterschiedliche Weise entwickelt werden. Bei einer einfachen Entwicklung des Prädikats sind alle seine Indikatoren unabhängig voneinander lokalisiert.

Bei der komplexen Entwicklung des Prädikats werden die Indikatoren miteinander kombiniert.

Bei der Erstellung einer Tabelle muss man von den Zielen der Studie und dem Inhalt des verarbeiteten Materials ausgehen.

In der Statistik kommen neben Tabellen auch Grafiken und Diagramme zum Einsatz. Diagramm – statistische Daten werden anhand geometrischer Formen dargestellt. Diagramme sind in lineare Diagramme und Balkendiagramme unterteilt, es können jedoch auch Figurendiagramme (Zeichnungen und Symbole) und Kreisdiagramme (ein Kreis wird als Größe der gesamten Bevölkerung angenommen und die Flächen einzelner Sektoren zeigen deren spezifisches Gewicht oder Verhältnis) angezeigt werden Komponenten), Radialdiagramme (auf der Grundlage von Polarkoordinaten erstellt). Ein Kartogramm ist eine Kombination aus einer Übersichtskarte oder einem Lageplan mit einem Diagramm.

Bei der Verarbeitung großer Informationsmengen, was bei der Durchführung moderner wissenschaftlicher Entwicklungen besonders wichtig ist, steht der Forscher vor der großen Aufgabe, die Quelldaten richtig zu gruppieren. Wenn die Daten diskreter Natur sind, treten, wie wir gesehen haben, keine Probleme auf – Sie müssen lediglich die Häufigkeit jedes Merkmals berechnen. Wenn das untersuchte Merkmal vorhanden ist kontinuierlich Wenn Sie mehrere Zeichen verwenden (was in der Praxis häufiger vorkommt), ist die Auswahl der optimalen Anzahl an Merkmalsgruppierungsintervallen keineswegs eine triviale Aufgabe.

Um kontinuierliche Zufallsvariablen zu gruppieren, wird der gesamte Variationsbereich des Merkmals in eine bestimmte Anzahl von Intervallen unterteilt Zu.

Gruppiertes Intervall (kontinuierlich) Variationsreihe werden Intervalle genannt, die nach dem Wert des Attributs () geordnet sind, wobei die Anzahl der Beobachtungen, die in das i-te Intervall fallen, oder relative Häufigkeiten (), zusammen mit den entsprechenden Häufigkeiten () angegeben werden:

Charakteristische Werteintervalle

mi Frequenz

Histogramm Und kumulieren (ogiva), Die von uns bereits ausführlich besprochenen Methoden sind ein hervorragendes Mittel zur Datenvisualisierung, mit dem Sie sich einen ersten Überblick über die Struktur der Daten verschaffen können. Solche Diagramme (Abb. 1.15) werden für kontinuierliche Daten auf die gleiche Weise erstellt wie für diskrete Daten, wobei nur die Tatsache berücksichtigt wird, dass kontinuierliche Daten den Bereich ihrer möglichen Werte vollständig ausfüllen und beliebige Werte annehmen.

Reis. 1.15.

Deshalb Die Spalten im Histogramm und im Kumulat müssen sich berühren und dürfen keine Bereiche aufweisen, in denen die Attributwerte nicht in alle möglichen Bereiche fallen(d. h. das Histogramm und die Kumulate sollten entlang der Abszissenachse keine „Löcher“ aufweisen, die nicht die Werte der untersuchten Variablen enthalten, wie in Abb. 1.16). Die Höhe des Balkens entspricht der Häufigkeit – der Anzahl der Beobachtungen, die in ein bestimmtes Intervall fallen, oder der relativen Häufigkeit – dem Anteil der Beobachtungen. Intervalle dürfen sich nicht überschneiden und sind in der Regel gleich breit.

Reis. 1.16.

Das Histogramm und das Polygon sind Näherungen der Wahrscheinlichkeitsdichtekurve (Differentialfunktion). f(x) theoretische Verteilung, betrachtet im Rahmen der Wahrscheinlichkeitstheorie. Daher ist ihre Konstruktion bei der primären statistischen Verarbeitung quantitativer kontinuierlicher Daten so wichtig – anhand ihres Aussehens kann man das hypothetische Verteilungsgesetz beurteilen.

Kumulieren – eine Kurve akkumulierter Häufigkeiten (Frequenzen) einer Intervallvariationsreihe. Der Graph der kumulativen Verteilungsfunktion wird mit dem Kumulat verglichen F(x), wird auch im Kurs Wahrscheinlichkeitstheorie besprochen.

Grundsätzlich sind die Konzepte Histogramm und Kumulieren speziell mit kontinuierlichen Daten und ihren Intervallvariationsreihen verbunden, da ihre Diagramme empirische Schätzungen der Wbzw. der Verteilungsfunktion sind.

Die Konstruktion einer Intervallvariationsreihe beginnt mit der Bestimmung der Anzahl der Intervalle k. Und diese Aufgabe ist vielleicht die schwierigste, wichtigste und umstrittenste in der untersuchten Frage.

Die Anzahl der Intervalle sollte nicht zu klein sein, da das Histogramm sonst zu glatt wird ( überglättet), verliert alle Merkmale der Variabilität der Originaldaten – in Abb. 1.17 können Sie sehen, wie die gleichen Daten wie die Diagramme in Abb. 1.15, wird verwendet, um ein Histogramm mit einer kleineren Anzahl von Intervallen zu erstellen (linkes Diagramm).

Gleichzeitig sollte die Anzahl der Intervalle nicht zu groß sein, da wir sonst die Verteilungsdichte der untersuchten Daten entlang der numerischen Achse nicht abschätzen können: Das Histogramm wird zu wenig geglättet (untergeglättet), mit leeren Intervallen, ungleichmäßig (siehe Abb. 1.17, rechte Grafik).

Reis. 1.17.

Wie ermittelt man die günstigste Anzahl an Intervallen?

Bereits 1926 schlug Herbert Sturges eine Formel zur Berechnung der Anzahl der Intervalle vor, in die der ursprüngliche Wertesatz des untersuchten Merkmals unterteilt werden muss. Diese Formel erfreut sich wirklich großer Beliebtheit – die meisten Statistiklehrbücher bieten sie an und viele Statistikprogramme verwenden sie standardmäßig. Wie berechtigt das ist und in allen Fällen, ist eine sehr ernste Frage.

Worauf basiert die Sturges-Formel?

Betrachten Sie die Binomialverteilung, deren Obergrenze die letzte Zahl der Rangfolge einschließt.

Wir erstellen eine Intervallreihe (Tabelle 2.3).

Intervallreihe der Unternehmensverteilung und die durchschnittliche Anzahl der Manager in einer der Regionen der Russischen Föderation im ersten Quartal des Berichtsjahres

Abschluss. Die größte Firmengruppe ist die Gruppe mit einer durchschnittlichen Anzahl von Führungskräften von 25–30 Personen, darunter 8 Firmen (27 %); Die kleinste Gruppe mit einer durchschnittlichen Anzahl von Führungskräften von 40-45 Personen umfasst nur ein Unternehmen (3 %).

Verwendung der Quelldaten aus der Tabelle. 2.1 sowie eine Intervallreihe der Verteilung der Unternehmen nach Anzahl der Manager (Tabelle 2.3), erforderlich Erstellen Sie eine analytische Gruppierung des Zusammenhangs zwischen der Anzahl der Führungskräfte und dem Umsatzvolumen von Unternehmen und ziehen Sie darauf basierend eine Schlussfolgerung über das Vorhandensein (oder Fehlen) eines Zusammenhangs zwischen diesen Merkmalen.

Lösung:

Die analytische Gruppierung basiert auf Faktormerkmalen. In unserem Problem ist das Faktormerkmal (x) die Anzahl der Manager und das resultierende Merkmal (y) das Verkaufsvolumen (Tabelle 2.4).

Lasst uns jetzt bauen analytische Gruppierung(Tabelle 2.5).

Abschluss. Basierend auf den Daten der erstellten analytischen Gruppierung können wir sagen, dass mit einer Erhöhung der Anzahl der Vertriebsleiter auch das durchschnittliche Umsatzvolumen des Unternehmens in der Gruppe steigt, was auf das Vorhandensein eines direkten Zusammenhangs zwischen diesen Merkmalen hinweist.

Tabelle 2.4

Hilfstabelle zum Aufbau einer analytischen Gruppierung

Anzahl der Manager, Personen,

Firmennummer

Verkaufsvolumen, Millionen Rubel, y

" = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

bei = ’ =10,31 30

Tabelle 2.5

Abhängigkeit des Umsatzvolumens von der Anzahl der Unternehmensleiter in einer der Regionen der Russischen Föderation im ersten Quartal des Berichtsjahres

TESTFRAGEN
  • 1. Was ist das Wesen der statistischen Beobachtung?
  • 2. Benennen Sie die Phasen der statistischen Beobachtung.
  • 3. Welche Organisationsformen gibt es für die statistische Beobachtung?
  • 4. Nennen Sie die Arten der statistischen Beobachtung.
  • 5. Was ist eine statistische Zusammenfassung?
  • 6. Benennen Sie die Arten von statistischen Berichten.
  • 7. Was ist statistische Gruppierung?
  • 8. Benennen Sie die Arten statistischer Gruppierungen.
  • 9. Was ist eine Vertriebsreihe?
  • 10. Benennen Sie die Strukturelemente der Verteilungszeile.
  • 11. Wie wird eine Verteilungsreihe erstellt?