Spiegazione della regola di sturghe, applicazioni ed esempi



il Regola Sturges è un criterio utilizzato per determinare il numero di classi o intervalli necessari per rappresentare graficamente un insieme di dati statistici. Questa regola fu enunciata nel 1926 dal matematico tedesco Herbert Sturges.

Sturges ha proposto un metodo semplice, basato sul numero di campioni x che consentirebbe di trovare il numero di classi e la loro ampiezza di intervallo. La regola di Sturges è ampiamente usata soprattutto nell'area delle statistiche, in particolare per costruire istogrammi di frequenza.

indice

  • 1 Spiegazione
  • 2 applicazioni
  • 3 Esempio
  • 4 riferimenti

spiegazione

La regola Sturges è un metodo empirico ampiamente utilizzato nelle statistiche descrittive per determinare il numero di classi che devono esistere in un istogramma di frequenza, al fine di classificare un insieme di dati che rappresentano un campione o una popolazione.

Fondamentalmente, questa regola determina la larghezza dei contenitori grafici, degli istogrammi di frequenza.

Per stabilire il suo dominio, Herbert Sturges considera un diagramma di frequenza ideale, che consiste di intervalli K, in cui l'intervallo ith contiene un certo numero di campioni (i = 0, ... k - 1), rappresentati come:

Quel numero di campioni è dato dal numero di modi in cui un sottoinsieme di un insieme può essere estratto; cioè, dal coefficiente binomiale, espresso come segue:

Quindi, Sturges ha riferito che l'istogramma di frequenza si avvicinerà a una distribuzione normale quando il numero di intervalli (k) aumenta in base al teorema del limite centrale. In tal modo è possibile calcolare il numero di campioni di ciascuno degli intervalli:

Per semplificare l'espressione, ha applicato le proprietà dei logaritmi in entrambe le parti dell'equazione:

Quindi, Sturges ha stabilito che il numero ottimale di intervalli k è dato dall'espressione:

Può anche essere espresso come:

In questa espressione:

- k è il numero di classi.

- N è il numero totale di osservazioni nel campione.

- Log è il logaritmo di base 10 comune.

Ad esempio, per produrre un istogramma di frequenza che esprima un campione casuale dell'altezza di 142 bambini, il numero di intervalli o classi che avrà la distribuzione è:

k = 1 + 3,322 * ceppo10 (N)

k = 1 + 3,322* log (142)

k = 1 + 3,322* 2,1523

k = 8,14 ≈ 8

Pertanto, la distribuzione sarà in 8 intervalli.

Il numero di intervalli dovrebbe sempre essere rappresentato da numeri interi. Nei casi in cui il valore è decimale, un'approssimazione deve essere fatta al numero intero più vicino.

applicazioni

La regola di Sturges è applicata principalmente nelle statistiche, poiché consente di eseguire una distribuzione di frequenza attraverso il calcolo del numero di classi (k), nonché della lunghezza di ciascuna di esse, nota anche come ampiezza.

L'ampiezza è la differenza del limite superiore e inferiore della classe, divisa per il numero di classi, ed è espressa:

Esistono molte regole empiriche che consentono una distribuzione di frequenza. Tuttavia, la regola Sturges è comunemente usata perché approssima il numero di classi, che generalmente varia da 5 a 15.

In questo modo, considera un valore che rappresenti adeguatamente un campione o una popolazione; cioè, l'approssimazione non rappresenta raggruppamenti estremi, né funziona con un numero eccessivo di classi che non consentono di riepilogare il campione.

esempio

È necessario eseguire un istogramma di frequenza in base ai dati forniti, che corrispondono alle età ottenute in un sondaggio di uomini che fanno esercizi in una palestra locale.

Per determinare gli intervalli è necessario sapere qual è la dimensione del campione o il numero di osservazioni; in questo caso, hai 30.

Quindi si applica la regola di Sturges:

k = 1 + 3,322 * ceppo10 (N)

k = 1 + 3,322* log (30)

k = 1 + 3,322* 1,4771

k = 5,90 ≈ 6 intervalli.

Dal numero di intervalli, è possibile calcolare l'ampiezza che questi avranno; cioè, la larghezza di ciascuna barra rappresentata nell'istogramma di frequenza:

Il limite inferiore è considerato il valore più basso dei dati e il limite superiore è il valore più alto. La differenza tra il limite superiore e quello inferiore è chiamata intervallo o percorso della variabile (R).

Dalla tabella abbiamo che il limite superiore è 46 e il limite inferiore 13; in questo modo, l'ampiezza di ogni classe sarà:

Gli intervalli saranno composti da un limite superiore e inferiore. Per determinare questi intervalli, iniziare a contare dal limite inferiore, sommando ad esso l'ampiezza determinata dalla regola (6), come segue:

Quindi la frequenza assoluta viene calcolata per determinare il numero di uomini corrispondente a ciascun intervallo; in questo caso è:

- Intervallo 1: 13 - 18 = 9

- Intervallo 2: 19 - 24 = 9

- Intervallo 3: 25 - 30 = 5

- Intervallo 4: 31 - 36 = 2

- Intervallo 5: 37 - 42 = 2

- Intervallo 6: 43 - 48 = 3

Quando si aggiunge la frequenza assoluta di ogni classe, deve essere uguale al numero totale del campione; in questo caso, 30.

Successivamente, viene calcolata la frequenza relativa di ciascun intervallo, dividendo la frequenza assoluta di questo intervallo per il numero totale di osservazioni:

- Intervallo 1: fi = 9 ÷ 30 = 0,30

- Intervallo 2: fi = 9 ÷ 30 = 0,30

- Intervallo 3: fi = 5 ÷ 30 = 0,1666

- Intervallo 4: fi = 2 ÷ 30 = 0,0666

- Intervallo 5: fi = 2 ÷ 30 = 0,0666

- Intervallo 4: fi = 3 ÷ 30 = 0,10

Quindi puoi creare una tabella che rifletta i dati e anche il diagramma dalla frequenza relativa in relazione agli intervalli ottenuti, come si può vedere nelle seguenti immagini:

In questo modo, la regola Sturges consente di determinare il numero di classi o intervalli in cui un campione può essere diviso, al fine di riassumere un campione di dati attraverso la preparazione di tabelle e grafici.

riferimenti

  1. Alfonso Urquía, M. V. (2013). Modellazione e simulazione di eventi discreti. UNED,.
  2. Altman Naomi, M. K. (2015). "Regressione lineare semplice." Metodi naturali.
  3. Antúnez, R. J. (2014). Statistiche in materia di istruzione. UNID digitale.
  4. Fox, J. (1997.). Analisi di regressione applicata, modelli lineari e metodi correlati. Pubblicazioni SAGE.
  5. Humberto Llinás Solano, C. R. (2005). Statistiche descrittive e distribuzioni di probabilità. Università del Nord.
  6. Panteleeva, O. V. (2005). Fondamenti di probabilità e statistiche.
  7. O. Kuehl, M. O. (2001). Progettazione di esperimenti: Principi statistici di progettazione e analisi della ricerca. Thomson Publishers.