Premesse, metodi e usi di regressione lineare multipla
il regressione lineare multipla è uno strumento di calcolo che indaga le relazioni causa-effetto degli oggetti di studio e testa ipotesi complesse.
È usato in matematica e statistica. Questo tipo di regressione lineare richiede variabili dipendenti (in altre parole, i risultati) e variabili indipendenti (cioè le cause) che seguono un ordine gerarchico, oltre ad altri fattori inerenti a diverse aree di studio.
Di solito, la regressione lineare è quella che è rappresentata da una funzione lineare calcolata da due variabili dipendenti. Questo ha come il suo caso più importante quello in cui il fenomeno studiato ha una linea retta di regressione.
In un dato insieme di dati (x1, y1) (xn, yn) e di valori che corrispondono a una coppia di variabili casuali in correlazione diretta tra loro, la linea di regressione può assumere, per iniziare, la forma di un'equazione, come y = a · x + b.
Premesse teoriche di calcolo nella regressione lineare multipla
Qualsiasi calcolo basato su regressione lineare multipla dipenderà molto dall'oggetto studiato e dall'area di studio, ad esempio dall'economia, poiché le variabili fanno sì che le formule utilizzate abbiano complessità che variano a seconda del caso.
Ciò significa che più la domanda è complessa, più fattori devono essere presi in considerazione, maggiore è il numero di dati da raccogliere e quindi maggiore è il volume di elementi da includere nel calcolo, che renderà la formula più ampia.
Tuttavia, la cosa comune in tutte queste formule è che esiste un asse verticale (quello delle ordinate o asse Y) e un asse orizzontale (quello delle ascisse, o asse X) che dopo essere state calcolate sono rappresentate graficamente per mezzo di un sistema cartesiano.
Da lì sono fatte le interpretazioni dei dati (vedi la prossima sezione) e le conclusioni o le previsioni sono fatte. In qualsiasi circostanza, è possibile utilizzare premesse pre-statistiche per pesare le variabili, come ad esempio:
1- Debole esogeneità
Significa che la variabile dovrebbe essere assunta con un valore fisso che difficilmente può prestarsi a cambiamenti nel suo modello a causa di cause esterne a se stesso.
2- Carattere lineare
Implica che i valori delle variabili, così come di altri parametri e coefficienti di previsione, devono essere mostrati come una combinazione lineare di elementi che possono essere rappresentati nel grafico, nel sistema cartesiano.
3- Homocedasticity
Questo deve essere costante. Qui si intende che, indistintamente delle variabili predittive, ci deve essere la stessa varianza degli errori per ogni diversa variabile di risposta.
4- Indipendenza
Questo si applica solo agli errori delle variabili di risposta, che devono essere mostrate in modo isolato e non come un gruppo di errori che rappresentano un modello definito.
5- Assenza di multicollinearità
È usato per variabili indipendenti. Succede quando cerchi di studiare qualcosa ma sono disponibili pochissime informazioni, quindi ci possono essere molte risposte e quindi i valori possono avere molte interpretazioni, che alla fine non risolvono il problema.
Ci sono altre premesse che vengono prese in considerazione, ma quelle presentate sopra chiariscono che la regressione lineare multipla richiede molte informazioni non solo per avere uno studio più rigoroso, completo e privo di pregiudizi, ma in modo che la soluzione alla domanda la proposta è concreta.
Vale a dire, deve andare al punto con qualcosa di molto specifico, specifico, che non si presta alla vaghezza e che, nella misura minore possibile, porta ad errori.
Si noti che la regressione lineare multipla non è infallibile e può essere soggetta a errori di calcolo e imprecisioni. Questo non è tanto dovuto alla persona che conduce lo studio, ma perché un particolare fenomeno della natura non è completamente prevedibile e non è necessariamente il prodotto di una determinata causa.
Accade spesso che qualsiasi oggetto possa cambiare improvvisamente o che un evento derivi dall'azione (o dall'inazione) di numerosi elementi che interagiscono tra loro.
Interpretazioni della grafica
Una volta che i dati sono stati calcolati in base ai modelli progettati nelle fasi precedenti dello studio, le formule produrranno valori che possono essere rappresentati in un grafico.
In questo ordine di idee, il sistema cartesiano mostrerà non pochi punti che corrisponderanno alle variabili calcolate. Alcuni saranno più nell'asse delle ordinate, mentre altri saranno più nell'asse delle ascisse. Alcuni saranno più raggruppati, mentre altri saranno più isolati.
Per notare la complessità implicita nell'interpretazione dei dati dei grafici, si può osservare, ad esempio, il quartetto Ascombe. In questo quartetto vengono gestiti quattro diversi set di dati e ognuno di essi si trova in un grafico separato che, pertanto, merita un'analisi separata.
La linearità rimane, ma i punti nel sistema cartesiano devono essere guardati con molta attenzione prima di sapere come i pezzi del puzzle si incontrano. Successivamente, è possibile elaborare le conclusioni pertinenti.
Naturalmente, ci sono diversi modi per far combaciare questi pezzi, anche se seguendo metodi diversi che sono descritti in manuali di calcolo specializzati.
La regressione lineare multipla, come già detto, dipende da molte variabili che dipendono dall'oggetto di studio e dal campo in cui viene applicata, così che le procedure in economia non sono le stesse della medicina o dell'informatica. In tutto, sì, viene fatta una stima, un'ipotesi che viene poi verificata alla fine.
Estensioni della regressione lineare multipla
Esistono diversi tipi di regressione lineare, come semplici e generali, ma esistono anche diverse sfaccettature di regressione multipla che si adattano a vari oggetti di studio e, quindi, ai bisogni della scienza.
Questi di solito gestiscono un gran numero di variabili, quindi puoi vedere spesso modelli come multivariato o multilivello. Ognuno usa postulati e formule di varia complessità, così che l'interpretazione dei loro risultati tende ad essere di maggiore importanza.
Metodi di stima
Esiste un'ampia gamma di procedure per stimare i dati ottenuti nella regressione lineare multipla.
Ancora una volta, tutto qui dipenderà dalla solidità del modello utilizzato, dalle formule di calcolo, dal numero di variabili, dai postulati teorici presi in considerazione, dall'area di studio, dagli algoritmi programmati in programmi informatici specializzati, e , per eccellenza, la complessità dell'oggetto, del fenomeno o dell'evento che viene analizzato.
Ogni metodo di stima utilizza formule completamente diverse. Nessuno è perfetto, ma ha virtù uniche che devono essere utilizzate secondo lo studio statistico effettuato.
Ce ne sono di tutti i tipi: variabili strumentali, minimi quadrati generalizzati, regressione lineare bayesiana, modelli misti, regolarizzazione di Tyjonov, regressione quantile, stimatore di Theil-Sen e una lunga lista di strumenti con i quali i dati possono essere studiati con maggiore precisione.
Usi pratici
La regressione lineare multipla viene utilizzata in vari campi di studio e in molti casi è necessaria l'assistenza di programmi informatici per ottenere dati più precisi.
In questo modo, i margini di errore che possono derivare dai calcoli manuali sono ridotti (data la presenza di molte variabili indipendenti e dipendenti, non sorprende che questo tipo di regressione lineare si presta a errori, poiché ci sono molti dati e fattori trasformati).
Nell'analisi delle tendenze del mercato, ad esempio, esaminiamo se alcuni dati come i prezzi di un prodotto sono aumentati e diminuiti, ma soprattutto quando e perché.
Il quando viene analizzato proprio quando ci sono variazioni importanti nei numeri in un determinato periodo di tempo, principalmente se le modifiche sono inaspettate. Perché cerchi i fattori precisi o probabili in base ai quali il prodotto è salito, sceso o mantenuto il prezzo al dettaglio?
Allo stesso modo, le scienze della salute (medicina, bioanalisi, farmacia, epidemiologia, tra le altre) traggono beneficio dalla regressione lineare multipla, attraverso la quale studiano indicatori di salute come il tasso di mortalità, la morbilità e il tasso di natalità.
In questi casi possiamo partire da uno studio che inizia con l'osservazione, anche se successivamente viene fatto un modello per determinare se la variazione di alcuni di detti indicatori è dovuta a qualche causa specifica, quando e perché.
Le finanze utilizzano anche una regressione lineare multipla per indagare i vantaggi e gli svantaggi del fare certi investimenti. Qui è sempre necessario sapere quando vengono effettuate le transazioni finanziarie, con chi e quali sono stati i benefici attesi.
I livelli di rischio saranno più alti o più bassi in base ai vari fattori che vengono presi in considerazione al momento di valutare la qualità di questi investimenti, considerando anche il volume degli scambi monetari.
Tuttavia, è nell'economia in cui questo strumento di calcolo è più utilizzato. Pertanto, in questa scienza la regressione lineare multipla viene utilizzata con l'obiettivo di prevedere le spese di consumo, le spese di investimento, gli acquisti, le esportazioni, le importazioni, le attività, la domanda di manodopera, le offerte di lavoro e molti altri elementi.
Tutti sono legati alla macroeconomia e alla microeconomia, essendo il primo in cui le variabili di analisi dei dati sono più abbondanti perché sono localizzate a livello globale.
riferimenti
- Baldor, Aurelio (1967). Geometria piana e spaziale, con introduzione alla trigonometria. Caracas: Editorial Cultura Venezolana, S.A.
- Ospedale universitario Ramón y Cajal (2017). Modello di regressione lineare multipla. Madrid, Spagna: HRC, Comunità di Madrid. Estratto da www.hrc.es.
- Pedhazur, Elazar J. (1982). Regressione multipla nella ricerca comportamentale: spiegazione e previsione, 2a edizione. New York: Holt, Rinehart e Winston.
- Rojo Abuín, J.M. (2007). Regressione lineare multipla Madrid, Spagna: Centro per le scienze umane e sociali. Recuperato da humanidades.cchs.csic.es.
- Università autonoma di Madrid (2008).Regressione lineare multipla Madrid, Spagna: UAM. Recuperato da web.uam.es.
- Università di A Coruña (2017). Modello di regressione lineare multipla; Correlazione. La Coruña, Spagna: UDC, Dipartimento di Matematica. Recuperato da dm.udc.es.
- Uriel, E. (2017). Regressione lineare multipla: stima e proprietà. Valencia, Spagna: Università di Valencia. Estratto da www.uv.es.
- Barrio Castro, Tomás del; Clar López, Miquel e Suriñach Caral, Jordi (2002). Modello di regressione lineare multipla: specifica, stima e contrasto. Catalogna: UOC Editorial.