Thursday, 1 March 2018

Análise de fator principal em stata forex


AVISO: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar a manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisas Digitais e Educação Ajude o Grupo de Consultoria Estatal, dando um presente Análise de Fator de Saída Anotada da Stata Esta página mostra um exemplo de análise fatorial com notas de rodapé explicando o resultado. Vamos fazer um eixo principal iterado (opção ipf) com SMC como comunalidades iniciais reter três fatores (opção fator (3)) seguido de rotações varimax e promax. Esses dados foram coletados em 1428 estudantes universitários (dados completos sobre 1365 observações) e são respostas a itens em uma pesquisa. Usaremos item13 através do item24 em nossa análise. uma. Eigenvalue: um autovalor é a variância do fator. Na solução do fator inicial, o primeiro fator representará a maior variação, o segundo representará a próxima maior variação, e assim por diante. Alguns dos autovalores são negativos porque a matriz não é de nível completo, ou seja, embora haja 12 variáveis, a dimensionalidade do espaço do fator é muito menor. Existem no máximo sete fatores possíveis. B. Diferença: Dá as diferenças entre o autovalor atual e o seguinte. C. Proporção: Dá a proporção de variância explicada pelo fator. D. Cumulativo: Dá a proporção acumulada de variância explicada por este fator mais todas as anteriores. E. Cargas de fator: as cargas de fatores para esta solução ortogonal representam tanto como as variáveis ​​são ponderadas para cada fator, mas também a correlação entre as variáveis ​​e o fator. F. Unicidade: Dá a proporção da variância comum da variável não associada aos fatores. A singularidade é igual a 1 - comunalidade. G. Cargas de fator girado: as cargas de fatores para a rotação ortogonal varimax representam tanto as variáveis ​​são ponderadas para cada fator como também a correlação entre as variáveis ​​e o fator. Uma rotação varimax tenta maximizar as cargas quadradas das colunas. H. Unicidade: os mesmos valores que em e. Acima porque ainda é uma solução de três fatores. A opção em branco exibe apenas o fator de carga maior do que um valor específico (digamos 0,3). Eu. Cargas de fator girado: as cargas de fatores para a rotação oblíqua promax representam como cada uma das variáveis ​​é ponderada para cada fator. Nota: estas não são correlações entre variáveis ​​e fatores. A rotação promax permite que os fatores sejam correlacionados na tentativa de melhor aproximar a estrutura simples. Eu. Unicidade: os mesmos valores que em e. E h. Acima porque ainda é uma solução de três fatores. O comando comum estat é um comando de correção temporária que exibe a correlação entre os fatores de uma rotação oblíqua. O conteúdo deste site não deve ser interpretado como um endosso de qualquer site, livro ou produto de software da Universidade da Califórnia. NOTICE: O grupo de consultoria estatística IDRE estará migrando o site para o WordPress CMS em fevereiro para facilitar Manutenção e criação de novos conteúdos. Algumas de nossas páginas antigas serão removidas ou arquivadas de modo que elas não serão mais mantidas. Vamos tentar manter os redirecionamentos para que os URLs antigos continuem a funcionar da melhor maneira possível. Bem-vindo ao Instituto de Pesquisa e Educação Digital Ajudar o Grupo de Consultoria Estatal, dando um presente Que análise estatística devo usar Análises estatísticas usando a informação da Versão Stata: O código desta página foi testado em Stata 12. Introdução Esta página mostra como realizar um número De testes estatísticos usando Stata. Cada seção fornece uma breve descrição do objetivo do teste estatístico, quando é usado, um exemplo que mostra os comandos Stata e a saída Stata com uma breve interpretação da saída. Você pode ver a página Escolhendo o teste estatístico correto para uma tabela que mostra uma visão geral de quando cada teste é apropriado para usar. Ao decidir qual teste é apropriado usar, é importante considerar o tipo de variáveis ​​que você possui (ou seja, se suas variáveis ​​são categóricas, ordinais ou de intervalo e se elas são normalmente distribuídas), veja Qual é a diferença entre categórico, ordinário e Variáveis ​​de intervalo para mais informações sobre isso. Sobre o arquivo de dados hsb A maioria dos exemplos nesta página usará um arquivo de dados chamado hsb2, high school e além. Este arquivo de dados contém 200 observações de uma amostra de estudantes do ensino médio com informações demográficas sobre os alunos, tais como seu gênero (feminino), status socioeconômico (ses) e origem étnica (raça). Ele também contém uma série de pontuações em testes padronizados, incluindo testes de leitura (leitura), escrita (escrita), matemática (matemática) e estudos sociais (socst). Você pode obter o arquivo de dados hsb2 dentro do Stata digitando: Uma amostra de teste t Uma prova de amostra de uma amostra nos permite testar se uma média de amostra (de uma variável de intervalo normalmente distribuída) difere significativamente de um valor de hipótese. Por exemplo, usando o arquivo de dados hsb2. Digamos que desejamos testar se o escore médio de escrita (escrever) difere significativamente de 50. Podemos fazer isso como mostrado abaixo. A média da variável escrever para esta amostra específica de estudantes é 52.775, que é estatisticamente significativamente diferente do valor de teste de 50. Concluímos que este grupo de alunos tem um meio significativamente maior no teste de escrita do que 50. Uma amostra de mediana Teste Um teste mediano de uma amostra nos permite testar se uma mediana de amostra difere significativamente de um valor de hipótese. Usaremos a mesma variável, escrevemos. Como fizemos no exemplo da amostra t-exemplo acima, mas não precisamos assumir que é intervalo e normalmente distribuído (precisamos apenas assumir que a escrita é uma variável ordinal e que sua distribuição é simétrica). Vamos testar se a pontuação mediana de escrita (escrita) difere significativamente de 50. Os resultados indicam que a mediana da variável escrever para este grupo é estatisticamente significativamente diferente de 50. Teste binomial Um teste binomial de uma amostra permite testar se a proporção Dos sucessos em uma variável dependente categórica de dois níveis difere significativamente de um valor hipotetizado. Por exemplo, usando o arquivo de dados hsb2. Digamos que desejamos testar se a proporção de fêmeas (fêmea) difere significativamente de 50, ou seja, de .5. Podemos fazer isso como mostrado abaixo. Os resultados indicam que não há diferença estatisticamente significativa (p. 2292). Em outras palavras, a proporção de fêmeas não é significativamente diferente do valor da hipótese de 50. Chi-quadrado de bondade de ajuste Um teste de ajuste de bondade do qui-quadrado nos permite testar se as proporções observadas para uma variável categórica diferem das proporções da hipótese. Por exemplo, vamos supor que acreditamos que a população em geral é composta por 10 indivíduos hispânicos, 10 asiáticos, 10 afro-americanos e 70 brancos. Queremos testar se as proporções observadas da nossa amostra diferem significativamente dessas proporções hipotetizadas. Para conduzir o teste chi-square goodness of fit, você precisa primeiro baixar o programa csgof que executa esse teste. Você pode baixar o csgof dentro do Stata, digitando findit csgof (veja Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Agora que o programa csgof está instalado, podemos usá-lo digitando: Esses resultados mostram que a composição racial em nossa amostra não difere significativamente dos valores de hipótese que fornecemos (qui-quadrado com três graus de liberdade 5.03, p. 1697) . Duas amostras independentes T-test Uma amostra de amostras independentes é usada quando você deseja comparar os meios de uma variável dependente de intervalo normalmente distribuída para dois grupos independentes. Por exemplo, usando o arquivo de dados hsb2. Digamos que desejamos testar se a média para escrever é a mesma para homens e mulheres. Os resultados indicam que há diferença estatisticamente significativa entre o escore médio de escrita para homens e mulheres (t -3.7341, p .0002). Em outras palavras, as fêmeas têm uma pontuação média estatisticamente significativamente maior na escrita (54,99) do que os machos (50,12). Teste de Wilcoxon-Mann-Whitney O teste de Wilcoxon-Mann-Whitney é um análogo não-paramétrico do teste de amostras independentes e pode ser usado quando você não assume que a variável dependente é uma variável de intervalo normalmente distribuída (você assume apenas que A variável é pelo menos ordinária). Você notará que a sintaxe de Stata para o teste de Wilcoxon-Mann-Whitney é quase idêntica à do teste t de amostras independentes. Usaremos o mesmo arquivo de dados (o arquivo de dados hsb2) e as mesmas variáveis ​​neste exemplo, como fizemos no exemplo independente de teste t acima e não assumiremos que escreva. Nossa variável dependente, normalmente é distribuída. Os resultados sugerem que existe uma diferença estatisticamente significante entre as distribuições subjacentes das pontuações escritas dos machos e as pontuações escritas de fêmeas (z -3.329, p 0.0009). Você pode determinar qual grupo tem o grau mais alto, observando a forma como as somas de classificação reais se comparam aos valores de classificação esperados sob a hipótese nula. A soma das classificações femininas foi maior, enquanto a soma das classificações masculinas foi menor. Assim, o grupo feminino apresentou maior classificação. Teste de qui-quadrado Um teste de qui-quadrado é usado quando você quer ver se há uma relação entre duas variáveis ​​categóricas. Em Stata, a opção chi2 é usada com o comando tabulate para obter a estatística de teste e seu p-valor associado. Usando o arquivo de dados hsb2. Vamos ver se existe uma relação entre o tipo de escola frequentada (schtyp) e o gênero dos estudantes (feminino). Lembre-se de que o teste do qui-quadrado assume que o valor esperado de cada célula é cinco ou superior. Esta suposição é facilmente encontrada nos exemplos abaixo. No entanto, se esta suposição não for cumprida em seus dados, consulte a seção sobre o teste exato de Fishers abaixo. Estes resultados indicam que não existe uma relação estatisticamente significativa entre o tipo de escola atendida e o gênero (qui-quadrado com um grau de liberdade 0,0470, p 0,828). Vamos ver outro exemplo, desta vez analisando a relação entre gênero (feminino) e status socioeconômico (ses). O ponto deste exemplo é que uma (ou ambas) variáveis ​​podem ter mais de dois níveis e que as variáveis ​​não precisam ter o mesmo número de níveis. Neste exemplo, a mulher tem dois níveis (masculino e feminino) e ses tem três níveis (baixo, médio e alto). Novamente, descobrimos que não existe uma relação estatisticamente significativa entre as variáveis ​​(qui-quadrado com dois graus de liberdade 4.5765, p0.101). Teste exato de Fishers O teste exato de Fishers é usado quando você quer realizar um teste de qui-quadrado, mas uma ou mais de suas células tem uma freqüência esperada de cinco ou menos. Lembre-se de que o teste do qui-quadrado assume que cada célula tem uma freqüência esperada de cinco ou mais, mas o teste exato de Fishers não tem tal suposição e pode ser usado independentemente de quão pequena seja a freqüência esperada. No exemplo abaixo, temos células com frequências observadas de dois e um, o que pode indicar frequências esperadas que podem ser inferiores a cinco, então usaremos o teste exato de Fishers com a opção exata no comando tabular. Estes resultados sugerem que não existe uma relação estatisticamente significativa entre raça e tipo de escola (p 0,597). Note-se que o teste exato de Fishers não possui uma estatística quotest, mas calcula o valor p diretamente. ANOVA de sentido único Uma análise de variância unidirecional (ANOVA) é usada quando você possui uma variável independente categórica (com duas ou mais categorias) e uma variável dependente de intervalo normalmente distribuída e você deseja testar as diferenças nos meios do dependente Variável discriminada pelos níveis da variável independente. Por exemplo, usando o arquivo de dados hsb2. Digamos que desejamos testar se a média de escrita difere entre os três tipos de programa (prog). O comando para este teste seria: A média da variável dependente difere significativamente entre os níveis de tipo de programa. No entanto, não sabemos se a diferença está entre apenas dois dos níveis ou os três níveis. (O teste F para o Modelo é o mesmo que o teste F para pro porque o prog foi a única variável inserida no modelo. Se outras variáveis ​​também tivessem sido inseridas, o teste F para o Modelo teria sido diferente do prog.) Para Veja a média de escrita para cada nível de tipo de programa, você pode usar o comando tabular com a opção de resumo, conforme ilustrado abaixo. A partir disso, podemos ver que os alunos do programa acadêmico têm o maior escore médio de escrita, enquanto os alunos no programa vocacional têm o menor. Teste de Kruskal Wallis O teste de Kruskal Wallis é usado quando você possui uma variável independente com dois ou mais níveis e uma variável dependente ordinal. Em outras palavras, é a versão não-paramétrica da ANOVA e uma forma generalizada do método de teste de Mann-Whitney, uma vez que permite dois ou mais grupos. Usaremos o mesmo arquivo de dados que o exemplo ANOVA de sentido único acima (o arquivo de dados hsb2) e as mesmas variáveis ​​do exemplo acima, mas não assumiremos que a gravação seja uma variável de intervalo normalmente distribuída. Se algumas pontuações recebem classificações vinculadas, então é usado um fator de correção, produzindo um valor ligeiramente diferente do qui-quadrado. Com ou sem laços, os resultados indicam que existe uma diferença estatisticamente significativa entre os três tipos de programas. Teste em t pareado Um teste t pareado (amostras) é usado quando você tem duas observações relacionadas (ou seja, duas observações por assunto) e quer ver se os meios nessas duas variáveis ​​de intervalo normalmente distribuídas diferem um do outro. Por exemplo, usando o arquivo de dados hsb2, testaremos se a média de leitura é igual à média de escrita. Estes resultados indicam que a média de leitura não é estatisticamente significativamente diferente da média de escrita (t -0.8673, p 0.3868). Wilcoxon assinou teste de soma de classificação O teste de soma de classificação assinado por Wilcoxon é a versão não paramétrica de um teste t de amostras pareadas. Você usa o teste de soma de rank assinado Wilcoxon quando você não deseja assumir que a diferença entre as duas variáveis ​​é intervalo e normalmente distribuído (mas você assume que a diferença é ordinária). Usaremos o mesmo exemplo acima, mas não assumiremos que a diferença entre leitura e escrita é intervalo e normalmente distribuído. Os resultados sugerem que não existe diferença estatisticamente significativa entre leitura e escrita. Se você acredita que as diferenças entre ler e escrever não eram ordinárias, mas poderiam simplesmente ser classificadas como positivas e negativas, então você pode querer considerar um teste de sinal em vez do teste de classificação de sinal. Novamente, usaremos as mesmas variáveis ​​neste exemplo e assumiremos que essa diferença não é ordinária. Esta saída fornece ambos os testes unilaterais, bem como o teste de dois lados. Supondo que estávamos procurando qualquer diferença, usaríamos o teste de dois lados e concluímos que não havia diferença estatisticamente significante (p.5565). Teste McNemar Você executaria o teste McNemars se você estivesse interessado nas frequências marginais de dois resultados binários. Esses resultados binários podem ser a mesma variável de resultado em pares pareados (como um estudo caso-controle) ou duas variáveis ​​de resultado de um único grupo. Por exemplo, consideremos duas questões, Q1 e Q2, a partir de um teste realizado por 200 alunos. Suponha que 172 alunos responderam as duas perguntas corretamente, 15 alunos responderam as duas perguntas incorretamente, 7 responderam Q1 corretamente e Q2 incorretamente, e 6 responderam Q2 corretamente e Q1 incorretamente. Essas contagens podem ser consideradas em uma tabela de contingência de duas vias. A hipótese nula é que as duas perguntas são respondidas corretamente ou incorretamente na mesma taxa (ou que a tabela de contingência é simétrica). Podemos inserir essas contagens em Stata usando mcci. Um comando das tabelas de epidemiologia Statas. O resultado é rotulado de acordo com as convenções de estudo caso-controle. A estatística do qui-quadrado de McNemars sugere que não há diferença estatisticamente significante nas proporções de respostas corretas corretas para essas duas questões. ANUAIS repetidas de sentido único ANOVA Você executaria uma análise de variância de medidas repetidas de sentido único se você tivesse uma variável independente categórica e uma variável dependente de intervalo normalmente distribuída que fosse repetida pelo menos duas vezes por cada assunto. Este é o equivalente ao teste t das amostras pareadas, mas permite dois ou mais níveis da variável categórica. Isso testa se a média da variável dependente difere pela variável categórica. Temos um exemplo de conjunto de dados chamado rb4. Que é usado em Kirks Book Experimental Design. Neste conjunto de dados, y é a variável dependente, a é a medida repetida e s é a variável que indica o número do assunto. Você notará que esta saída fornece quatro valores p diferentes. O quotregularquot (0.0001) é o p-valor que você obtém se você assumisse a simetria composta na matriz variância-covariância. Como essa suposição geralmente não é válida, os outros três valores de p oferecem várias correções (o Huynh-Feldt, H-F, Greenhouse-Geisser, G-G e Boxs conservative, Box). Independentemente do valor p que você usa, nossos resultados indicam que temos um efeito estatisticamente significativo de um no nível .05. Regração logística de medidas repetidas Se você tiver um resultado binário medido repetidamente para cada assunto e você deseja executar uma regressão logística que explica o efeito dessas múltiplas medidas de cada assunto, você pode realizar uma regressão logística de medidas repetidas. Em Stata, isso pode ser feito usando o comando xtgee e indicando binômio como a distribuição de probabilidade e logit como a função de link a ser usada no modelo. O arquivo de dados do exercício contém 3 medidas de pulso de 30 pessoas atribuídas a 2 regimentos dietéticos diferentes e 3 regimentos de exercícios diferentes. Se definimos um pulso quotighquot como sendo superior a 100, podemos então prever a probabilidade de um pulso alto usando regimento de dieta. Primeiro, usamos o xtset para definir qual variável define as repetições. Neste conjunto de dados, há três medidas tomadas para cada id. Então usaremos o id como nossa variável de painel. Então, podemos usar i: antes da dieta para que possamos criar variáveis ​​de indicadores conforme necessário. Estes resultados indicam que a dieta não é estatisticamente significativa (Z 1.24, p 0.216). ANOVA Fatorial Uma ANOVA fatorial tem duas ou mais variáveis ​​independentes categóricas (com ou sem as interações) e uma única variável dependente de intervalo normalmente distribuída. Por exemplo, usando o arquivo de dados hsb2, analisaremos os escores de escrita (escrever) como variável dependente e status de gênero (feminino) e socioeconômico (ses) como variáveis ​​independentes, e incluiremos uma interação feminina por ses. Observe que, no Stata, você não precisa ter o (s) termo (s) de interação em seu conjunto de dados. Em vez disso, você pode fazer Stata criá-lo temporariamente colocando um asterisco entre as variáveis ​​que compõem o (s) termo (s) de interação. Estes resultados indicam que o modelo geral é estatisticamente significativo (F 5.67, p. 0.001). As variáveis ​​femininas e ses também são estatisticamente significativas (F 16,59, p 0,0001 e F 6,61, p 0,0017, respectivamente). No entanto, essa interação entre mulheres e ses não é estatisticamente significativa (F 0.13, p 0.8753). Teste de Friedman Você faz um teste de Friedman quando você possui uma variável independente dentro dos indivíduos com dois ou mais níveis e uma variável dependente que não é intervalo e normalmente distribuída (mas pelo menos ordinária). Usaremos esse teste para determinar se há diferença nas pontuações de leitura, escrita e matemática. A hipótese nula neste teste é que a distribuição das classificações de cada tipo de pontuação (isto é, leitura, escrita e matemática) são as mesmas. Para realizar o teste de Friedman no Stata, você precisa primeiro fazer o download do programa friedman que faz esse teste. Você pode baixar o friedman de dentro do Stata digitando findit friedman (consulte Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre como usar findit). Além disso, seus dados precisarão ser transpostos de modo que os assuntos sejam as colunas e as variáveis ​​são as linhas. Usaremos o comando xpose para organizar nossos dados dessa forma. O chi-quadrado de Friedmans tem um valor de 0,6175 e um valor de p de 0,7344 e não é estatisticamente significante. Portanto, não há evidências de que as distribuições dos três tipos de pontuação sejam diferentes. Regressão logística ordenada A regressão logística ordenada é usada quando a variável dependente é ordenada, mas não contínua. Por exemplo, usando o arquivo de dados hsb2, criaremos uma variável ordenada chamada write3. Esta variável terá os valores 1, 2 e 3, indicando um escore de escrita baixo, médio ou alto. Geralmente, não recomendamos categorizar uma variável contínua dessa forma, estamos simplesmente criando uma variável para usar neste exemplo. Usaremos o sexo (feminino), o escore de leitura (leitura) e os estudos sociais (socst) como variáveis ​​preditoras neste modelo. Os resultados indicam que o modelo geral é estatisticamente significativo (p lt .0000), assim como cada uma das variáveis ​​preditoras (p lt .000). Existem dois pontos de corte para este modelo porque existem três níveis da variável de resultado. Uma das premissas subjacentes à regressão logistica ordinal (e ordinal probit) é que a relação entre cada par de grupos de resultados é a mesma. Em outras palavras, a regressão logística ordinal assume que os coeficientes que descrevem a relação entre, digamos, as categorias mais baixas versus todas as categorias mais altas da variável de resposta são os mesmos que descrevem a relação entre a próxima categoria mais baixa e todas as categorias mais altas, etc. Isso é chamado de hipótese de probabilidades proporcionais ou a hipótese de regressão paralela. Como a relação entre todos os pares de grupos é a mesma, existe apenas um conjunto de coeficientes (apenas um modelo). Se não fosse esse o caso, precisamos de modelos diferentes (como um modelo de logit ordenado generalizado) para descrever a relação entre cada par de grupos de resultados. Para testar esta suposição, podemos usar o comando omodel (findit omodel. Veja Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit) ou o comando brant. Vamos mostrar ambos abaixo. Ambos os testes indicam que a hipótese de probabilidades proporcionais não foi violada. Regressão logística fatorial Uma regressão logística fatorial é usada quando você possui duas ou mais variáveis ​​independentes categóricas, mas uma variável dependente dicotômica. Por exemplo, usando o arquivo de dados hsb2, usaremos o sexo feminino como nossa variável dependente, porque é a única variável dicotômica (01) em nosso conjunto de dados certamente não porque é prática comum usar o gênero como uma variável de resultado. Usaremos tipo de programa (prog) e tipo de escola (schtyp) como nossas variáveis ​​preditoras. Como prog é uma variável categórica (tem três níveis), precisamos criar códigos falsos para isso. O uso de i. Prog faz isso. Você pode usar o comando logit se desejar ver os coeficientes de regressão ou o comando logístico se desejar ver os odds ratios. Os resultados indicam que o modelo geral não é estatisticamente significativo (LR chi2 3.15, p 0.6774). Além disso, nenhum dos coeficientes também é estatisticamente significativo. Podemos usar o comando de teste para obter o teste do efeito geral do prog como mostrado abaixo. Isso mostra que o efeito geral do prog não é estatisticamente significativo. Da mesma forma, podemos usar o comando testparm para obter o teste do efeito geral do prog por interação schtyp, conforme mostrado abaixo. Isso mostra que o efeito geral dessa interação não é estatisticamente significante. Se você preferir, você poderia usar o comando logístico para ver os resultados como odds ratios, conforme mostrado abaixo. Correlação Uma correlação é útil quando você deseja ver a relação linear entre duas (ou mais) variáveis ​​de intervalo normalmente distribuídas. Por exemplo, usando o arquivo de dados hsb2, podemos executar uma correlação entre duas variáveis ​​contínuas, ler e escrever. No segundo exemplo, vamos executar uma correlação entre uma variável dicotômica, feminino. E uma variável contínua, escreva. Embora se supõe que as variáveis ​​são intervaladas e normalmente distribuídas, podemos incluir variáveis ​​falsas ao realizar correlações. No primeiro exemplo acima, vemos que a correlação entre leitura e escrita é de 0,5968. Ao quadrar a correlação e depois multiplicar por 100, você pode determinar qual porcentagem da variabilidade é compartilhada. Permite que a média de 0,5968 seja de 0,6, que, ao quadrado, seria de 0,36, multiplicada por 100 seria de 36. Portanto, lê compartilha cerca de 36 de sua variabilidade com a escrita. Na saída do segundo exemplo, podemos ver a correlação entre escrever e a fêmea é 0.2565. A quadratura deste número cede .06579225, o que significa que a fêmea compartilha aproximadamente 6,5 de sua variabilidade com a escrita. Regressão linear simples A regressão linear simples permite-nos observar a relação linear entre um preditor de intervalo normalmente distribuído e uma variável de resultado de intervalo normalmente distribuída. Por exemplo, usando o arquivo de dados hsb2. Digamos que desejamos olhar para a relação entre os escores de escrita (escrever) e os escores de leitura (ler) em outras palavras, prevendo escrever a partir da leitura. Vemos que a relação entre escrever e ler é positiva (.5517051) e com base no valor t (10.47) e no valor p (0.000), concluiremos que essa relação é estatisticamente significante. Portanto, diríamos que existe uma relação linear positiva estatisticamente significante entre leitura e escrita. Correlação não paramétrica Uma correlação de Spearman é usada quando uma ou ambas as variáveis ​​não são assumidas como sendo normalmente distribuídas e intervalo (mas são assumidas como ordinais). Os valores das variáveis ​​são convertidos em classificações e depois correlacionados. No nosso exemplo, procuraremos uma relação entre ler e escrever. Não vamos assumir que ambas as variáveis ​​são normais e de intervalo. Os resultados sugerem que a relação entre leitura e escrita (rho 0.6167, p 0.000) é estatisticamente significante. Regressão logística simples A regressão logística assume que a variável de resultado é binária (ou seja, codificada como 0 e 1). Nós temos apenas uma variável no arquivo de dados hsb2 codificado 0 e 1, e isso é feminino. Entendemos que a fêmea é uma variável de resultados tolos (seria mais sensato utilizá-la como uma variável preditor), mas podemos usar a fêmea como variável de resultado para ilustrar como o código para este comando está estruturado e como interpretar a saída. A primeira variável listada após o comando logístico (ou logit) é a variável resultado (ou dependente), e todas as demais variáveis ​​são variáveis ​​preditoras (ou independentes). Você pode usar o comando logit se desejar ver os coeficientes de regressão ou o comando logístico se desejar ver os odds ratios. No nosso exemplo, a fêmea será a variável de resultado, e a leitura será a variável preditor. Tal como acontece com a regressão OLS, as variáveis ​​preditoras devem ser dicotômicas ou contínuas, elas não podem ser categóricas. Os resultados indicam que o escore de leitura (lido) não é um preditor estatisticamente significativo de gênero (isto é, feminino), z -0,75, p 0,453. Da mesma forma, o teste do modelo geral não é estatisticamente significativo, LR chi-squared 0.56, p 0.4527. Regressão múltipla A regressão múltipla é muito semelhante à regressão simples, exceto que na regressão múltipla você possui mais de uma variável preditor na equação. Por exemplo, usando o arquivo de dados hsb2, iremos prever a pontuação de escrita de gênero (feminino), leitura, matemática, ciência e estudos sociais (socst). Os resultados indicam que o modelo geral é estatisticamente significativo (F 58.60, p 0.0000). Além disso, todas as variáveis ​​predictoras são estatisticamente significativas, exceto para leitura. Análise da covariância A análise da covariância é como ANOVA, exceto que, além dos preditores categóricos, você também possui preditores contínuos. Por exemplo, o exemplo ANOVA de sentido único usado escreveu como variável dependente e prog como a variável independente. Permite adicionar como variável contínua a este modelo, conforme mostrado abaixo. Os resultados indicam que, mesmo depois de ajustar a pontuação de leitura (leitura), os escores de escrita ainda diferem significativamente pelo tipo de programa (prog) F 5.87, p 0.0034. A regressão logística múltipla é como regressão logística simples, exceto que existem dois ou mais preditores. Os preditores podem ser variáveis ​​de intervalo ou variáveis ​​fofas, mas não podem ser variáveis ​​categóricas. Se você tem preditores categóricos, eles devem ser codificados em uma ou mais variáveis ​​falsas. Nós temos apenas uma variável em nosso conjunto de dados codificado 0 e 1, e isso é feminino. Entendemos que a fêmea é uma variável de resultados tolos (seria mais sensato utilizá-la como uma variável preditor), mas podemos usar a fêmea como variável de resultado para ilustrar como o código para este comando está estruturado e como interpretar a saída. A primeira variável listada após o comando logístico (ou logit) é a variável resultado (ou dependente), e todas as demais variáveis ​​são variáveis ​​preditoras (ou independentes). Você pode usar o comando logit se desejar ver os coeficientes de regressão ou o comando logístico se desejar ver os odds ratios. No nosso exemplo, a fêmea será a variável de resultado, e a leitura e a escrita serão as variáveis ​​preditoras. Esses resultados mostram que tanto a leitura quanto a escrita são preditores significativos da fêmea. Análise discriminante A análise discriminante é usada quando você possui uma ou mais variáveis ​​independentes de intervalo normalmente distribuídas e uma variável categórica dependente. É uma técnica multivariada que considera as dimensões latentes nas variáveis ​​independentes para prever a associação do grupo na variável categórica dependente. Por exemplo, usando o arquivo de dados hsb2. Digamos que desejamos usar a leitura. Notas de escrita e matemática para prever o tipo de programa ao qual um aluno pertence (prog). Para esta análise, você precisa primeiro fazer o download do programa dawayway que executa esse teste. Você pode baixar o daoneway de dentro do Stata, digitando findit daoneway (consulte Como eu usei o comando findit para procurar programas e obter ajuda adicional para obter mais informações sobre o uso do findit). Você pode então executar a análise da função discriminante como essa. Claramente, o resultado da Stata para este procedimento é longo e está além do escopo desta página para explicar tudo. However, the main point is that two canonical variables are identified by the analysis, the first of which seems to be more related to program type than the second. For more information, see this page on discriminant function analysis . One-way MANOVA MANOVA (multivariate analysis of variance) is like ANOVA, except that there are two or more dependent variables. In a one-way MANOVA, there is one categorical independent variable and two or more dependent variables. For example, using the hsb2 data file. say we wish to examine the differences in read . write and math broken down by program type ( prog ). For this analysis, you can use the manova command and then perform the analysis like this. This command produces three different test statistics that are used to evaluate the statistical significance of the relationship between the independent variable and the outcome variables. According to all three criteria, the students in the different programs differ in their joint distribution of read . write and math . Multivariate multiple regression Multivariate multiple regression is used when you have two or more dependent variables that are to be predicted from two or more predictor variables. In our example, we will predict write and read from female . math . science and social studies ( socst ) scores. Many researchers familiar with traditional multivariate analysis may not recognize the tests above. They do not see Wilks Lambda, Pillais Trace or the Hotelling-Lawley Trace statistics, the statistics with which they are familiar. It is possible to obtain these statistics using the mvtest command written by David E. Moore of the University of Cincinnati. UCLA updated this command to work with Stata 6 and above. You can download mvtest from within Stata by typing findit mvtest (see How can I used the findit command to search for programs and get additional help for more information about using findit ). Now that we have downloaded it, we can use the command shown below. These results show that female has a significant relationship with the joint distribution of write and read . The mvtest command could then be repeated for each of the other predictor variables. Canonical correlation Canonical correlation is a multivariate technique used to examine the relationship between two groups of variables. For each set of variables, it creates latent variables and looks at the relationships among the latent variables. It assumes that all variables in the model are interval and normally distributed. Stata requires that each of the two groups of variables be enclosed in parentheses. There need not be an equal number of variables in the two groups. The output above shows the linear combinations corresponding to the first canonical correlation. At the bottom of the output are the two canonical correlations. These results indicate that the first canonical correlation is .7728. You will note that Stata is brief and may not provide you with all of the information that you may want. Several programs have been developed to provide more information regarding the analysis. You can download this family of programs by typing findit cancor (see How can I used the findit command to search for programs and get additional help for more information about using findit ). Because the output from the cancor command is lengthy, we will use the cantest command to obtain the eigenvalues, F-tests and associated p-values that we want. Note that you do not have to specify a model with either the cancor or the cantest commands if they are issued after the canon command. The F-test in this output tests the hypothesis that the first canonical correlation is equal to zero. Clearly, F 56.4706 is statistically significant. However, the second canonical correlation of .0235 is not statistically significantly different from zero (F 0.1087, p 0.7420). Factor analysis Factor analysis is a form of exploratory multivariate analysis that is used to either reduce the number of variables in a model or to detect relationships among variables. All variables involved in the factor analysis need to be continuous and are assumed to be normally distributed. The goal of the analysis is to try to identify factors which underlie the variables. There may be fewer factors than variables, but there may not be more factors than variables. For our example, lets suppose that we think that there are some common factors underlying the various test scores. We will first use the principal components method of extraction (by using the pc option) and then the principal components factor method of extraction (by using the pcf option). This parallels the output produced by SAS and SPSS. Now lets rerun the factor analysis with a principal component factors extraction method and retain factors with eigenvalues of .5 or greater. Then we will use a varimax rotation on the solution. Note that by default, Stata will retain all factors with positive eigenvalues hence the use of the mineigen option or the factors() option. The factors() option does not specify the number of solutions to retain, but rather the largest number of solutions to retain. From the table of factor loadings, we can see that all five of the test scores load onto the first factor, while all five tend to load not so heavily on the second factor. Uniqueness (which is the opposite of commonality) is the proportion of variance of the variable (i. e. read ) that is not accounted for by all of the factors taken together, and a very high uniqueness can indicate that a variable may not belong with any of the factors. Factor loadings are often rotated in an attempt to make them more interpretable. Stata performs both varimax and promax rotations. The purpose of rotating the factors is to get the variables to load either very high or very low on each factor. In this example, because all of the variables loaded onto factor 1 and not on factor 2, the rotation did not aid in the interpretation. Instead, it made the results even more difficult to interpret. To obtain a scree plot of the eigenvalues, you can use the greigen command. We have included a reference line on the y-axis at one to aid in determining how many factors should be retained.

No comments:

Post a Comment