A Lógica da Análise de Correspondências 1
Carlos Alberto da Silva
Universidade
de Évora
Departamento de Sociologia
Resumo
A
análise de correspondência, ou melhor análise factorial de correspondência
(AFC) é uma técnica semelhante à AFCP. De certa forma análoga à Análise
Factorial por Componentes Principais (AFCP), podemos dizer que se procura, através
da análise de correspondências, estruturar estatisticamente uma agregação de
variáveis em conjuntos de eixos factoriais que tenham componentes relacionais,
procurando, todavia, neste caso das correspondência, encontrar aqueles que
possam traduzir uma dada associação optimizada das categorias relevantes. Por
outras palavras, a AFC tem como objectivo último, a redução de uma matriz de
dados através da colocação em evidência de um conjunto significativo de
factores “simplificadores” da dimensionalidade dum problema em estudo.
A análise de correspondências não representa uma inovação nas técnicas estatísticas. Já na década de 30, os trabalhos de Hirschfield faziam referência a esta técnica, apelidando-a como o tratamento de dados sem 'médias' (Pereira, 1987, Benzécri, 1973, 1980). Nas décadas subsequentes, diferentes autores têm procurado atribuir uma designação esta técnica. O desenvolvimento desta técnica foi inicialmente dirigida à obtenção de representações gráficas das linhas e das colunas de uma tabela de contingência 2*2 (Phillips 1995). A popularização desta técnica no seio dos investigadores sociais começou a aumentar, na década de 80, após a disponibilização no mercado de ferramentas informáticas. De referir que na tradição francófona, a análise das correspondências foi popularizado pelos trabalhos Benzécri (1973, 1980), Cibois (1983, 1984), Doise, Clemence e Lorenzi-Cioldi (1992), Escofier e Pagés (1990), Jambu (1989) e Fenelon (1981). Mas é na década de 90 que a utilização desta técnica veio a ganhar adeptos das escolas anglo-saxónicas inglesas e americanas.
Em termos da investigação sociológica, foram essencialmente os trabalhos da escola francófona que catapultaram a importância da análise das correspondências. Destacam-se os trabalhos de Bourdieu, designadamente no estudo das formas de capital e as suas relações com certas categorias sociais apresentado na obra «Distinction» (1979).
Em Portugal, a utilização da análise das correspondências tem vindo a ser utilizado pelos investigadores portugueses de vários Centros de Investigação (Instituto das Ciências Sociais de Lisboa, Instituto Superior das Ciências do Trabalho e Empresa, Universidade Nova de Lisboa, Universidade de Évora, etc.). No âmbito dos trabalhos de investigação portugueses, a aplicação desta técnica tem incidido na descrição da sociografia dos valores e práticas sociais da juventude portuguesa, na análise sociográfica da criminalidade, das atitudes e comportamentos dos profissionais de saúde, na reconstrução dos perfis simbólico-valorativos nas organizações de saúde, na descrição de cenários demográficos entre distritos em função das relações entre variáveis socio-demográficas, etc.
O recurso à análise de correspondências, enquanto técnica privilegiada de estudo estatístico, parte do pressuposto implícito na hipótese de estudo de que existem relações preferenciais entre variáveis, tais como, as de opinião expressas pelos inquiridos e recolhido num questionário e as suas características sócio-demográficas, profissionais e outras. A adopção desta estratégia de análise implica a conjugação de um conjunto de acções preliminares, entre as quais as de codificação das variáveis aquando do desenho do questionários e o fluxograma de decisões a tomar para a resolução do problema de tratamento da informação por via informática. Sugerimos uma codificação disjuntiva completa, como estratégia para construir modalidades mutuamente exclusivas. Este critério permite na recolha e no tratamento da informação, a atribuição de uma e só uma modalidade de resposta a cada indivíduo, e ao estabelecimento de uma certa normalização na leitura e interpretação das modalidades possíveis para cada pergunta.
Existem diversas aplicações informáticas para o cálculo das correspondências. Em termos sumários, tal como refere Benzécri (1973, 1980), Cibois (1983, 1984), Doise, Clemence e Lorenzi-Cioldi (1992), Escofier e Pagés (1990), Jambu (1989) e Fenelon (1981) e Pereira (1987) podemos dizer que a maioria delas convertem, em primeiro lugar, a informação introduzida (matriz de dados) numa matriz de partida, constituída por tabelas de contingência justapostas e que se designa por matriz de Burt. Aliás, segundo Pereira (1987), esta matriz é um elemento fulcral para a construção dos resultados. Importa referir aqui que em termos teóricos a análise das correspondências parte pela construção de matrizes quadradas e simétricas de dimensões i*i, dividida em j*j, tais que i constitui o número total de modalidades de todas as perguntas, sendo j o número de blocos de questões. O cálculo da matriz de Burt pode ser efectuado automaticamente pelas aplicações informáticas, cujo resultado pode ser traduzido como um produto TT’, em que T representa o quadro k*i, resultante da codificação disjuntiva completa e T’, sendo este a transporta de T, ou seja, um quadro de dimensão i*k. Através do cálculo da matriz de Burt obtém-se, ainda, automaticamente um conjunto de eixos factoriais, em que cada eixo está associado a um dado valor próprio e que traduz a contribuição dos mesmos na explicação das dimensões em estudo.
Em termos sintéticos podemos dizer que se obtém no tratamento das correspondências um conjunto de i - j (a diferença entre o número de modalidades e o número de questões) eixos factoriais. O número de eixos a reter será determinada após um estudo preliminar dos primeiros cinco eixos factoriais. Ou seja, existe neste domínio uma certa arbitrariedade selectiva do investigador, cuja escolha depende dos objectivos de investigação e da satisfação do investigador em relação ao grau de explicação das contribuições significativas e discriminantes presentes nos primeiros eixos factoriais.
Em síntese, existem dois tipos de AFC, sendo uma designada de Simples que incide sobre matrizes do tipo de tabelas de contingência, e a outra de AFC Múltipla que é utilizada para o tratamento de matrizes com mais de duas variáveis, podendo estas matrizes assumir a forma de tabelas lógicas, de contingência sobrepostas (tipo matriz de Burt), etc. Na análise de correspondência procura-se decompor as matrizes noutras mais simples, testando, por meio da estatística do Qui-Quadrado, a hipótese da independências entre linhas e colunas. No caso da rejeição da hipótese nula, procura-se, com a AFC, ajustar as linhas e colunas, ordenando e operando uma escala de intervalos que permita definir os eixos factoriais e as posições relativas das categorias e/ou modalidades associadas. Os resultados dos cálculos da AFC são expressos em termos de variância explicada da solução factorial e através da contribuição relativa e absoluta de cada modalidade. A contribuição relativa exprime o grau de eficácia da explicação da variância de uma modalidade por um eixo factorial. A contribuição absoluta é de natureza inversa e complementar da anterior, e exprime a proporção que uma modalidade contribui para a formação do factor.
O
SPSS-Win oferece várias possibilidades de estudo das correspondências,
sendo designadas por tratamento binário e múltiplo. A análise binária é
também conhecida por análise das categorias (Anacor),
e a múltipla pelo estudo da homogeneidade (Homals
Var)
Em
termos sumários, a construção dos resultados na lógica das correspondências
do SPSS-Win processa-se através da medição das distâncias entre as
categorias das variáveis, considerando estas como um sistema de oposições/conjunções
entre as mesmas. A leitura dos resultados da análise de correspondências
simples (Anacor) incide sobre as contribuições absolutas e relativas das
categorias em linha e em coluna, procurando, por esta via, perceber o grau de
importância das mesmas categorias e a qualidade das suas projecções, enquanto
pontos-linha e pontos-coluna projectados nas duas primeiras dimensões da nuvem
de pontos.
Na
técnica de Homals Var, os objectos da
mesma categoria são projectados na forma de conjunções, e os de categorias
distintas, na forma de disjunções. Designam-se, no SPSS, de object
scores os valores atribuídos aos casos, e de category
quantifications os valores atribuídos às categorias. Os object
scores das mesmas categorias são projectados próximos uns dos outros (semelhança
de scores). Ou seja, quando as
categorias de diferentes variáveis são projectadas próximas umas das outras,
elas pertencem aos mesmos objectos.
Quanto
à interpretação dos resultados de Homals
Var, sugerimos a leitura das duas primeiras dimensões (o número máximo de
dimensões é igual ao número de categorias menos o número de variáveis), e
no máximo até cinco dimensões, na medida em que a leitura de mais dimensões
é de tal forma morosa que torna a técnica ineficaz e impraticável. Para a
interpretação simplificada, devemos recorrer essencialmente à leitura das
projecções gráficas das categorias de cada variável em cada dimensão (eixo
factorial), incidindo nomeadamente nas variáveis cujas medidas de discriminação
tinham quantificações relevantes. Quanto maior for a quantificação mais
discriminante é a variável. Por outras palavras, os resultados da lógica das
correspondências devem ser interpretados à luz de um sistema de oposições
entre as variáveis que mais caracterizam cada eixo, cujo resultado permite
reflectir a discriminação dos efeitos de disjunção operados pelas diferentes
categorias e variáveis em relação às dimensões extraídas.
A AFC faz parte da metodologia de análise factorial, sendo dirigida a estudos de natureza descritiva e não inferencial, cujos resultados traduzem a descodificação de uma estrutura de dados que se obtém através de uma hierarquização da informação agregada por ordem decrescente do peso do grau de explicação. Daí que, ao adoptarmos uma estratégia de correspondência para a análise de dados, estamos igualmente a adoptar uma metodologia para produzir um novo conjunto de variáveis, designadas de compósitas, para sistematizar as relações subjacentes às modalidades, frequências, variáveis e grupos de indivíduos.
Em suma, a opção analítica dos dados em sociologia, segundo os princípios de análise das correspondências, permite garantir uma coerência estatística do tratamento global dos resultados, designadamente através da eliminação de possíveis redundâncias presentes em grandes tabelas de contingência. Esta estratégia analítica permite fazer emergir combinações das variáveis num pequeno número de factores tradutores dos traços fundamentais das relações entre variáveis não descodificáveis na leitura linear das referidas tabelas.
BENZÉCRI, J. P. (1973). L’Analyse des Données, Paris: Dunod, 2 vols.
BENZÉCRI, J. P. (1980). Pratique de l’Analyse des Données, Paris: Dunod, 3 vols.
BOURDIEU, P. (1979). Distinction: A Social Critique of the Judgement of Taste. London: Routledge.
CIBOIS, P. (1983). L’Analyse Factorielle, Paris: PUF.
CIBOIS, P. (1984). L’Analyse des Données en Sociologie, Paris: PUF.
DOISE, W., CLEMENCE, A. e LORENZI-CIOLDI, F. (1992). Representations Sociales et Analyses des Données, Grenoble: Presses Universitaires de Grenoble.
DUNSTAN, F. e PICKLES, J. (1991). Statistics in medicine, Oxford: Clarendon Press.
ESCOFIER, B. et PAGÉS, J. 1990 (1988). Analyses factorielles simples et multiples: Objectifs, méthodes et interpretation, Paris: DUNOD.
FENELON, J. (1981).Qu’est-ce que l’Analyses des Données ?, Paris: Lefonen.
FIELDING, A. (1992). Axiomatic Approaches to Scoring Ordered Classifications. Birmingham: University of Birmingham, Department of Economics (Discussion Paper 6).
GREENACRE, M. J. (1993).Correspondence Analysis in Practice. London: Academic Press.
GREENACRE, M. J. (1984) Theory and Applications of Correspondence Analysis. London: Academic Press.
HAIR Jr., JOSEPH F. et al. (1992). Multivariate Data Analysis (Third Edition) New York: Macmillan
Hill, M.O. (1974). «Correspondence analysis: a neglected multivariate method», Applied Statistics, 23, 340-54.
JAMBU, M. (1989). Exploration Informatique et Statistique des Données, Paris: DUNOD.
LÓPEZ-VALCÁRCEL, B. G. (1991). Análisis multivariante: Aplicación al àmbito sanitario, Barcelona: SG Editores.
NISHISATO, S. (1980). Analysis of Categorical Data: Dual Scaling and its Applications, Toronto: University of Toronto Press.
PEREIRA, H. G. (1987). «Tratamento informático de questionários: o ponto de vista da análise factorial das correspondências», Revista Crítica de Ciências Sociais, 98, 733-746.
PHILLIPS, D. (1995). «Correspondence analysis», Social Research Update, 7. University of Surrey, Department of Sociology (text of SRU is available through Gopher and the World Wide Web).
SILVA, Carlos (2003). ABC do SPSS for Windows. Introdiução ao Tratamento de dados em Ciências Sociais. Monsaraz: ADIM.
VAN de GEER, J. P. (1993). Multivariate Analysis of Categorical Data: Theory. Newbury Park: Sage.
VAN de GEER, J. P. (1993) Multivariate Analysis of Categorical Data: Applications. Newbury Park: Sage.
Nota: 1) Versão melhorada e
aumentada em 2001 e 2003. A 1ª versão electrónica do presente artigo foi publicada em 1997.
Para enviar os seus comentários e sugestões, veja a secção
© xeque-mate, 1997 casilva
Fevereiro 14, 2003