- Exemplos
- Classificação de variáveis categóricas
- Categorias nominais
- Ordinal categórico
- Categorias binárias
- Estatísticas com variáveis categóricas
- Representação gráfica de variáveis categóricas
- Exercícios resolvidos
- Exercício 1
- Exemplo 2
- Exemplo 3
- Referências
A variável categórica é aquela usada em estatística para atribuir uma característica ou propriedade não numérica ou qualitativa a algum objeto, indivíduo, entidade, condição ou procedimento. É possível definir todos os tipos de variáveis categóricas de acordo com cada necessidade.
Exemplos de variáveis categóricas são: cor, sexo, grupo sanguíneo, estado civil, tipo de material, forma de pagamento ou tipo de conta bancária, e são muito utilizadas no dia a dia.
Figura 1: A cor é uma variável categórica. Fonte: pixabay
As acima são as variáveis, mas seus valores possíveis são qualitativos, ou seja, de qualidade ou característica e não de medida numérica. Por exemplo, os valores possíveis para a variável sexo são: masculino, h embra.
Quando esta variável é armazenada em um programa de computador, pode ser declarada como uma variável de texto e os únicos valores aceitos serão os já nomeados: Masculino, Feminino.
No entanto, a mesma variável sexo pode ser declarada e armazenada como um inteiro se Male for atribuído 1 e Female for atribuído o valor 2. É por esse motivo que as variáveis categóricas às vezes são chamadas de tipo enumerado.
A principal característica das variáveis categóricas é que, ao contrário de outras variáveis, como variáveis contínuas e discretas, não é possível fazer aritmética com elas. Porém, estatísticas podem ser feitas com eles, como será visto mais tarde.
Exemplos
Observe os seguintes exemplos de variáveis categóricas e seus valores possíveis:
- Grupo_Sanguíneo, Faixa de valores: A, B, AB, O
- Civil_Status, Valores Categóricos: Solteiro (A), Casado (B), Viúvo (C), Divorciado (D).
- Tipo_de_Material, Categorias ou valores: 1 = Madeira, 2 = Metal, 3 = Plástico
-Form_de_pagamento, Títulos ou categorias: (1) Dinheiro, (2) Débito, (3) Transferência, (4) Crédito
Nos exemplos anteriores, um número foi associado a cada categoria de uma forma completamente arbitrária.
Pode-se então pensar que essa associação numérica arbitrária a torna equivalente a uma variável quantitativa discreta, mas não é, uma vez que as operações aritméticas não podem ser feitas com esses números.
Para ilustrar a ideia, na variável Form_of_Payment, a operação de soma não faz sentido:
(1) Dinheiro + (2) Débito nunca será igual a (3) Transferência
Classificação de variáveis categóricas
A classificação é baseada no fato de eles terem ou não uma hierarquia implícita ou se o número de resultados possíveis é superior a dois ou dois.
Uma variável categórica com apenas um resultado possível não é uma variável, é uma constante categórica.
Categorias nominais
Quando não podem ser representados por um número ou ter qualquer ordem. Por exemplo, a variável: Type_of_Material, possui valores nominais (Madeira, Metal, Plástico), não possuem hierarquia ou ordem, mesmo quando um número arbitrário é atribuído a cada resposta ou categoria.
Ordinal categórico
Variável: Academic_performance
Valores nominais: alto, médio, baixo
Embora os valores dessa variável não sejam numéricos, eles têm uma ordem ou hierarquia implícita.
Categorias binárias
Estas são variáveis nominais com duas respostas possíveis, por exemplo:
-Variable: Response
- Valores nominais: verdadeiro, falso
Observe que a variável Response não tem uma hierarquia implícita e tem apenas dois resultados possíveis, portanto, é uma variável categórica binária.
Alguns autores chamam esse tipo de variável binária, e não o consideram pertencer a variáveis categóricas que se restringem àquelas com mais de três categorias possíveis.
Estatísticas com variáveis categóricas
As estatísticas podem ser feitas com variáveis categóricas, apesar de não serem variáveis numéricas ou quantitativas. Por exemplo, para saber a tendência ou o valor mais provável de uma variável categórica, a moda é considerada.
A moda é, neste caso, o resultado ou valor mais repetido de uma variável categórica. Para variáveis categóricas, não é possível calcular a média ou a mediana.
A média não pode ser calculada porque você não pode fazer aritmética com variáveis categóricas. Tampouco o é a mediana, pois as variáveis quantitativas ou categóricas não possuem uma ordem ou hierarquia, de modo que não é possível determinar um valor central.
Representação gráfica de variáveis categóricas
Dada uma determinada variável categórica, a frequência ou o número de vezes com que um resultado dessa variável é repetido pode ser encontrado. Se isso for feito para cada resultado, um gráfico da frequência em relação a cada categoria ou resultado pode ser feito.
Aqui estão alguns exemplos de como variáveis categóricas podem ser representadas graficamente.
Exercícios resolvidos
Exercício 1
Uma empresa possui registros dos dados de 170 funcionários. Uma das variáveis que constam nesses registros é: Estado_Civil. Esta variável possui quatro categorias ou valores possíveis:
Solteiro (A), Casado (B), Viúvo (C), Divorciado (D).
Embora seja uma variável não numérica, é possível saber quantos dos registros totais estão em uma determinada categoria e ser representados na forma de um gráfico de barras, conforme mostrado na figura a seguir:
Figura 2. Representação dos resultados de uma variável categórica. Fonte: self made
Exemplo 2
Uma loja de calçados acompanha suas vendas. Entre as variáveis que gerenciam seus registros está a cor do calçado de cada modelo. A variável:
Color_Shoe_Model_AW3
É do tipo categórico e possui cinco categorias ou valores possíveis. Para cada categoria desta variável soma-se o número de vendas e estabelece-se o percentual delas. Os resultados são apresentados no gráfico da seguinte figura:
Figura 3. Variável categórica Cor _Shoe. Nesta variável, o modo é Branco. Fonte: self made.
Pode-se dizer então que do modelo de calçado AW3 que está na moda, o que mais se vende é o Branco, seguido de perto pelo Preto.
Pode-se dizer também que com uma probabilidade de 70% o próximo calçado deste modelo a ser vendido será Branco ou Preto.
Esta informação pode ser útil para a loja ao fazer novos pedidos, ou pode até aplicar descontos nas cores menos vendidas devido ao excesso de estoque.
Exemplo 3
Para uma determinada população de doadores de sangue, você deseja representar o número de pessoas que pertencem a um determinado grupo sanguíneo. Uma forma gráfica de visualizar os resultados é por meio de um pictograma, que fica na parte inferior de uma tabela.
A primeira coluna representa a variável group_sanguíneo e seus possíveis resultados ou categorias. A segunda coluna apresenta a representação de forma icônica ou pictórica do número de pessoas em cada categoria. Em nosso exemplo, uma gota vermelha é usada como ícone, cada uma representando 10 pessoas.
Figura 4. Pictograma. Fonte: self made
Referências
- Khan Academy. Analisando dados categóricos. Recuperado de: khanacademy.org
- Fórmulas do universo. Variável qualitativa. Recuperado de: univesoformulas.com
- Minitab. Quais são variáveis categóricas, discretas e contínuas. Recuperado de: support.minitab.com
- Tutorial do Excel. Caracterização de variáveis. Recuperado de: help.xlslat.com.
- Wikipedia. Variável estatística. Recuperado de wikipedia.com
- Wikipedia. Variável categórica. Recuperado de wikipedia.com
- Wikipedia. Variável categórica. Recuperado de wikipedia.com