SisReN – Sistema de Redes Neurais e
Regressão Linear
1. PREPARANDO A AMOSTRA PARA DIGITAÇÃO
Ao iniciar o trabalho de Avaliação de um imóvel, pelo processo comparativo,
procure identificar as características que, normalmente, mostram-se mais
significativas na formação do seu valor no mercado.
Depois de vistoriado o imóvel a ser avaliado, preencha a planilha de
amostragem, que está localizada na pasta Ficha de Dados, no diretório do
SisReN, onde os dados da amostra, a ser colhida no mercado, serão
identificados, e suas características intrínsecas e extrínsecas , transformadas em
variáveis numéricas. (veja exemplo de planilha de amostragem de terrenos
urbanos, abaixo).
Organize e numere os diversos dados da amostra, antes de iniciar o uso do
SISREN, isto facilitará seu trabalho. Depois de coletados os dados e preenchida
sua planilha, acione o programa, e proceda da seguinte forma:
. CRIANDO ARQUIVO DE DADOS
Ao acionar o SISREN, a primeira tela mostrada informa a Dica do Dia. Feche
esta janela e, se você não deseja que esta tela seja exibida cada vez que o
programa for ativado, desabilite a mesma na caixa de diálogo.
Fechada a janela de Dica, estará disponibilizada a janela de opções para Abrir
Modelo de Dados, Criar novo Modelo ou Abrir Ultimo Modelo. Como nosso
objetivo neste momento é criar um novo arquivo de dados, esta deve ser a opção
selecionada.
Para navegar entre os campos da janela de identificação do modelo, abaixo
descritos, utilize a tecla < TAB >. A tecla < ENTER >, finaliza a digitação da
janela.
· Autor: Informe seu nome, para personalização do modelo a ser criado;
· Data : Informe a data da criação do modelo, para identificação futura;
· Outras informações : Características gerais do modelo, exemplo:
“Terrenos em Belo Horizonte - JAN/2004 - completo”;
Estas informações podem ser alteradas posteriormente, através da opção
Modelo... Propriedades, do menu principal.
Terminada a identificação do modelo, tecle < ENTER > ou clique em
“Avançar”, para ativar a janela de identificação das variáveis que serão usadas no
teste de influência nos valores de mercado.
INFORMANDO NOMES DAS VARIÁVEIS
Na janela de diálogo correspondente à identificação dos Nomes de
Variáveis, escreva no espaço Nome da Variável, o nome de todas as variáveis
que farão parte de seu modelo, inclusive a variável dependente, acionando o
botão “Adicionar”, após a digitação de cada uma delas. Este procedimento gera
uma Lista de Variáveis, informando os nomes escolhidos no lado direito da janela.
Para facilitar a montagem de seu modelo, estão disponíveis alguns nomes
de variáveis comumente testadas. Se você deseja utilizar qualquer destes nomes,
clique duas vezes sobre o mesmo, na lista de Variáveis mais comuns (lado direito
da janela). O nome escolhido deverá aparecer no lado esquerdo da janela,
incorporando a Lista de Variáveis, que está sendo montada.
Terminada a digitação dosNomes das Variáveis acione o botão Avançar >>.
RESUMO - Nome das Variáveis:
1) Digite o nome da 1a variável de seu modelo no campo Nome da
Variável;
2) Acione o botão Adicionar;
3) Digite o nome da 2a variável de seu modelo no campo Nome da
Variável;
4) Acione o botão Adicionar;
5) Repita os procedimentos acima até finalizar a identificação de todas
as variáveis do modelo, inclusive a variável dependente;
6) Acione o botão Avançar >>;
Selecionada as variáveis a serem utilizadas, o próximo passo será definir o
tipo destas variáveis, bem como definir a variável dependente e assinalar se a
mesma é Unitário ou Total e qual a variável área utilizada.
Após o procedimento acima, o sistema irá perguntar se você deseja salvar
o arquivo com nome padrão SisReN1. Responda Sim, com o mouse, que o
sistema continuará o diálogo. Na janela de Salvar, escolha o nome e destino do
arquivo que está sendo montado (drive, diretório, subdiretório, etc.), e acione o
botão Salvar.
DIGITANDO OS DADOS
A janela de Edição de Dados, possibilita o cadastramento das informações
sobre endereço, fonte e valores das variáveis, de cada dado da amostra colhida
para testes de hipóteses. Os procedimentos necessários ao correto
cadastramento, são os seguintes:
1) No item Conteúdo, digite a informação solicitada para o campo
assinalado com contorno escurecido da tabela (ao lado direito
superior da janela, é indicado o número do dado e o campo a ser
digitado no momento); Você pode também digitar a informação
diretamente na célula, bastante teclar F2.
2) Depois de digitada a informação solicitada para cada campo, tecle
<ENTER>. Utilize a tecla <TAB> somente para navegar entre os
botões da parte inferior da janela, a tecla <ENTER> posiciona no
próximo campo do dado que está sendo digitado.
3) Terminada a digitação de todos os campos do dado, acione a tecla
<<enter>> ou escolha o botão “+” referente a adicionar dado. Este
procedimento adiciona outro dado para digitação;
4) Depois de digitado o último dado, acione o botão Salvar. este
procedimento irá gravar o arquivo de dados, no local indicado no
item anterior.
Obs.: para corrigir qualquer campo, basta selecioná-lo, com o mouse, digitar a
informação correta e teclar <ENTER> (campos alfanuméricos serão
limpos com barra de espaço).
3. ESCOLHA DO MÉTODO DE CÁLCULO – Regressão Linear
O uso de Estatística Inferencial para estudo de comportamento do mercado
imobiliário, pressupõe que, a variação em torno do valor médio encontrado nas
amostras colhidas neste mercado, apresenta-se significativamente influenciada
pelas diferenças físicas e qualitativas, normalmente presentes entre os dados
destas amostras.
O SISREN permite que este estudo seja através de duas metodologias:
processo dos Mínimos Quadrados, que calcula o percentual da variação em torno
da média que se deve às diferenças mais importantes entre os dados, no enfoque
do avaliador, para o mercado pesquisado, ou pelo uso de Redes Neurais
Artificiais, que está descrito na segunda parte deste tutorial.
O processo dos Mínimos Quadrados, consiste na busca de uma equação
linear (Equação de Regressão), que se mostre o mais aderente possível à
dispersão dos dados da amostra, num gráfico cartesiano, ou seja, é a equação
representativa da média, que passa mais ao centro dos pontos do gráfico.
Exemplificando, para duas variáveis, o gráfico abaixo representa a dispersão
no plano cartesiano, de amostra do mercado imobiliário, onde os dados colhidos
apresentam diferenças significativas nas áreas dos imóveis.
(obs: considerar letra E como símbolo de somatório)
Define-se por Variação total em torno do valor médio da amostra, o
somatório dos quadrados dos di ( Edi²) , ou seja, o somatório do quadrado da
distância dos dados àmédia aritmética da amostra
Da mesma forma, define-se por Variação residual, o somatório dos
quadrados dos ei ( Eei² ), isto é, o somatório do quadrado da distância dos dados à
equação de regressão.
Relacionar o Valor com a Área dos imóveis, significa na verdade, formular
a hipótese de que, na população, a Variação dos valores em torno da sua média
aritmética, sofre influência da Variação da área dos mesmos, ou seja, quanto
maior a área, maior o valor do imóvel, numa relação linear equivalente a
y = A + Bx, sendo o valor representado por y e a área, por x. Os parâmetros A e B
são calculados pelo Método dos Mínimos Quadrados.
A amostra comprova esta hipótese, à medida em que a Variação residual
( Eei²) se mostrar significativamente inferior à Variação total (Edi²)
. Desta maneira, a expectativa é de que a dispersão em torno da equação de regressão,
representada pela Variação Residual ( Eei²) seja menor que a dispersão em torno
da média aritmética, representada pela Variação Total (Edi²). A diferença entre o montante representativo das duas variações ( ( Edi²)- (Eei²)), indica a parcela da variação dos valores em torno da média aritmética que se deve às diferenças de suas áreas. Numericamente, a influência das Áreas nos Valores dos imóveis, é
quantificada através do percentual da Variação em torno da média que tem
origem nas diferenças de áreas. Este percentual é definido como Coeficiente de
Determinação, calculado da seguinte forma:
Isto significa que, quanto mais próximo de 1,00 este coeficiente de
determinação, maior a influência das diferenças entre as áreas dos imóveis
da amostra (variável independente) na variação do valor dos imóveis
(Variável dependente) em torno de sua média aritmética.
TRANSFORMAÇÃO DE VARIÁVEL
Este processo de cálculo, busca reduzir a dispersão em torno do valor
médio, através do uso de um Valor Médio variável, ou seja, o valor médio de um
imóvel, vai depender de suas características, conforme a função linear
representada pela equação de regressão.
Por outro lado, para que o modelo de regressão mostre-se consistente,
enquanto representativo dos valores médios praticados para imóveis com
características diferentes, torna-se necessário que a dispersão dos pontos em
torno da equação de regressão apresente-se o mais homogênea possível.
Significando assim, que a amostra colhida é aleatória, não apresentando
distorções tendenciosas.
O cálculo através dos Mínimos Quadrados, identifica somente funções
lineares, no entanto, em alguns casos, a relação entre as variáveis mostra
dispersão de forma não linear. Neste caso, podemos utilizar, como artifício,
algumas transformações matemáticas nas variáveis, as quais poderão linearizar
esta relação.
Exemplificando, suponha a seguinte dispersão entre os dados:
Observa-se claramente que, mesmo que o Coeficiente de Determinação do
modelo apresente valores próximos de 1,00, indicando boa aderência dos dados
à equação de regressão e reduzindo a variação total em torno do valor médio da
amostra, a dispersão destes dados em torno da equação de regressão mostra-se
heterogênea, indicando trechos em que o valor médio representativo está acima
de todos os imóveis da amostra, e vice-versa.
Para contornar o problema, utiliza-se, como artifício, transformação
matemática nas variáveis, no intuito de linearizar a dispersão. Neste caso, uma
nova variável, com dependência matemática da variável transformada, é trazida
ao processo de análise.
Neste exemplo, a tentativa de linearização será através da inversão da variável
x, na forma: z =1/x , a qual deve resultar na seguinte dispersão de y por z
obtém-se agora, uma dispersão homogênea dos valores da amostra, em
torno da equação representativa da média (y = A+Bz), sinalizando uma
amostragem aleatória, sem tendenciosidade. Por outro lado, como z =
1/x, em relação à variável x, que representa a área dos imóveis, a equação pode ser
escrita da seguinte forma: y= A+B/x, isto quer dizer que o valor médio dos
imóveis (y) apresenta uma relação não linear com a área dos mesmos (x).
Calculando-se o Coeficiente de Determinação do modelo de regressão
nesta nova formatação, pode-se compará-lo com o mesmo coeficiente, calculado
originalmente. A equação que apresenta maior Coeficiente de Determinação,
mostra-se mais aderente aos dados, na forma matemática em que os mesmos
estão considerados.
Este raciocínio, amplia significativamente as alternativas de cálculo de uma
equação representativa da média, pois, através da combinação de
transformações nas variáveis, calcula-se o Coeficiente de Determinação para
cada situação diferente. Dentre todos, aquele que apresenta-se mais próximo de
1,00, é o mais aderente à dispersão de pontos que representa.
ESCOLHA DE TRANSFORMAÇÕES PARA TESTE
Ao adotar-se transformações Inversa e Logarítmica para cada variável,
teremos, no caso de 2 (duas) variáveis, 9 (nove) situações diferentes, cada uma
apresentando Coeficiente de Determinação próprio, conforme tabela abaixo:
Pelo exposto, calculando-se o Coeficiente de Determinação para cada uma
das nove situações acima, obtém-se um elenco de equações de regressão que,
hierarquizadas em seus coeficientes, devem ser analisadas isoladamente,
buscando-se como mais representativa, aquela que apresenta dispersão
homogênea dos pontos em torno da média (equação), com a maior aderência
possível aos dados da amostra (maior coeficiente).
No exemplo, duas variáveis e duas transformações, originaram 9 (nove)
equações distintas. Trazendo mais uma variável ao processo de análise (3
variáveis), e mantendo as 2 (duas) transformações, o número de equações a
serem testadas aumenta para 27 (vinte e sete), ou seja, os 9 (nove) testes acima,
para a nova variável em cada uma das formas (direta, inversa e logaritmo).
Desta maneira, cada variável ou transformação acrescida ao processo de
análise, incrementa o número de equações de análise da seguinte forma:
Ao testarmos, por exemplo, 3 (três) transformações: direta, inversa e
logaritmo, em amostra que contempla o total de 10 (dez) variáveis (nove
independentes e uma dependente), o sistema calcula 59.049 equações ( 3 elevado a 10 ). Do
mesmo modo, a inclusão de mais testes de transformações, tais como raiz
quadrada, inverso da raiz, potência de 2 e inverso da potência de 2, também
disponibilizadas pelo SISREN, incrementa significativamente o número de
equações calculadas, aumentando consequentemente, o tempo de resposta do
sistema, de acordo com o potencial do computador utilizado e a quantidade de
dados da amostra.
Estão disponíveis na caixa de diálogo da opção de cálculo do sistema, três
Métodos diferentes de procura do modelo matemático de melhor aderência aos
dados amostrais: geral; dirigido e simplificado, os quais possibilitam maximizar a
relação quantidade de equações calculadas e tempo de resposta do sistema.
No Método denominado geral, cada variável terá testes de transformações
para as formas:
, x
x
, 1
x
, Ln x, x , 1 x
x, 1 2
2 , conforme escolha do usuário, disponíveis na caixa de diálogo do módulo de cálculo
(as três primeiras são default do sistema), sendo calculadas equações para todas as combinações
possíveis entre as variáveis transformadas, gerando um número de equações
igual a nk , conforme descrito. Estas equações serão hierarquizadas pelo
Coeficiente de Correlação (linearização do Coeficiente de Determinação,
c d C = C ), sendo disponibilizados, em ordem decrescente, os 50 modelos que
apresentam Coeficiente de Correlação mais elevado.
O Método geral, calcula quantidade significativa de equações para modelos
acima de 8 (oito) variáveis, exigindo do computador boa capacidade de
processamento, para um tempo de resposta aceitável (até 2 minutos).
No Método denominado simplificado, o SISREN também efetua as
transformações escolhidas pelo usuário em todas as variáveis, no entanto, são
calculadas apenas as combinações que relacionam a variável dependente com
cada uma das variáveis independentes.
Este Método busca de forma mais rápida, modelos com coeficientes de
determinação elevados, no entanto, embora a maior parte das vezes encontre a
combinação de transformações que apresenta o maior coeficiente de todos, isto
não ocorre sempre. É bastante útil nos casos em que o computador utilizado é
limitado e/ou, a amostra contempla variáveis em grande quantidade (acima de 8),
exigindo do Método geral um tempo de resposta mais elevado.
A quantidade de equações calculadas equivalente a:
No Método denominado Dirigido, o usuário define qual a transformação que
deseja adotar, para cada variável, dentre as formas disponíveis no diálogo
disponibilizado após a escolha deste método (lado direito superior da janela do
módulo de cálculo).
Para escolha da transformação a ser efetuada em cada variável para teste,
selecione a mesma na lista disponibilizada à direita da janela e escolha a forma
matemática, entre aquelas disponíveis no canto direito superior da janela (a opção
Auto testa todas as transformações disponíveis).
Os botões com as alternativas de transformações, disponíveis no canto
direito inferior da janela, facilitam a escolha de uma transformação única para
todas as variáveis de forma simultânea.
O módulo Calcular, disponibiliza ainda, em sua janela de diálogo, algumas
opções para agilizar ações na massa de dados antes de iniciar os cálculos. No
canto inferior esquerdo da janela, a opção Analisar Variáveis, verifica possíveis
inconsistências nos valores atribuídos para as variáveis, nos diversos dados da
amostra (em desenvolvimento); a opção Reconsiderar todos os dados, habilita
todos os dados marcados como desabilitados para cálculo, e a opção Durbin
Watson identifica a variável que servirá de base para classificação da massa de
dados no cálculo da estatística de Durbin Watson.
Depois de definidas as alternativas de cálculo, acione o botão Calcular, e
aguarde a resposta do sistema.
4. ESCOLHA DO MODELO DE REGRESSÃO
Efetuados os cálculos definidos pelo usuário, no caso dos métodos geral e
simplificado, o sistema disponibiliza uma relação com as 50 (cinqüenta) equações
que mostraram mais aderência aos dados da amostra, equações estas,
resultantes das transformações matemáticas escolhidas para as diversas
variáveis. Estes modelos de regressão, hierarquizados pelo Coeficiente de
Correlação, são ordenados de forma decrescente.
Na janela de diálogo Opções – Equações de regressão, estão disponíveis
alguns resultados importantes na tomada de decisão, a respeito do modelo
estatístico mais consistente para estimação do valor representativo da média
populacional, com base nos dados da amostra.
Os resultados visualizados, correspondem à equação de regressão, cujo
Coeficiente de Correlação está selecionado (em azul), na parte inferior da janela.
Ao acionar o pequeno botão, com seta, disponível à direita deste campo
selecionado, o sistema mostra a lista de equações, com as 50 mais aderentes aos
dados, hierarquizadas pelo coeficiente de correlação, em ordem decrescente.
Através do mouse ou da tecla (seta para baixo), do teclado, o usuário poderá
observar estes resultados iniciais para cada uma destas 50 equações calculadas,
escolhendo a equação que parece mais adequada, para verificação dos demais
resultados. Feita a escolha, acione o botão aplicar para os testes de consistência.
5. ANÁLISE DE CONSISTÊNCIA
Ao analisar os resultados estatísticos apresentados pela equação de
regressão escolhida, é importante cuidados especiais com alguns tópicos
fundamentais na sua utilização para estimativa de valores médios populacionais.
Principalmente no que diz respeito aos seguintes aspectos:
TESTE DE HIPÓTESES
Cada variável utilizada para explicar e reduzir a variação dos valores dos
imóveis em torno da sua média, representa na verdade, uma hipótese. Isto
significa que, ao afirmarmos que a variação das Áreas dos imóveis causam
variação nos seus valores, formulamos a hipótese de que, quanto maior a área,
maior o valor do imóvel, se conservadas as demais variáveis inalteradas. A
equação de regressão deverá mostrar esta relação.
Da mesma forma, ao utilizarmos a idade dos imóveis como variável
explicativa da variação dos valores em torno de sua média, nossa expectativa é
que a equação de regressão demonstre que, quanto maior a idade do imóvel,
menor seu valor, conservadas as demais condições.
A amostra colhida, deverá demonstrar a veracidade de cada hipótese, com
probabilidade de erro reduzida. A Norma Brasileira para Avaliação de Imóveis –
NB-502, recomenda que não ultrapasse a 10%, o nível de erro máximo aceitável,
ao rejeitar o fato de que cada uma destas variáveis não interfere na variação dos
valores (significância).
TESTE DA EQUAÇÃO
Pelo exposto, o modelo de regressão deverá mostrar, antes de mais nada,
que o crescimento do valor médio dos imóveis está coerente com as expectativas
na formulação de cada hipótese.
Desta maneira, o primeiro e mais importante teste de consistência a ser
efetuado no modelo de regressão, refere-se exatamente à verificação de sua
coerência com cada uma das hipóteses formuladas. Neste teste deve-se
observar qual efeito provocado nas estimativas oferecidas pela equação, quando
há um incremento relativo em cada variável, permanecendo as demais
inalteradas.
No SISREN, ao acionar o ícone (ícone Equação) o sistema mostra a
equação de regressão inferida, tanto na forma linear como transformada (marca
no canto inferior esquerdo da janela), além disso, este módulo mostra um ensaio
numérico e gráfico, sobre a variação observada nos resultados oferecidos por
esta equação, ao se adotar incrementos relativos em cada variável explicativa
(hipótese). Os resultados numéricos estão descritos no tópico Analisando a
Equação de Regressão, do módulo Ajuda do Sistema.
Os diversos gráficos, mostrando a evolução do valor dos imóveis para cada
variável, acessados pelos pequenos botões com setas laterais acima dos
mesmos, podem ser visualizados em 3D, ou transferidos para outros aplicativos
Windows (Word, Exel, etc.), acionando-se o botão direito do Mouse, sobre o
gráfico.
ANÁLISE DE HIPÓTESE INCOERENTE
Uma incoerência entre o resultado obtido na equação e a expectativa em
relação à hipótese formulada, constitui-se defeito que inviabiliza o uso da equação
para estimação de valores médios. Esta incoerência ocorre em três situações:
· Um dos dados contidos na amostra, apresenta uma relação completamente
contrária à hipótese que se busca comprovar;
exemplo:um imóvel colhido para fazer parte da amostra, apresenta idade
bastante avançada e valor de comercialização bem superior aos demais,
enquanto que, pela hipótese formulada, esta relação deveria estar
invertida.
· Grande parte da amostra apresenta-se incompatível com a hipótese
formulada;
exemplo:na amostra, os terrenos com grandes frentes apresentam valores
mais reduzidos que os terrenos com pequenas frentes, enquanto que a
hipótese busca provar que quanto maior a frente, maior o valor dos terrenos.
· Duas ou mais variáveis explicativas (hipóteses) apresentam-se fortemente
relacionadas entre si (colinearidade);
exemplo:na amostra, os terrenos com grandes frentes apresentam valores
mais elevados que os terrenos com pequenas frentes, nesta hipótese a
equação mostra-se coerente. Concomitantemente, outra hipótese busca
provar que quanto mais distante de um pólo atrativo, menor o valor do
imóvel e, embora os dados coletados demostrem este fato, a equação
mostra o contrário. Muitas vezes, isto se deve à uma forte relação entre
frente e distância, onde os imóveis com grandes frentes, estão mais
distantes do pólo atrativo, fazendo com que a frente modifique a
influência da distância, no modelo
Uma forma simples de verificar a presença de qualquer destas ocorrências é,
sem dúvida, a análise criteriosa da amostra, principalmente no que respeito à
comparação numérica e gráfica entre o comportamento do valor dos imóveis e a
variável inconsistente.
O SISREN possibilita este estudo, através da opção Exibir Dados (ícone),
seguida da opção Classificar (ícone), recomendando-se que, a classificação dos
dados, seja efetuada pela variável dependente (valor dos imóveis).
Com os dados listados na tela, ordenados pelo valor dos imóveis, procure
identificar se a inconsistência está baseada em um único dado ou em toda a
amostra. A presença de colinearidade entre variáveis independentes (hipóteses),
é melhor observada através de módulo específico do Sistema, o qual está
explicitado no item Correlações, mais adiante.
DESABILITANDO DADOS INCONSISTENTES
Ao identificar, um ou mais dados inconsistentes com uma das hipóteses
formuladas, observe que os mesmos podem apresentar justificativa nas demais
hipóteses, sendo recomendável portanto, uma análise completa da informação
(dado), antes de adotar qualquer atitude em relação a mesma.
Ao concluir que um dado apresenta-se inconsistente com as demais
informações da amostra, procure efetuar outro ensaio desconsiderando a
presença do mesmo. Para tanto, proceda da seguinte forma:
1) Acione o módulo Editar Dados (ícone);
2) Selecione o dado a ser desabilitado, clicando sobre qualquer campo do
mesmo;
3) Desabilite o dado, clicando sobre a marca que aparece ao lado do
conteúdo do campo selecionado;
4) Acione o botão Salvar seguido do botão Fechar, ambos no rodapé da
janela;
Obs.: - O sistema informa os dados desabilitados para cálculo, colocando
um asterisco (*) na primeira coluna da linha dos mesmos;
- Para habilitar o dado novamente, proceda da mesma forma
indicada acima, marcando novamente o dado no passo 3);
Este procedimento aciona novamente o módulo de Cálculo do sistema,
disponibilizando a janela correspondente. Reveja os procedimentos descritos a
partir do item 3 e recomece a análise.
DESABILITANDO HIPÓTESE INCONSISTENTE
Ao constatar que, a hipótese formulada apresenta-se inconsistente com a
realidade mostrada nos dados da amostra, procure efetuar novo ensaio
desconsiderando a presença da mesma. Para tanto, proceda da seguinte forma:
1) Feche todas as janelas abertas, colocando o sistema na janela inicial do
arquivo (janela inicial na abertura do arquivo);
2) Desabilite a hipótese, clicando sobre a marca que aparece ao lado
esquerdo do nome da variável que a representa (canto superior esquerdo
da janela);
3) Ao acionar o módulo Calcular novamente, o sistema solicita confirmação
do procedimento de regravação do arquivo com a alteração efetuada.
Responda Sim;
Obs.: - Para habilitar a hipótese novamente, proceda da mesma forma
indicada acima, marcando novamente a variável no passo 2);
Acionado o módulo de Cálculo do sistema, proceda a análise da nova
formatação, conforme descri a partir do descrito a partir do item 3 e recomece a
análise.
ANÁLISE DE RESÍDUOS
O uso da Estatística Inferencial no tratamento de amostras
do mercado imobiliário, tem como objetivo a homogeneização dos dados
coletados, através da eliminação da parcela da variação dos valores em torno de
sua média, originada nas diferenças existentes entre os dados.
Isto significa que, a Variação Residual, ou seja, a parcela da
variação que permanece após a retirada do efeito provocado pelas diferenças
entre os dados, deve mostrar-se o mais aleatória possível. Assim, as diferenças
entre os valores amostrados e os valores médios estimados pela equação de
regressão (resíduos aleatórios), não devem apresentar qualquer tipo de
tendência, ou comportamento padronizado, indicando que, algum fenômeno não
contemplado nas hipóteses formuladas ainda está interferindo nesta variação.
Pode-se enumerar uma série de ocorrências que originam
amostras ditas tendenciosas, dentre as quais podemos citar:
- mercado monopolizado ou oligopolizado;
- toda amostra colhida em uma única fonte;
- repetição exaustiva de dados iguais (ex.: vários apartamentos iguais, no
mesmo prédio e com o mesmo valor);
- mistura de dados pertencentes à populações diferentes e, como
conseqüência, com variação causada por hipóteses diferentes (ex.:
mistura de dados com características de glebas em amostra de lotes, ou
vice-versa, mistura de salas comerciais e lojas);
- presença de colinearidade entre variáveis independentes, em níveis
elevados (variáveis independentes -hipóteses- fortemente correlacionadas
entre si);
- expectativas específicas de uma única negociação (ex. imóvel de
herança, com liquidez forçada; imóvel necessário à expansão de agência
bancária; etc.);
- imprecisão na informação das características do dado (algumas
vezes o corretor não possui informações precisas sobre as características
do imóvel à venda, tais como: área, frente, data, etc., fazendo
aproximação grosseira, tal fato acaba inviabilizando o uso da informação)
A análise criteriosa dos resíduos do modelo (diferença entre os valores
praticados nos imóveis da amostra e a média estimada para os mesmos pela
equação de regressão), permite identificar ocorrências deste tipo. Os dados
atípicos em relação à amostra colhida, ou deformações de origens diversas, são
facilmente detectados pela observação dos desvios relativos dos dados em
relação à sua média estimada, e visualização do desenho da dispersão.
ANÁLISE NUMÉRICA DA DISPERSÃO
O SISREN, através do módulo Resíduos (ícone), possibilita a visualização
da dispersão dos dados em torno da média estimada, tanto de forma gráfica como
numérica. Ao acionar o ícone correspondente a este módulo, o usuário acessa a
tabela de informações sobre o comportamento dos resíduos do modelo para a
variável dependente (valor). O conteúdo de cada coluna desta tabela, está
descrito no módulo de ajuda do sistema.
A pequena janela de diálogo, colocada à direita da tabela, no canto superior,
possibilita acesso às tabelas de informações sobre o comportamento de cada
hipótese (variável explicativa). Para tanto, basta clicar no botão com seta à direita
do campo com o nome da variável, escolhendo em seguida, a variável a ser
estudada. Estão disponibilizadas informações referentes às seguintes
características da variável (título indicativo acima da tabela):
- Resíduo da variável: o sistema transforma a hipótese escolhida em
variável dependente, e a variável dependente (valor) em hipótese,
a seguir calcula os parâmetros da equação de regressão em que as
demais variáveis, inclusive o valor, justificam a variação da variável em
análise, informando a dispersão neste caso.
- Resíduo do modelo: esta tabela, acessada com um clique do mouse
no campo correspondente, abaixo do nome da variável, na pequena
janela de diálogo, informa na coluna Valor Calculado, o valor que a
variável (hipótese) deveria apresentar, para que o resíduo da
variável dependente (valor) fosse nulo.
É importante frisar que, no caso de amostras do mercado imobiliários, toda a
análise deve se concentrar no estudo da dispersão apresentada pela variável
dependente (valor), sendo os demais estudos apenas subsidiários a este objetivo.
Estas amostras, via de regra, apresentam alguns indicadores de ajuste, na tabela
de resíduos da variável dependente (valor):
- Na coluna correspondente ao Valor Calculado, não deverá haver nenhuma
estimativa com sinal negativo. Tal fato tem origem nas transformações
matemáticas adotadas, além de colinearidades entre hipóteses.
- Na coluna Desvio Relativo, observa-se que modelos consistentes
apresentam desvio máximo de 30% entre o dado e a sua estimativa
linearizada, sendo aceitáveis desvios de até 60%. Em amostras mais
abundantes (acima de 50 dados), desvios de até 80% são toleráveis. Nos
demais casos convém a verificação da consistência do dado.
ANÁLISE GRÁFICA DA DISPERSÃO
O objetivo da pesquisa científica é a formulação de uma equação de
regressão dita estocástica (cada valor do domínio apresenta uma distribuição de
valores na imagem), cuja distribuição dos dados em torno da média estimada
(equação) seja a mais homogênea possível. Tal fato proporciona estimativas
confiáveis para a média populacional, no domínio da amostra. Visualmente, a
dispersão abaixo apresenta bom indício do atendimento a esta condição, restando
ainda o exame dos indicadores numéricos de análise.
Esta representação gráfica torna-se factível quando a equação apresenta
uma única hipótese (reta), ou até duas hipóteses explicativas da variação (plano).
Para um número maior de hipóteses, usual em amostras do mercado imobiliário,
esta representação conjunta de variáveis torna-se inviável.
No SISREN, forma gráfica da dispersão, acessada através de um clique no
campo Gráficos, disponível na parte inferior da janela de diálogo, os valores
médios estimados pela equação estão dispostos ao longo de uma linha horizontal
e, a diferença entre o valor de cada dado da amostra e sua média estimada, está
representada na distância vertical entre o ponto que representa o dado e esta
linha. O gráfico acima estará representado da seguinte forma:
O mercado imobiliário raramente disponibiliza amostras com dispersão
comportadas como esta, no entanto, modelos, baseados em dados coletados
aleatoriamente e com precisão nas informações de suas características,
apresentam boa aproximação.
As tendências, indicativas de comportamento padronizado nos resíduos,
bem como dados dispersos ou extremos, são características que podem ser
facilmente visualizadas neste gráfico, conforme os seguintes exemplos:
DADOS DISPERSOS E EXREMOS
DISTRIBUIÇÃO HETEROGÊNEA
A dispersão dos dados em torno da média estimada, aumenta à medida em
que o valor estimado aumenta, ou vice-versa (heterocedasticidade).
DISTRIBUIÇÃO PADRONIZADA OU REPETIDA
A dispersão dos dados em torno da média estimada, obedece um padrão
repetitivo para intervalo de valores (auto-regressão).
IDENTIFICANDO EFEITOS COLINEARES
As diversas hipóteses formuladas, com objetivo explicar a variação dos
valores em torno de sua média, são formadas de conjuntos numéricos que podem
ser tratados isoladamente. Estes conjuntos numéricos, foram definidos ou
escolhidos, a partir da observação do seu relacionamento com o valor praticado
para os imóveis.
Assim, a observação do comportamento do valores praticados no mercado,
induz o avaliador à formulação das hipóteses, e a amostra retirada da população
tem por objetivo comprovar que estas hipóteses são verdadeiras. Isto significa
que, quanto maior a relação de causa e efeito entre cada hipótese e o valor, ou de
outra forma, quanto mais forte a relação entre cada conjunto numérico
representativo de cada hipótese e o conjunto numérico representativo dos valores
dos imóveis da amostra, mais facilmente a hipótese será comprovada.
Por outro lado, como as hipóteses são representadas por conjuntos
numéricos, certamente apresentam algum relacionamento entre si, mesmo que
casual, embora não tenha sido este o objetivo do ensaio.
Na verdade, quando os conjuntos numéricos representativos de duas
hipóteses, por exemplo, mostram forte relação entre si, significa que ambas
explicam a mesma parcela da variação dos valores, não sendo possível identificar
o efeito de cada uma destas hipóteses na formação dos valores, de forma isolada.
Dito de outra forma, é como se a relação entre as hipóteses estivesse explicando
a variação dos valores, não sendo possível a utilização do modelo de regressão
nas situações em que esta relação não está respeitada.
- Exemplificando: Área e testada são hipóteses comumente utilizadas
para explicar a variação dos valores dos terrenos urbanos no mercado.
No entanto, a formação dos centros urbanos, tem origem no
fracionamento de grandes propriedades em lotes de dimensões
padronizas, onde a área total dos lotes é uma função de sua testada
(frente para via pública). Este fato resulta em amostras com forte relação
entre estas duas hipóteses, onde quanto maior a testada, maior a área
dos imóveis.
Uma forma simples de identificar o grau de relacionamento entre os
conjuntos numéricos que representam as hipóteses, está justamente na medida
do coeficiente de correlação apresentado entre as mesmas.
No SISREN, o acionamento do ícone correspondente (correlações), permite
a visualização dos coeficientes de correlação de cada hipótese com todas as
demais. A janela visualizada apresenta a primeira hipótese da lista sendo
comparada com as demais, com um clique do mouse ou através do teclado, o
usuário poderá analisar todos os relacionamentos entre variáveis, tanto
isoladamente com em seu conjunto (veja no módulo ajuda do sistema estes
conceitos).
A utilização da equação de regressão para estimação de valores médios
praticados no mercado imobiliário, está restrita aos imóveis inseridos nas
características dos dados amostrados, sendo desaconselhável a extrapolação de
qualquer hipótese, sem a perfeita identificação da tendência da equação após o
limite da hipótese.
Amostras com hipótese colineares, apresentam como agravante a este fato,
restrições de uso para o conjunto das hipóteses. Isto quer dizer que, mesmo que
o imóvel a ser avaliado contenha características numéricas que se inserem no
intervalo numérico das hipóteses, ele deve apresentar ainda um relacionamento
entre as hipóteses compatível com aquele apresentado na amostra.
No exemplo formulado, quando a amostra contém uma relação entre área e
testada, onde as grandes áreas apresentam grandes testadas e as pequenas
áreas contam com pequenas testadas, a utilização da equação de regressão
resultante apresentará uma extrapolação desta relação quando o imóvel a ser
avaliado apresentar uma área grande e frente pequena, e vice-versa.
ESTIMAÇÃO DE VALORES
A análise científica do mercado imobiliário a partir da observação do
comportamento apresentado pelas amostras colhidas do mesmo, tem por objetivo
a inferência de valores médios prováveis para qualquer imóvel pertencente à
população estudada na amostra.
No SISREN, a inferência ou estimação, de valores para imóveis
pertencentes à população amostrada, está disponível através do módulo projetar
(ícone). Neste módulo, a janela de diálogo solicita a digitação das características
numéricas do imóvel a ser avaliado, representadas nas hipóteses formuladas.
Para cada hipótese, o sistema informa os limites numéricos na amostra, avisando
as extrapolações a estes limites.
Depois de digitados os valores de todas as hipóteses, o sistema informa,
através do botão Projetar, o valor médio estimado para o imóvel na população, de
acordo com a amostra, bem como, o intervalo de confiança para a verdadeira
média populacional. Este intervalo de confiança é calculado com base na
estatística t de Student, com probabilidade de acerto controlada pelo usuário
(tabela de opções no lado direito inferior da janela).
Juntamente com a informação dos valores mínimo e máximo do intervalo
de confiança, estão indicados os desvios relativos destes valores em relação á
média estimada. Desvios elevados indicam estimativas pouco confiáveis, muitas
vezes decorrentes de extrapolações de características individuais ou coletivas nas
hipóteses.
Através do botão Gráfico, é possível visualizar o comportamento da função
estimativa da média e seu intervalo de confiança, em relação à cada hipótese
individual, bem como verificar a presença de pontos de inflexão da curva
resultante do uso da função, quando for o caso (pontos de máximo e mínimo).
6. RELATÓRIOS E OUTROS RECURSOS
Os diversos relatórios disponibilizados, descritos no módulo de ajuda do
sistema, podem ser visualizados sempre que o ícone (ícone da lupa) estiver
habilitado.
Outros recursos, tais como a importação e exportação de dados e relatórios
para os pacotes Word e Exel, da Microsoft, além de operações matemáticas entre
as diversas variáveis ou dados, estão descritos no módulo de ajuda do sisteam.
7. Análise de modelo no SisReN - Sistema de Redes Neurais Artificiais
A topologia da rede multicamadas considerada neste software corresponde a
uma rede de duas camadas de neurônios, com a seguinte configuração:
· até 39 entradas (variáveis independentes ou explicativas) na camada
entrada;
· (2 N + 1) neurônios na camada escondida (N – número de entradas) e
· 1 neurônio na camada de saída (variáveis dependente ou explicada).
· 60.000 dados
É também considerado que os neurônios possuem entradas de polarização
cada um. As funções de ativação (transferência do axônio) adotadas são:
· Linear
· Sigmóide
· Tangente Hiperbólico
A topologia utilizada tem a seguinte configuração:
Seja o conjunto de treinamento (dados de entrada e as variáveis
independentes e dependentes) conforme mostrado abaixo:
Geralmente o maior esforço para o treinamento de uma rede neural encontrase
na coleta de dados e no pré-processamento deles. O pré-processamento
consiste na normalização dos dados da entrada e da saída. Para o tipo de rede
considerada o único requisito é que os valores das entradas e das saídas se
encontrem no intervalo de 0 a 1 por compatibilidade com a função sigmóide, caso
a mesma venha a ser utilizada.
Os seguintes procedimentos foram adotados para normalizar os dados das
entradas associados às suas respectivas saídas, antes de usá-los no treinamento
da rede neural:
· Como os valores de 0 e 1 são valores infinitos para a função sigmóide, é
recomendável diminuir este intervalo para valores de 0,2 e 0,8
respectivamente, com o objetivo de facilitar a convergência durante o
treinamento da rede.
· Os dados de entrada e os valores de saída são então normalizados, sendo
definido o domínio dentre os valores colocados acima (0,2 e 0,8).
No SisReN, no módulo exibir variáveis, pode ser verificada a transformação
obtida, escolhendo a tela apropriada, conforme indicado na figura a seguir:
Pode-se verificar que a normalização não altera a escala de valores, apenas o
domínio onde os dados estarão sendo representados.
Uma das condições para obter uma representação neural satisfatória é que os
dados sejam consistentes e reflitam o fenômeno a ser representado, em nosso
caso o mercado imobiliário. A incorporação de subjetividades, fora dos padrões
de avaliação, pode levar a uma rede neural com polarização da sua
representatividade e falhar na estimativa do valor de venda do imóvel. Portanto,
para o início do processo de treinamento, é imprescindível a análise através de
todos os recursos gráficos e de tabelas (incluindo a análise de regressão linear e
inferência estatística paramétrica) que o software dispõe, para eliminar variáveis
inconsistentes e/ou dados inconsistentes.
Outra condição a ser considerada é em relação à quantidade de conjuntos e
ao número de dados de cada um a serem coletados. A quantidade dos conjuntos
não é mais importante que a qualidade dos mesmos. A única condição é que o
número de conjuntos e os dados de cada um contenham os dados
representativos do problema. Uma condição para estabelecer a qualidade dos
conjuntos é que estes não sejam extremamente dispersos. Se for considerado um
conjunto muito distante dos outros conjuntos a rede neural, pode-se refletir num
maior tempo computacional gasto para que a rede aprenda a associar os
conjuntos.
Caso exista uma falha na qualidade dos conjuntos de treinamento, também
haverá uma dificuldade para representar aqueles valores mal condicionados. De
forma geral, a quantidade necessária de dados e variáveis para o processamento
de RNA pode ser fixada em função da mesma quantidade a ser utilizada pela
Regressão Linear, no caso do mercado imobiliário. É importante ressaltar que
quando os dados apresentarem uma distribuição uniforme e não-linear, uma
aproximação linear para esses conjuntos pode trazer resíduos significantes o que
pode levar a estimativas falsas do valor do imóvel sendo avaliado. O objetivo
deste software é a representação dessa distribuição através de redes neurais
artificiais.
Após análise da regressão linear, dispensando dados e variáveis
inconsistentes, pode ter início o processo de treinamento da rede neural. As
opções de treinamento são as disponibilizadas na seguinte caixa de diálogo:
Se os dados apresentarem no pré processamento um comportamento
linear, então a função de ativação mais apropriada é a linear. Caso contrário,
existem as outras funções que permitem descrever o comportamento de mercado
através de modelo não linear. A seguinte tabela pode ser utilizada como ponto de
partida:
O gráfico que será apresentado a seguir irá ajudar no monitoramento do
processo de treinamento, devendo este ser interrompido quando não houver mais
alteração no erro quadrático calculado. A figura a seguir ilustra este
comportamento:
Após o treinamento, deve ser verificada o poder de predição do modelo,
bem como o comportamento de cada variável independente (entrada) com a
variável independente (de saída), para verificar o ajuste dos dados ao modelo
escolhido. É importante ressaltar que as redes neurais devem ter o seu
treinamento interrompido quando ainda possuiu uma boa capacidade de
generalização, e não somente quando a aderência obtida for a máxima, pois a
rede, nesta situação, está apenas decorando o comportamento da amostra
colhida e perde o poder de predição. Nos gráficos abaixo, obtidos através do
SisReN, podemos verificar a aderência e o comportamento das variáveis (módulo
de aderência e testa da equação):
Por última, deve ser verificada a estimativa de valores para imóveis que
tenham sido separados da amostra inicial. No módulo de projeção de valores
temos os resultados obtidos, conforme abaixo ilustrado:
Conclusões e perspectivas futuras:
Para que a RNA possa ser definitivamente utilizada na Engenharia de
Avaliações, no estágio atual de estudos, é fundamental que os pressupostos
básicos relacionadas no anexo A do projeto de Norma 14653-2 sejam atendidos.
Porém, alguns destes pressupostos somente podem ser alcançados ainda se
utilizados os modelos de regressão linear. Cabe ressaltar que a modelagem
através de redes neurais tem apresentado muitos avanços, principalmente quanto
à validação estatística de seus resultados, o que nos leva a acreditar que em um
futuro próximo este estudo estará completo.
A proposta final deste software enfatiza a necessidade da utilização paralela
de um sistema computacional onde seja possível estimarmos o valor de mercado
através da RNA e da Regressão Linear Múltipla, a fim de estabelecermos
intervalos de confiança para os resultados obtidos pelo método dos mínimos
quadrados. Se for verificado que os valores estimados pela RNA estão dentro
deste intervalo, porém mais aderentes aos dados, então a conclusão pelo valor
deve ser a favor da RNA, e justificado no laudo descritivo.