Arquivo da tag: Estatística

Dos delitos, das penas e dos almoços.

Rookie

O resultado de uma decisão judicial depende apenas das leis e dos fatos? Com essa pergunta, os matemáticos Shai Danziger, Jonathan Levav e Liora Avnaim-Pesso causaram tumulto em um artigo publicado em Proceedings of the National Academy of Science, um periódico científico americano extremamente bem respeitado, e gostaria de compartilhar esse artigo hoje com vocês.

No artigo, os autores compilaram 1.000 decisões judiciais de liberdade condicional, em que o resultado poderia ser apenas sim (liberdade concedida) ou não (volta para a cela), para explorar um lado pouco comentado do sistema judiciário, pouco mencionado em cursos de direito. Com estatística, poderíamos ver pela primeira vez a influência marcante do café da manhã na definição do futuro de um integrante do sistema carcerário.

O sistema de decisão judicial funcionava da seguinte forma: os prisioneiros eram julgados dependendo da ordem de chegada dos advogados ao tribunal, não tendo poder sobre o horário em que teriam seu caso analisado. Os autores do artigo decidiram compilar a seguinte estatística: como o número de decisões favoráveis varia em relação à hora do dia? Sendo Sim = 1 e Não = 0, podemos fazer a média das decisões e estudar como essa média varia da primeira decisão do dia à segunda, da segunda à terceira e assim por diante. O resultado é o seguinte gráfico:

F1.largeNo eixo X temos a ordem das decisões, sendo x=1 a primeira decisão do dia, x=2 a segunda e assim por diante; cada tick marca uma decisão múltipla de 3. As linhas pontilhadas são pausa para almoço e pausa para café. O gráfico fala por si.

Alarmados com esse resultado, os cientistas estudaram outras variáveis em função da posição da decisão no dia. Porque correlação não implica causalidade, esse comportamento pode ser causado por uma terceira variável que liga as decisões e o horário. Eles então estudaram a gravidade da ofensa, número de encarceramentos prévios, porcentagem de presos que estavam em um programa de reabilitação quando postularam a liberdade condicional e o número de meses cumpridos da pena. Os resultados são:

F3.largeÉ fácil ver que o padrão do primeiro gráfico não chega perto de se repetir em nenhum outro. As outras variáveis não apresentam correlação clara com almoço ou café, não nos resta outra alternativa. Os autores do artigo são hesitantes, dizem que gostariam de achar uma variável escondida, mas a conclusão parece clara: uma decisão judicial depende de leis, fatos e do que o juiz comeu no café da manhã.

Os autores explicitam que não sabem se é a comida ou o repouso. Talvez estar descansado mentalmente torne os juízes mais brandos, e talvez depois de ler tantos históricos com crimes horrendos eles vão endurecendo nas decisões e a pausa lhes restabelece a obrigação da imparcialidade. Independente da sua explicação favorita, o estudo acende debates e reflexões interessantes sobre nossa maneira de fazer avaliações.

Podemos perguntar da taxa de sucesso de entrevistas de emprego em função da ordem de apresentação dos candidatos, podemos perguntar a relação entre nota de um aluno em prova oral e sua ordem de passagem pela lousa. Independente da pergunta, se podemos tirar uma lição do artigo, percebemos que pessoas alimentadas são mais felizes, que você quer seu caso julgado por um juiz repousado, e que levar uma maçã para a professora, no final das contas, é uma excelente ideia.

A valsa dos partidos, de Collor a Dilma

Rookie

Nesse primeiro de abril lembramos os cinquenta anos do golpe. Vi uma série de reportagens e matérias sobre o evento, sobre as causas e as supostas causas, mas pouco vi sobre onde chegamos desde então. Não sou historiador, não tenho calibre para escrever nada a respeito da história política, mas gosto de estatística e de analisar dados coloridos. Por isso, gostaria de compartilhar com vocês o resultado da aplicação de algumas técnicas estatísticas interessantes no estudo e análise do que tem sido a política brasileira desde o fim desse período sombrio de nossa história até os dias de hoje. Queria compartilhar a estatística da câmara dos deputados, os movimentos, fluxos e tendências, desde o governo Collor até a presidência de Dilma. Esse post é imenso, e extremamente incompleto. Preciso da ajuda de vocês para entender a maioria do que observei. Se você achou o post longo, basta ler o começo para entender como os gráficos funcionam e se divertir nos vídeos.

Como expliquei nos posts anteriores sobre o assunto, esse não é um blog de política e esse não é um post político. Comentários culpando os petralhas ou a privataria tucana não são tão bem-vindos quanto análises refletidas sobre os dados que vou apresentar. E tento manter meus comentários sempre no lado da estatística da coisa, não insiro nenhuma informação sobre a ideologia dos partidos nos dados e não faço juízo de valores das decisões dos governos de cada partido.

Antes de apresentar os dados, preciso explicar o que são esses dados. Como nos posts anteriores, eu uso como dados apenas os votos proferidos pelos deputados da câmara nos projetos de leis envolvidos naquele ano. Cada gráfico representa os deputados daquele mandato como pontos coloridos, sendo a cor referente ao partido. Pontos próximos significam deputados que votaram de forma semelhante. Pontos distantes significam deputados que votaram de forma muito diferente. Dessa forma, podemos identificar blocos e estruturas na política. Simplificando bastante, você pode imaginar o gráfico dividido em quatro quadrantes, a posição dos deputados e partidos nesse quadrante diz bastante sobre o lugar deles no cenário político:

quadrado

Ou seja, nesse gráfico os eixos não importam, o importante é a distância entre os deputados, essa sim significa alguma coisa. Eu pensei em mostrar as matrizes, como da outra vez, porque gosto bastante delas e porque elas representam a informação completa enquanto esse gráfico é uma projeção em duas dimensões de um problema a $N$ dimensões. Por motivos que eu pretendo algum dia terminar um post explicando, eu não perco tanta informação quanto vocês imaginam passando de $N$ a duas dimensões, essa é uma das maravilhas da técnica de análise de componentes principais. Esse fato é resultado da intensa polarização da estrutura política, mas isso eu discuto em outro post. Em cada gráfico, contei apenas deputados que votaram em mais de 30% das eleições em todos os anos daquela legislatura, a ideia é desconsiderar suplentes e gente que abandonou o barco para fazer qualquer outra coisa. Já tenho poucas votações, se eu os incluísse correria o risco de admitir um circo de estatística de péssima qualidade sujando meus dados, não podia correr esse risco.

E quais os dados desse gráfico? Usei apenas os votos de cada membro do congresso, ou seja, se eles disseram “Sim” ou “Não” às propostas que estavam em votação no plenário. Pela estrutura dessa conta, pouco importa se é sim ou se é não, eu estou interessado apenas em quando deputados votam de forma parecida ou divergente. Para quem gosta da matemática envolvida, uma frase apenas (que você pode ignorar se não entender): esse gráfico são as coordenadas dos dois componentes principais, ou seja, as coordenadas dos autovetores da matriz de correlação associados aos dois maiores autovalores, ponderados pelos autovalores.

Mas você, como eu e o Datena, quer as imagens. Sem mais, começamos com o primeiro, e mais turbulento, mandato da nova democracia brasileira.

  • Governo Collor/Itamar: 1991-1994

É complicado começar com esse período, porque ele é um dos mais complexos e interessantes. Os pontos que levanto aqui levam em conta os períodos seguintes, e o contraste que ele apresenta com os períodos de democracia mais estável.

O ano 91 apresenta uma política bem esparsa e pouco polarizada. Percebemos a região do governo dominada pelos herdeiros políticos dos partidos decorrentes do Arena: PP e PFL dominando essa região representando a “base aliada”. É complicado falar de governo e oposição em um mandato em que o presidente era de um partido minoritário, tão pequeno que foi excluído da análise, apresentou apenas quatro deputados na câmara e eu não queria gastar uma cor com o PRN, cores são preciosas nesses gráficos.

De 91 para 92 notamos uma polarização em um regime tríplice curioso. O governo é contrastado com duas oposições, de um lado o bloco PMDB-PSDB e do outro PT-PDT-PCdoB. Ainda que oposicionistas, esses blocos divergem entre si, criando essa tripla estrutura de poder que não dura muito tempo.

De 92 a 93 ocorre uma grande reviravolta no cenário político, o que imagino ser resultado da deposição do presidente em dezembro de 92. O resultado é uma espécie de governo de coalizão: base aliada e oposição se aproximam nas votações da câmara dos deputados. Eu nunca ouvi falar de tal processo, nem sei se era completamente conhecido, mas a estatística é clara: situação e oposição votaram de forma profundamente semelhante em 1993 contrastando drasticamente com o comportamento apresentado nos anos anteriores (e posteriores, como veremos).

Não me arrisco nas causas da coalizão, deixo a quem sabe do assunto. Poderia chutar que a queda do presidente e o temor de uma volta da ditadura poderia ter impulsionado os parlamentares a acertarem suas diferenças e terem votado, durante 1993, de forma semelhante em projetos importantes, ou a busca do presidente Itamar pelo apoio dos partidos mais à esquerda; mas posso estar, e provavelmente estou, completamente errado.

No final de 93, percebemos o PMDB migrando para a zona governista. Não quero estragar o suspense dos próximos vídeos, mas revelo que ele não sairá de lá tão cedo.

E onde está 1994?

Eu também gostaria de saber! Os dados que obtive da câmara mostram a convergência de dois fatores tristes para minha análise: em 94 houve um número extremamente reduzido de votações totais e uma proporção particularmente elevada de votações secretas, apenas 17 votações abertas dentre as 84 votações totais. Como base de comparação, tomemos os anos vizinhos: 93 teve 75 votações abertas e 179 totais, 95 teve 138 votações abertas e 248 totais. A pista para entender esse mistério talvez esteja no ano que é o segundo colocado em matéria de poucas votações abertas: 2002 (41 votações abertas e 116 totais). Aparentemente em anos de eleição em que há mudança de governo, há poucas votações e, dentro delas, uma proporção muito baixa de abertas. Não confirmo que essa seja a razão, ambos também são anos em que o Brasil ganhou a copa do mundo, deixo os números aqui para vocês e aguardo interpretações.

Uma palavra no código de cores. Os partidos progressistas são todos denotados na cor rosa porque, no futuro, irão se fundir. Isso foi uma decisão estética, falta cores no espectro visível para tantos partidos no Brasil. É importante também notar que o laranja, apesar de mesmo nome, não é o atual PSD, o “partido do Kassab”. Este PSD será extinto e o novo PSD irá se apropriar do nome, ele também se apropria da cor porque meu código de gerar esses gráficos é indiferente às sutilezas da política brasileira.

  • Governo FHC I: 1995-1998

O primeiro mandato de Fernando Henrique Cardoso representa uma grande estabilização na política nacional, definição razoavelmente clara de governo e oposição com uma forte base aliada composta dos partidos progressistas, do PFL, do PSDB e uma grande fatia do PMDB. Os movimentos durante esse período são suaves e eu não pude perceber nenhum fenômeno marcante na dança dos partidos durante esse ano. Percebemos um fato que se repetirá nos mandatos seguintes, parece ser uma lei da política brasileira: a cada mandato, a base aliada começa coesa e termina difusa. Nesse mandato, percebemos esse efeito mais claro no último ano. Minha interpretação é tão boa quanto a sua ou pior, mas isso pode representar a incerteza dos parlamentares quanto ao apoio que deve ser atribuído em ano de eleição. A difusão em 1998 é fraca comparada a 2002, o que pode ser explicado pela vitória esmagadora de FHC nas eleições de 1998, ou pode também ser explicada pelo fato de 98 ser a análise de mais de 100 votações enquanto 2002 apenas de 41. Ou seja, não tenho uma explicação muito convincente para esse comportamento.

Olhando esse gráfico, eu lembro do PMDB do senado em 2012, que estudei em outro post. Ainda que faça parte da situação essencialmente, ele é razoavelmente difuso e dança de acordo com o resto do conjunto. É fácil ver que o PMDB parece ser equivalente ao sistema total, apenas em escala menor. Para confirmar essa suspeita, precisamos do tira-teima, vejamos esse mesmo gráfico colocando o PMDB em destaque.

Esse gráfico mostra que durante o governo FHC I, como vai o PMDB, assim vai o Brasil. Fica a pergunta se o PMDB segue os movimentos da câmara ou se os define, mas uma coisa é clara: essa cauda do partido indica uma oposição enrustida em alguns de seus membros.

O maior problema desse período também é minha profunda falta de conhecimento das manobras políticas da época. O ideal é observar o gráfico, encontrar fenômenos e tentar explicar com as manobras, mas confesso que as manobras ajudam a ter algo para procurar. Fato é que entre meus sete e onze anos eu não assisti tanto ao Jornal Nacional, então minha conclusão final é: período tranquilo, bem definido com oposição reduzida e forte base aliada, sendo o PMDB o partido menos coeso, mais dinâmico e quase distribuído proporcionalmente em torno do espectro.

  • Governo FHC II: 1999-2002

Esse período apresenta um dilema na análise. Olhando de forma ingênua, podemos achar que a base aliada se desintegrou pouco a pouco conforme o governo avançava. Enquanto isso é coerente com o que leio do segundo mandato do governo FHC, o ano 2002 é particularmente problemático: até o PT parece se dispersar! Mas devemos lembrar que esse ano possui um número anômalo de votações, apenas 41, isso pode ser a maior causa da falta de coesão de todos os partidos. Usando um número tão pequeno de votações, podemos obter um resultado que não convergiu bem para a real coesão partidária, e certamente não tanto quanto os anos anteriores.

Notamos, contudo, a continuação da forte polarização governo-oposição, sendo a base aliada PSDB, PFL, PMDB, PP/PPB e PTB, a oposição liderada pelo PT e contendo PCdoB, PDT e PV, com o PL em terra de ninguém entre os dois mundos. Novamente, se alguém é um entendido no período, preciso de um norte para analisar esses resultados. A olho nu, não enxergo nada particularmente importante além da continuação do fenômeno de desintegração da base aliada no decorrer de um mandato. A explosão parece particularmente acentuada em 2002, mas não posso dizer o quanto disso é um efeito real ou da estatística precária que possuo. Pensei em fazer como 1994, que omiti, mas 41 parece mais justo que 17. Toda essa estatística não é de primeira qualidade, o fato de ter menos votações que deputados pesa, mas é o que tem para hoje. Fazemos o que podemos com o que temos.

O período seguinte é o governo Lula, mas prefiro estudar a fundo a transição FHC-Lula. Por si, ela valia um post, e é provavelmente a parte mais interessante desse post todo.

  • Transição FHC-Lula: 2001-2004

Lembrando que Lula foi eleito em 2002 e assumiu em 2003, o que é esperado em nossos gráficos? De forma ingênua, podemos esperar que os blocos oposição e governo troquem de lugar, como em uma quadrilha democrática, imaginamos que o movimento diagonal será intenso e que pouca gente ficará no mesmo lugar. E estaríamos errados.

E difícil analisar duas legislaturas diferentes, pois me parece injusto comparar quem saiu com quem entrou. Para evitar esse problema, reduzo o espaço amostral: nessa seção, analiso apenas os deputados que se reelegeram em 2002, ou seja, estavam presentes tanto em FHC II quanto em Lula I. Dessa forma, consigo segui-los durante os anos 2001-2004 sem me perder ou sem cometer injustiças. Vejamos o que acontece:

É muita coisa para seguir, mas conseguimos distinguir parte do comportamento esperado, e parte de um comportamento curioso. Enquanto há de fato uma troca entre oposição e governo, PSDB-PFL dançam quadrilha com PT-PCdoB-PDT-PL-PDT, trocando de lugares no jogo democrático quando o governo é assumido pelo presidente Lula. Mas há diversos outros partidos no balaio, e é fascinante como o movimento do PMDB-PP/PPB-PTB é drasticamente diferente dos outros partidos. Enquanto o primeiro grupo troca de lugar, o segundo estaciona e trata a mudança de governo com a naturalidade de uma quarta-feira. Para deixar esse fenômeno explícito, e provar que não estou inventando, reproduzo esse mesmo gráfico em dois: um com os partidos “ideológicos” (PT, PSDB, PFL, PCdoB, PDT, PL) em destaque e outro com os “governistas” em destaque.

 Não quero inserir juízos de valor nessa análise, quero bastante me conter, mas convenhamos, esses gráficos não parecem ser do mesmo período. Lembrando o que esse gráfico representa: em 2001, os deputados do PMDB, PP/PPB e PTB votavam profundamente alinhados com os votos do PSDB/PFL. Em 2003, esses mesmos deputados votavam exatamente como o PT votava! Certamente houve uma mudança na orientação partidária, nas alianças políticas, mas eu quero enfatizar que esse gráfico segue as mesmas pessoas. Em uma diferença de meses eles passaram de seguidores fiéis da direita tucana a apoiadores incondicionais de todas as propostas petistas de esquerda no plenário. O fenômeno é fascinante, e a matemática é implacável: esses deputados passaram por alguma experiência reveladora, como Saulo de Tarso, que os compeliu a se fazerem uma nova pessoa, um novo homem ou mulher, deixando para trás ideias que pregaram durante no mínimo quatro anos, e politicamente desde 1993.

Observando o gráfico com o foco nos ideológicos, percebemos o início da derrocada do PSDB. Notem que tanto PSDB quanto PFL deixam um “rastro” de deputados na base aliada, pontos azuis e roxos que se recusam a abandonar o barco quando afunda e preferem apenas pular para a nova embarcação vermelha que ancorou nas águas governistas. Entre o primeiro e segundo ano do governo, percebemos que esse rastro de deputados tucanos e frente-liberais é rapidamente absorvido em uma fagocitose política que não deixa traços. Foram eleitos pelo PSDB e PFL, essa foi a sigla que financiou suas campanhas de reeleição; mas entre maioria na câmara e integridade ideológica acabaram fazendo uma escolha bem definida. Fossem um ou dois eu poderia suspeitar de um avivamento esquerdista individual, mas a quantidade traz desconfiança.

  • Governo Lula I: 2003-2006

Estudamos esse governo em outro post, mas agora temos muito mais base de comparação com os governos anteriores. Enquanto naquele post eu disse que o comportamento de correlação entre as duas metades do primeiro governo Lula era compatível com a narrativa de um mensalão, revejo essa análise à luz dos dados dos governos tucanos anteriores. Parte desse movimento pode ser apenas esse fenômeno natural de desintegração da base aliada ao longo de uma candidatura. Ainda, o movimento petista em 2005 é ligeiramente diferente da dispersão normal, há um isolamento do PT em relação aos outros partidos da base aliada. Curiosamente, o PT volta ao centro da base aliada em 2006. Levanto duas possibilidades de explicação:

  1. O escândalo do mensalão isolou o PT em 2005, mas em 2006 a poeira havia baixado e a condição de normalidade se reestabeleceu.
  2. A desintegração da base aliada é um fenômeno natural, mas em 2006 as eleições presidenciais estavam praticamente certas e a base aliada não arriscou fazer compromissos com a oposição para poder mudar de barco caso afundasse.

Ou qualquer outra explicação que vocês encontrarem, não coloco minha mão no fogo por nenhuma análise política minha e quero deixar isso bem claro. É fundamental notar o caminhar da oposição durante esse mandato. A política brasileira desde 2003 tem sido a história da derrocada dos partidos de direita. Compare a força oposicionista (distância da base aliada e coesão partidária) petista durante o governo FHC e a força da oposição ao governo Lula. Não se enganem, notem a escala dos eixos, a distância horizontal é muito mais importante que a vertical. Matematicamente falando, nesse período PSDB e PFL votaram de maneira dispersa e não confrontam a base aliada na mesma ordem de grandeza que a oposição de períodos anteriores. Houve uma tentativa de coesão em 2005, provavelmente resultado do escândalo político dando força à oposição, mas 2006 amanheceu um novo ano e o PSDB explodiu na direção da base aliada.

  • Governo Lula II: 2007-2010

Lula foi uma poderosa cola na base aliada durante seus oito anos de mandato, e particularmente nos quatro últimos. A presença do PMDB se revela mais uma vez fundamental para o poder da base aliada: se os verdes estivessem no outro canto do gráfico, o PT passaria poucas leis durante o mandato de Lula. A base aliada é composta majoritariamente de PT-PP-PMDB-PR, enquanto oposição é PSDB-PFL/DEM.

Se a oposição terminou o primeiro mandato de Lula aninhando-se na base aliada, ela começa novamente bem longe e suficientemente coesa, para ir novamente se aproximando e se difundindo. É notória a presença do PSOL, seus três deputados como um sistema ternário de estrelas passeiam pelo espectro representando a coesão do partido e seu caráter oposicionista.

Percebemos a crise do PFL nesses dados, não apenas por sua mudança de nome para DEM. Note o que é esse mesmo período, focando apenas os frente-liberalistas:

Não apenas esse partido, central na base oposicionista desde 2003, visita constantemente a base aliada; ele pouco a pouco se dispersa e cede à tentação de abraçar a zona governista. O PSDB segue em parte, na natural aproximação entre base aliada e oposição que parece ocorrer ao final de cada mandato. O movimento do DEM se completará no governo Dilma, e sua trajetória de 1991 a 2013 não terá final feliz.

  • Governo Dilma: 2011-2013

Chegamos aos dias de hoje, e o governo Dilma apresenta uma estatística rica e, em minha opinião, mais interessante que a dos predecessores. O primeiro fenômeno observado é o surgimento do PSD, que não é o mesmo PSD de antes, a falta de originalidade no nome reflete minha falta de originalidade nas cores. Esse novo PSD é o tal “partido do Kassab”, e se alastra na região central do espectro político como uma epidemia que varre o DEM e pesca alguns parlamentares da base. Os democratas hesitantes do governo Lula encontram casa nesse novo PSD, e vale estudar esse fenômeno com mais cuidado para determinar exatamente de onde são recrutados os novos integrantes desse partido.

A criação do PSD consuma o destino do PFL/DEM, e completa sua trajetória de majoritário na base aliada em 1991 a uma sombra do que já foi em 2013.

Outro fenômeno interessante aparece durante o governo Dilma. Em outras legislaturas, pudemos observar a difusão da base aliada como um processo natural, mas há algo diferente no governo Dilma. Não é uma simples difusão, em 2012, o PT é isolado na base aliada, enquanto o restante dos partidos migra para uma região central formando uma segunda base governista. Pela primeira vez desde 1992 temos novamente uma estrutura com três polos de poder político: PT-PCdoB no topo da base aliada, o grande bloco governista PMDB-PP-PTB-PSD e o que chamávamos de oposição PSDB-DEM.

Nesse contexto em que as divergências entre o bloco central e o PT são grandes, vale questionar nossas noções antigas de oposição e base aliada. Ainda que o vice-presidente seja peemedebista, as correlações entre PMDB e PT parecem se deteriorar bastante conforme Dilma vai governando. A base aliada não se torna exatamente difusa com o tempo, ela se polariza em duas, como se o PMDB decidisse formar sua própria base aliada e não convidasse Dilma para a festa.

  • Conclusões?

Não tenho conclusões próprias desse experimento. Os gráficos estão corretos e minhas análises provavelmente erradas, peço novamente a contribuição de vocês para lerem esses dados e apontarem o que esqueci ou inventei. Como isso é ciência, divulgo o conjunto dos dados usados e os dados brutos, bem como os vídeos para download aqui. Façam suas próprias análises, questionem meus gráficos e combatam minhas afirmações, analisem como acharem adequado e justo; esse é o único jeito de se fazer ciência, o único de se chegar a uma resposta certa.

Minto, talvez tenha uma conclusão. Os gráficos que apresentei colocam em xeque uma noção política que tentamos usar no Brasil, mas falhamos: nossa tentativa de rotular partidos e parlamentares como de esquerda ou de direita. Em uma conversa de bar, se você perguntar sobre parlamentares de direita, provavelmente ouvirá como resposta a bancada evangélica, Jair Bolsonaro, Paulo Maluf; entre outros. Jair Bolsonaro e Maluf são do PP (base aliada), enquanto em 2013 foram considerados líderes da bancada (evangélica) os parlamentares João Campos (PSDB-GO), Anthony Garotinho (PR–RJ), Eduardo Cunha (PMDB-RJ), Lincoln Portela (PR-MG) e o senador Magno Malta (PR-ES) (Wikipédia), notamos que apenas o primeiro deles pertence a um partido dito de direita, os outros todos são membros de partidos profundamente enraizados na base aliada petista, nominalmente um governo de esquerda. Junte isso ao FHC, grande cacique do PSDB, defendendo abertamente a legalização da maconha para ter uma imagem colorida do que é a política brasileira.

À luz dos dados, e da valsa que foi acompanhar o espectro político durante 22 anos, não consigo mais usar termos ideológicos para a política brasileira. Não é desilusão, é estatística; esses dados são isentos de ideologia e mostram com quem cada parlamentar votou. Essa dança de pontos parece ser mais facilmente explicada como conjuntos de parlamentares que conseguiram alianças ou não conseguiram alianças, suas opiniões em programas sociais, dívida pública, direitos contraceptivos, privatizações ou direção econômica não parecem valer dois centavos, já que um mesmo parlamentar pode em 2002 apoiar azul e em 2003 votar exatamente como vermelho.

Isso me parece um resultado natural de nossa cultura política. Não votamos em partidos, votamos em indivíduos, em parlamentares individuais. Nessa lógica, o indivíduo ganha força sobre o partido, o que traz a riqueza desses gráficos. Se essa análise fosse feita na França ou nos EUA, os gráficos nos matariam de tédio, os partidos possuem muita força e um parlamentar que sai da linha não é facilmente perdoado, todo gráfico seria composto de blocos extremamente coesos e distantes. A quantidade de partidos e sua distribuição de tamanho seriam também muito diferentes: nos dois países mencionados eu poderia fazer este gráfico em preto-e-branco, enquanto aqui falta frequência no espectro visível para tanto partido; se eu precisasse representar o PSC eu teria que usar infravermelho.

Retomando a origem deste post, temos o golpe de 1964. Nele, alguma direita acusou a esquerda de uma tentativa de golpe e, para evitá-lo, tomou a iniciativa. Atualmente, essa noção está tão longe de nossa política quanto os gols de Pelé daquela época estão de nossa seleção. Se levantarem em nossa conversa de bar reclamações sobre o direitismo de Jair Bolsonaro, podemos argumentar que o partido de Bolsonaro foi estatisticamente indistinguível do PT durante o governo Lula. Suas declarações pouco importam, seu impacto é nos votos. Nessa discussão podemos ouvir que o PSOL é o único partido verdadeiramente de esquerda do Brasil, e podemos responder que ele foi estatisticamente mais próximo do PSDB que do PT ou do PCdoB durante todo o governo Lula e em 2011 os três deputados psolistas foram quase estatisticamente indistinguíveis de um típico deputado tucano. E se isso é uma conversa de bar, preciso perguntar: há direita no Brasil? Há esquerda? Não tenho respostas para essa pergunta, essa hipótese não foi necessária para minha análise. Tenho partidos vermelhos, azuis, verdes, rosa, cinza e laranjas surgindo, morrendo, brigando, valsando e compondo com complexidade e riqueza sinistras a câmara dos deputados, e, nela, definindo os rumos dessa nação.

Correlações e matrizes I

Rookie

Muitos pediram para que eu dedicasse um post à técnica que usei no estudo de correlação dos votos dos políticos nos últimos posts. Gostei das análises e confio em minhas conclusões, mas isso aqui é ciência, meus métodos precisam estar claros para que eu ganhe credibilidade. Pretendo ainda explorar a montanha de dados que tenho das votações dos deputados, mas, como meu computador foi furtado e com ele foram os scripts de análise que tinha feito, mando um post intermediário sobre a técnica antes de continuar com mais resultados. Este post será um pouco árido, mas peço paciência, o assunto é fascinante e as aplicações são imensas em todas as áreas da ciência ou da análise de dados. Seguindo este roteiro, você pode encontrar correlações entre quaisquer duas variáveis em sua pesquisa, em sua empresa, em sua sala de aula.

Vou começar tratando um problema diferente, na área da pedagogia. Eu tenho as notas de física e matemática de dez alunos: Alice, Bruno, Carolina, Daphny, Eduardo, Frederico, Gabriela, Hugo, Igor e Jonas, que serão referidos apenas por sua letra inicial:

Aluno: A B C D E F G H I J
Fís 5,0 8,0 10,0 2,0 4,5 9,0 6,0 3,0 9,0 8,0
Mat 6,0 7,0 9,5 0,0 4,5 7,0 4,5 2,5 8,0 8,0

Quando eu me pergunto se há alguma correlação entre física e matemática, quero saber, sabendo a nota de um aluno em física, se consigo dar um bom chute de qual será sua nota de matemática. Essa tabela não ajuda muito, melhor seria se eu visualizasse meus alunos como os pontos em um gráfico:

correlacao_1Com o gráfico é mais fácil ver que parece haver uma forte correlação positiva entre física e matemática. Se um aluno é bom em matemática, esses pontos me dizem que é um bom chute dizer que ele também é bom em física. Como queremos um método decente de dizer isso, medimos a chamada correlação entre duas matérias. Há diversas maneiras de definir correlação, sendo a correlação de Pearson o exemplo mais clássico de medida de correlação. Intuitivamente, queremos que essa correlação seja alta quando as notas de física e matemática andam juntas, que seja perto de zero se as variáveis parecem independentes e que seja muito negativa se ter nota em física parece atrapalhar a nota em matemática.

Precisamos matematizar isso de uma maneira coerente. Quando um aluno tirar nota baixa nas duas matérias, quero que a correlação entre as matérias aumente, e também quero que ela aumente quando um aluno tirar nota alta nas duas. A correlação deve diminuir quando um aluno tirar nota alta em uma e baixa em outra. Mas qual seria a melhor definição de alta ou baixa? Por justiça e senso comum, uso a média da sala como parâmetro, e defino nota alta e baixa como acima ou abaixo da média. Para que as coisas fiquem bem claras, eu subtraio a média de cada nota e terei o novo gráfico:

correlacao_2E aqui já percebemos que a correlação entre essas matérias certamente é positiva. Notamos que pontos nos quadrantes 1 e 3 (positivo-positivo e negativo-negativo) são pontos que contribuem com a correlação entre as matérias, enquanto pontos nos quadrantes 2 e 4 diminuem essa correlação. Como tenho apenas um ponto no quarto quadrante, e ele está quase na fronteira, é fácil admitir que a correlação é positiva entre as matérias. Contudo, ver não é o suficiente, quero um número para essa correlação.

O que a correlação de Pearson diz é que cada aluno contribuirá com a correlação com um valor de acordo com o produto de suas notas. Essa noção é boa, pois menos vezes menos dá mais, então pontos nos quadrantes um e três contribuirão para aumentar a correlação e pontos nos quadrantes dois e quatro diminuirão esse valor. É importante notar também que, nessa métrica, pontos mais distantes da média contribuem mais com a correlação que pontos próximos. Isso é razoável, pois um ponto próximo da média nas duas matérias poderia estar em qualquer quadrante com pouco esforço, enquanto trazer o ponto D, o mais extremo à esquerda, a outro quadrante exigiria muita aula particular.

Antes de calcular esse valor, precisamos sanar outro problema. Se esse estudo fosse feito na França, as notas iriam de 0 a 20, pois usar base 10 nesse país é démodé. Esses dados teriam uma flutuação maior e as correlações calculadas seriam diferentes, ainda que a proporção entre eles fosse a mesma. Ainda que eu subtraia a média, os valores deixariam de flutuar entre -6 e 6 para flutuarem entre -12 e 12, o que tornaria multiplicações entre eles maiores e a correlação maior. Se a distância em relação à média de algum aluno fosse 5 em matemática e 4,5 em física, a contribuição na correlação seria 22,5 no Brasil; na França, seria quatro-vintes e dez! Não é porque eu mudo a escala que a correlação aumenta, uma análise da correlação de altura e peso da população não pode depender do uso de centímetros ou polegadas ((Contudo, estudar em polegadas é moralmente errado.)) .

O ideal seria dividir os valores por algo que leve em conta a dispersão deles, e um excelente candidato é o chamado desvio padrão. Essa grandeza nada mais é que a raiz da média dos quadrados dos elementos. Se as notas de física são 3, 5, 8 e 10, eu primeiro subtraio de todos a média, que é  6,5, tendo como notas -3,5, -1,5, 1,5 e 3,5. O desvio padrão será

\[\sqrt{\frac{(-3,5)^2+(-1,5)^2+1,5^2+3,5^2}{4}}=2.89.\]

Uma interpretação possível do desvio padrão é o quão longe da média os dados estão. Em nosso caso, parece bem razoável dizer que os dados estão a uma distância de 2.89 da média; mas note que ele coincidir com os valores mais distantes é uma coincidência do exemplo. Esse desvio padrão das notas, que denotaremos por $\sigma_F$ e $\sigma_M$ para física e matemática, é a quantidade que queremos para deixar as notas comparáveis. Assim, a correlação entre duas matérias é calculada somando o produto de cada par de notas e dividindo pelos desvios-padrão de cada matéria, ou seja:

\[\text{Corr }=\frac{F_1M_1+F_2M_2+\cdots+F_{10}M_{10}}{\sigma_F\sigma_M},\]

onde $F_1$ é a nota de física de um aluno e $M_1$ é sua nota de matemática. É importante notar que nessa definição a correlação máxima entre dois pontos é 1 e a mínima é -1, o que nos permite comparar correlações de objetos completamente diferentes usando a mesma escala. Isso é resultado da subtração da média e divisão pelo desvio-padrão, ferramentas que nos permitem equiparar grandezas completamente diferentes e analisá-las com o mesmo termômetro e mesma régua.

Calculando finalmente a correlação entre física e matemática, encontramos o valor 0,94. Ele é, como esperado, extremamente alto, já que o valor máximo é 1, o que mostra que notas de física e matemática, entre nossos alunos, estão profundamente correlacionadas. Em um chute ingênuo, mas honesto, com esses dados, é possível dizer que alunos bons em uma matéria são bons em outra, enquanto os que não sabem matemática também não parecem saber física.

Isso é esperado, porque, como o gráfico mostra, as notas estão praticamente alinhadas. Com esse método, temos um número, uma medida, para dizer o quão alinhadas elas estão. Notas perfeitamente alinhadas nos dariam correlação 1.

Atravessei todas essas definições com carinho para que fique claro o que é aquela matriz colorida dos deputados e senadores. Cada elemento é a correlação entre dois deputados, eles são o equivalente às matérias no meu exemplo. As notas dos alunos, no caso dos deputados, são as decisões que eles tomaram em uma votação, sendo 1 para SIM, -1 para NÃO e 0 para abstenção. A matriz funciona como um jogo de batalha naval, o senador da linha $i$ terá uma correlação com o senador da coluna $j$ representada pelo número no quadrado $(i,j)$ da matriz, sendo esses números de -1 a 1.

Claro que em outras circunstâncias eu teria mais cuidado para dizer que 0,94 é uma correlação grande, pois uma objeção razoável a esse tratamento todo é: quão grande é grande? A partir de 0,8? 0,7? Ainda que em um estudo menos formal você possa tomar o critério que mais lhe pareça razoável, como, por exemplo, dizer que 0,8 é o limite, é intelectualmente mais honesto comparar mais grandezas (em nosso caso, mais matérias) e afirmar que matemática e física, por exemplo, possuem mais correlação que matemática e português, se no caso as notas de matemática e português possuírem uma menor correlação.

No próximo post disserto um pouco sobre como ordenei a matriz e sobre como essa ordenação revela a estrutura de blocos e nos traz informações que, na frieza das tabelas, não são evidentes. Todo esse processo que descrevi pode ser automatizado com tranquilidade em qualquer software de tratamento de planilhas, cujo principal expoente é o Microsoft Excel. Tenho certeza de que na área de funções estatísticas há uma que calcula a correlação de Pierson de duas grandezas, mas entender de onde ela ver e o que ela significa é muito mais importante que calcular 0,94.

A força de uma narrativa

Rookie

Em meu último post, apresentei a vocês algumas técnicas estatísticas interessantes aplicadas ao estudo de correlações entre os partidos brasileiros. O assunto agradou, e muitos pediram um estudo parecido com a câmara dos deputados, com sua base amostral muito maior, seu jogo político mais acirrado, seria um estudo interessante em vários níveis. No entanto, não queria repetir exatamente o que fiz com os senadores, não queria mais do mesmo. Decidi, por isso, avançar em um assunto mais polêmico, e estudar a força de uma narrativa da política brasileira.

Lanço novamente o alerta: esse não é um blog político. Não tenho agenda partidária e minha opinião política é irrelevante na estatística. Tentei tratar os dados da maneira mais imparcial que pude, aceito sugestões dos que acharem alguma soma ou divisão injusta nessas linhas. A escolha do assunto é um interesse pessoal que partilho com muitos brasileiros: o escândalo na política apelidado mensalão.

A narrativa da acusação, resumidamente, é a de que durante os anos 2003-2004 a base aliada pagou uma espécie de mesada a deputados para fortalecer suas votações e assegurar o apoio da câmara aos projetos do governo. Base aliada e governo negam, sustentando sua inocência até o julgamento, que ainda corre. O escândalo explodiu no primeiro semestre de 2005, o que nos permite uma tentativa de análise nisso.

Tendo em mãos os votos dos deputados federais durante o primeiro mandato do governo Lula, pude dividir esses quatro anos em duas duplas: 03-04 e 05-06. Podemos nos perguntar como as correlações entre os partidos evoluíram entre esses dois biênios, pois, se a narrativa da acusação faz sentido, então a correlação entre governo e centro nos dois primeiros anos deve ser mais forte que nos anos seguintes, pois na primeira dupla o mensalão supostamente existiu, e foi desmantelado no início dos dois anos seguintes.

Claro, isso é uma simplificação grosseira, e proponentes de ambos os lados da narrativa podem interpretar os resultados da análise como quiserem. Se eu não encontrasse correlações, os mensalistas poderiam alegar que tal pagamento pode ter continuado no biênio seguinte. Eu encontrando correlação, os anti-mensalistas poderiam dizer que as mentiras vomitadas pelo partido da imprensa golpista fizeram o centro recuar do governo, ou que a mudança nas correlações é um resultado normal de uma crise política. A estatística é uma, mas a interpretação é sua.

Dito isso, vamos aos dados. Depois da publicação do último post, recebi uma chuva de dados, planilhas e banco de dados, e mando todos os meus agradecimentos aos que indicaram referências e especialmente aos do radar parlamentar pelo lindo banco de dados com todos os votos dos deputadores federais desde 1999. Infelizmente esse banco de dados não é meu, qualquer interessado pode entrar em contato com o grupo do radar e eles provavelmente ficarão felizes em compartilhar os dados. Aquele arquivo .xml foi um presente de natal, eu nem sabia o que fazer com tantos dados, senti-me uma criança presa na fábrica da Nestlé.

Para realizar a análise, tomei algumas decisões. Não podia considerar todos os deputados, alguns não possuíam relevância estatística suficiente. Excluí da análise qualquer deputado que tenha votado em menos de 10% das votações em qualquer um desses dois períodos. Ao todo, foram tomadas 259 decisões em 03-04 e 164 decisões em 05-06. A câmara possui 513 deputados, mas com este filtro apenas 450 sobreviveram para a análise. Os excluídos fazem parte dos que se tornaram prefeitos em 2005 ou daqueles cuja frequência no plenário deixou a desejar.

Primeiro, vejamos a composição da câmara no biênio 03-04, em uma matriz similar à usada no estudo dos senadores:

lula_1

Matriz de correlação da câmara nos anos 03-04.

Aos que não viram o último post, explico a matriz. Na linha $i$ e coluna $j$ você encontra a correlação entre o deputado $i$ e o deputado $j$ durante os anos 03-04. Se essa correlação é positiva, eles votam juntos. Se é negativa, costumam divergir. O tamanho da correlação será a coerência entre os votos desses deputados, muito alta, eles votam de forma praticamente igual, muito negativa, eles parecem querer votar um o oposto do outro. Essa matriz pode ser lida em blocos. Notando a existência de dois blocos, percebemos a existência de duas orientações políticas na câmara, que equivalem ao que chamamos de governo e oposição. Como no caso dos senadores, elas existem e são bem definidas. Além disso, há pouquíssimas regiões de anticorrelação, o que mostra que a câmara em 2003 buscou bastante o consenso; a própria natureza dos votos da câmara parece chamar mais concordância e unanimidade.

O segundo passo foi criar essa exata mesma matriz para o período 05-06, mas precisamos tomar cuidado. Devemos continuar com a mesma ordem da matriz, e essa ordem foi definida pelas correlações no primeiro período. Mantendo os mesmos deputados nas mesmas linhas, eu construo a matriz do segundo biênio do primeiro governo Lula:

lula_2_dep_1

Matriz de correlação da câmara nos anos 05-06.

Essa matriz está bem mais confusa, mas é o esperado, pois usamos a ordenação no período anterior, e certamente coisas mudaram entre os dois períodos. Ainda não conseguimos ver claramente o que mudou, ou o quanto mudou, por isso precisamos de um critério mais visual e preciso para medir a diferença, e uma subtração costuma ser bem eficaz para esse trabalho.

A matriz seguinte será a diferença entre as correlação de cada deputado comparando o período 05-06 ao período 03-04. Os exatos mesmos deputados são analisados. As regiões vermelhas, negativas, são aquelas que perderam correlação, ou seja, enfraqueceram politicamente de 03-04 a 05-06. As regiões azuis ganharam correlação, foram fortalecidas quando comparamos os dois biênios.

lula_delta

Diferença entre as matrizes de correlação do primeiro e segundo biênio do primeiro governo Lula.

E aqui temos um prato cheio para análise. A base governista perdeu muita correlação a partir do ano 2005, e, com isso, muita força política. Notamos que as mesmas pessoas que abandonaram o barco do governo, as “raias vermelhas” no bloco governista, concordaram substancialmente mais com o bloco da oposição. Essas raias que rasgam o espectro mostram um movimento massivo de políticos que votaram majoritariamente a favor do governo nos primeiros dois anos e trocaram de opinião, passando a contrariar a situação em um número relevante de vezes nos dois anos seguintes. Cada raia vermelha representa um deputado que em 2003-2004 votou diversas vezes a favor do governo e em 2005-2006 não apresentou o mesmo nível de concordância com a base da situação. O número de raias vermelhas no governo passa de 100.

É verdade que há raias vermelhas na oposição também, não podemos ignorá-las. Mas podemos contá-las, são cinco deputados que votavam com a oposição e passaram à situação, um número insignificante perto do fenômeno inverso, podendo ser explicado por flutuações estatísticas convencionais ou outras manobras políticas naturais ao congresso. Ademais, dentro da oposição há de tudo, aumento e perda de correlação, enquanto a base aliada é um mar de vermelho, não há nenhum ganho de correlação em todo núcleo da base aliada.

Em um próximo post, prometo a análise desses dados com os partidos em mente. Não exponho agora para não carregar em informação, e para não trair meu propósito inicial: avaliar a força de uma narrativa. A acusação do mensalão não cita (que eu tenha visto, correções são bem-vindas) partidos explicitamente, mas um fenômeno interpartidário em larga escala, dinheiro dado a parlamentares como persuasão a votarem de acordo com a situação. Olhando esta matriz, sou obrigado a concluir que a narrativa da acusação, que afirma a existência de um mensalão, é coerente com a estatística apresentada e explica os dados de maneira completa. Contando a partir da explosão do escândalo do mensalão, primeiro semestre de 2005, a correlação da base aliada ao governou caiu de maneira significativa e diversos deputados que estavam no núcleo da coerência governista votaram de maneira drasticamente diferente no segundo período do governo Lula.

Termino o post reiterando o aviso inicial: essa estatística não prova nada. Muitas explicações podem ser levantadas para essa mudança, os dois lados da história podem interpretar os dados como quiserem ou puderem, e podem levantar falhas na metodologia que tentarei responder ou consertar. Vou deixar esse ponto muito claro, porque não quero gente dizendo “Estatístico prova que mensalão aconteceu!”, correlação não implica causalidade. A única conclusão que posso tirar disso é a frase em negrito acima: a narrativa da acusação faz sentido. Se ela fosse verdade, esperar-se-ia dos votos dos deputados uma mudança cujo caráter é muito similar ao observado na realidade. Essa matriz não é prova, no máximo evidência, cuja interpretação e discussão deixo a quem entende do assunto.

Estudo indica

Rookie

Esses dias, cheguei a uma notícia que me traz aquele arrependimento de não ter, ao decorrer da vida, juntado uma coletânea das melhores matérias começadas ou terminadas por “estudo indica”. Já vi de tudo, desde estudo indicando o aumento dos preços de guarda-chuva quando chove a pesquisas apontando que o turismo será a indústria mais beneficiada na Copa do Mundo. Essa notícia, no entanto, chocou-me mais que as outras, é ela, da UOL: Estudantes que usam Twitter têm notas melhores e são mais comprometidos, aponta estudo.

A primeira coisa que aprendemos em uma aula de estatística é o lema, que levamos para nossa vida, correlação não implica causalidade. Arrisco dizer que a maior parte das torturas a que a estatística é submetida na mídia vêm dessa confusão, achar que porque duas coisas acontecem juntas, ou parecem acontecer juntas, então uma causa a outra, é o famoso achar que o Sol nasce porque o galo canta. Esse estudo não é diferente.

Somos levados a entender, pela matéria, que o Twitter é algo bom para os estudos. Segundo a autora da pesquisa: “Caroline chegou à conclusão de que o formato ‘tempo real’ do microblog permite que estudantes possam escrever de forma concisa, fazer pesquisas com resultados atualizados e, eventualmente, se comunicando diretamente com autores e pesquisadores.”. Esqueceram de avisar a essa senhora que os adolescentes não estão produzindo poesia moderna fixa a 140 caracteres, as pesquisas atualizadas feitas dificilmente versam sobre temas escolares (para isso se usa Google e Wikipédia) e se o abismo entre um pesquisador e o público já é grande, não são 140 caracteres que ajudarão.

Se precisasse opinar, seguiria Saramago nessa. Quando perguntado se, agora que tinha um blog, faria um Twitter, o escritor não hesitou: “Nem sequer é para mim uma tentação de neófito. Os tais 140 caracteres reflectem algo que já conhecíamos: a tendência para o monossílabo como forma de comunicação. De degrau em degrau, vamos descendo até o grunhido.”. Um pouco drástico, mas me parece mais realista que o Twitter como novo mecanismo literário da juventude.

Ainda, o que me choca não é a ingenuidade panglossiana do estudo, mas a inferência de que se duas coisas vão juntas, uma certamente causa a outra. Uma explicação mais simples, e mais honesta, seria argumentar que alunos que usam Twitter de forma regular têm mais acesso à internet, mais interesse em ter esse acesso, acabam sendo expostos a mais conteúdo e costumam, como em um pacote, ser capazes de aprofundar seus interesses e seus estudos em seus interesses. O Twitter nada tem a ver com isso, e a notícia é propositalmente sensacionalista e enganosa. Causa-me espécie esse tipo de reportagem e o uso que ela faz de estatística.

Não apenas ela, costumamos, de maneiras mais ou menos sutis, associar correlação em causalidade no cotidiano. Desde usar aquela cueca da sorte em dia de final de campeonato a coisas mais sérias, como proibir seu filho de se divertir com um jogo porque o maníaco que atirou e matou cinco jogava o jogo, ou como o absurdo de justificar preconceitos dizendo que todas as vezes em que foi assaltado foram por pessoas de uma raça específica, ou que se vestiam de tal forma. O raciocínio por inferência é natural ao ser humano, devemos nos policiar para que esse instinto não se torne superstição, preconceito, ingenuidade ou, simplesmente, a crença de que o sol nasce porque o galo canta.

Para encerrar, deixo-lhes alguns gráficos para provar estudos muito mais relevantes. Todos nos quais correlação e causalidade são, comicamente, subvertidas e comparadas.

Estudo indica: o número de piratas em atividade pode afetar diretamente o aquecimento global. Salve o planeta, torne-se um pirata.

Estudo indica: comer chocolates aumenta suas chances de ganhar um prêmio Nobel. (Usei esse gráfico como exemplo cômico. Para meu horror, ele foi base de um artigo sério da BBC após a publicação desse post! Eles até colocam no final que correlação não implica causalidade, mas para quem lê os primeiros parágrafos, o jogo está perdido.)

Estudo indica: a qualidade do Rock afeta diretamente a produção de petróleo de um país.