Arquivos da categoria: Rookie

Posts para interessados em ciência.

A meu engenheiro químico favorito

Rookie

Esse post foi escrito a um grande amigo, quando este ano passado prestou o curso de engenharia química e passou. Apesar de nossas rivalidades, engenharia química é a fusão de duas rixas velhas de estudantes da graduação de física, aprecio e admiro o trabalhos desses cientistas.


A meu engenheiro químico favorito.

Como você deve saber, físicos e químicos possuem aquela rivalidade saudável entre duas ciências bem resolvidas. Ambas são torturadas durante o ensino médio, ambas são detestadas por todos os seus amigos menos eu e ambas, durante sua aprendizagem até a faculdade, contam muitas mentiras. Certo, admito que mentira é uma palavra forte, seria mais educado dizer que os ensinamentos são incompletos e imperfeitos, porque quem tem problemas com U=R.I dificilmente conseguirá apreciar a quântica. Não porque ela é difícil, mas porque ela exige base, maturidade científica, sobriedade no raciocínio; nenhuma matéria na física é realmente difícil se você possui esses três elementos ((Exceto mecânica dos fluidos. Mecflu é só crueldade.)) .

E tem algumas coisas que eu queria compartilhar com você nesse ingresso de faculdade, coisas que demorei a aprender e entender, e que mudaram a maneira como vejo o mundo. Elas envolvem os tijolos de suas futuras construções teóricas: os átomos. Química é a arte de explicar o que acontece quando dois átomos ou mais se juntam, dessa pergunta saem tantas grandes realizações do século XX: o plástico, o poliéster, tantos medicamentos, cosméticos e cada pixel da tela de seu computador. Química estuda $n$ átomos juntos, formando moléculas, compostos, colóides, sempre com $n>2$. Isso porque se $n=1$, a bola ainda está no território da física.

Confesso que isso não é completamente verdade, porque o átomo de Hélio, por exemplo, já representa um desafio hercúleo para um físico calcular, sendo necessários os melhores computadores atuais para conseguir boas respostas para a perguntas que fazemos sobre esse gás nobre. Quem realmente é a prata da casa é o hidrogênio, nosso átomo favorito, pois possui apenas um elétron. Não temos nada contra prótons, eles podem aparecer em números grandes, nosso problema é com os elétrons. Neste breve texto, vou comentar algumas coisas legais que conheço dos três elementos do átomo de hidrogênio: o elétron, o nêutron e o próton. Com isso em mente, você deixa sua imaginação livre para formar quantos compostos, moléculas, redes, estruturas, plásticos e remédios você quiser.

Como você imagina um átomo? Essa é a primeira imagem que o Google nos dá quando buscamos “átomo de hidrogênio”:

Essa é a visão tradicional do átomo, aquela do ensino médio. Quando você aprende um pouco mais de física ou química, descobre que nada é parecido com esse pequeno sistema planetário que nosso professor desenha na lousa, que a palavra “camadas” faz bem menos sentido do que você imagina. Vou tentar construir aos poucos a ideia do átomo de hidrogênio, começando pelo elétron no post de hoje.

Por enquanto, esqueça tudo o que sabe do átomo. Imagine apenas um ponto central, que chamamos de núcleo. Nele moram prótons e nêutrons, mas vamos ignorar isso por enquanto. Em volta desse núcleo há uma carga negativa, que chamamos de elétron. Sabemos que ele está lá porque somos capazes de medi-lo, podemos jogar um fóton (que é, grosso modo, um pouco de luz) e veremos que o fóton é rebatido em algum ponto em torno do núcleo. Esse ponto era a posição do elétron quando foi atingido. Como de costume, e mediante protestos, o elétron será azul e o próton vermelho.

atom_1Eu posso me perguntar se existe a noção de órbita do elétron, posso querer saber por onde ele passa e para onde vai. Eu efetuo 100 medidas da posição do elétron, terei algo parecido com isso:

atom_2Os pontos azuis são agora medidas do mesmo elétron, em momentos diferentes. Como é fácil perceber, fica bem difícil falar em órbita, e fica ainda mais difícil acreditar naquele desenho dos círculos perfeitos. Para garantir, vamos tomar 1000 medidas da posição do elétron:

atom_3Isso é o registro da posição do mesmo elétron em vários momentos diferentes, o que nos obriga a repensar bastante sobre o que sabíamos do elétron. Por esse e alguns outros motivos, passamos a algumas noções mais radicais sobre as partículas elementares: A noção de trajetória já era. Não apenas não podemos dizer que ele gira em círculos, não podemos nem dizer que ele gira, nem podemos falar de sua trajetória, pois nem sabemos se existe uma.

Você pode objetar dizendo: mas é claro que existe uma trajetória, ela só é muito complexa. E por mais que isso pareça razoável e você queira que seja verdade, nenhuma evidência que temos aponta para esse lado. O máximo que podemos dizer do elétron é que ele tem uma probabilidade maior de ser medido próximo do núcleo que longe do núcleo, afinal, você percebe que a maior parte das medições caiu na zona vizinha ao próton. Podemos descrever qual a probabilidade de ele ser encontrado a uma dada distância do centro.

atom_4Essa figura é uma densidade de probabilidade, não é difícil de ler. Se você quer saber qual a chance do elétron estar em uma região entre $r_a$ e $r_b$, basta calcular a área da curva entre esses dois pontos e essa será a probabilidade.

atom_5Ou seja, a chance do elétron estar, em uma medida, entre $r_a$ e $r_b$ é a área da região azul. Notamos que há um pico nessa probabilidade, os valores perto desse pico são os mais prováveis. O raio que possui a maior probabilidade é chamado raio de Bohr, e, em muitas aproximações, o átomo pode ser considerado uma esfera maciça cujo raio é o raio de Bohr.

O mais agoniante nisso tudo é que essa densidade de probabilidade é toda a informação que temos sobre a posição do elétron, e a física, como é escrita hoje, parece nos indicar que esse é o máximo de informação que teremos nessa área da vida do elétron. O desenho do ensino é bem intencionado, porque seria difícil ensinar a alunos do ensino fundamental e médio (e também seria difícil cobrar em prova) que há muito que não sabemos e não poderemos saber, e que isso não é um problema. A ciência não é feita de verdades absolutas, mas de verdades em construção, modelos que se aproximam cada vez mais da realidade. Na física quântica, podemos apenas encontrar as probabilidades das partículas estarem onde as medimos, e isso já é bastante informação a respeito delas.

Se você der mais energia a esse elétron, dizemos que ele mudará de camada. Em um primeiro momento, ele absorve uma quantidade precisa de energia, nem mais, nem menos, e passa a ser medido em uma região idêntica à anterior, mas com a possibilidade de ir mais longe. É meramente um aumento no raio de Bohr, chamamos essa situação de um elétron na camada 2s. Se você dá mais energia ao elétron, ele começa a se comportar de um jeito bem diferente. A próxima camada, chamada 2p, é dramaticamente diferente. Se eu medisse um mesmo elétron em torno do átomo de hidrogênio mil vezes, e se esse elétron estivesse na camada 2p, esse seria um resultado possível de minha medida:

atom_7Note que eu continuo tendo uma preferência a estar perto do núcleo, mas noto que o elétron parece gostar mais de estar ou do lado de cima ou do lado de baixo, é quase impossível encontrar elétrons no anel lateral do átomo! Volte àquele desenho inicial e reflita sobre como ele é problemático. Os elétrons não giram em torno do átomo, a noção de trajetória nem existe, conseguimos apenas definir essas formas de probabilidade de medir o elétron em um lugar ou outro. Essa forma é a superfície na qual é igualmente provável encontrar um elétron. No caso das camadas 1s e 2s, essa superfície é uma esfera. A chance de encontrar um elétron afastado de uma distância $a$ do núcleo é a mesma para todos os lados, por isso dizemos que o orbital dessas camadas é uma esfera. No caso da 2p, vemos que essa forma muda, e ela será parecida com isso:

Com isso, em um abuso de linguagem, dizemos que o elétron “mora” nesses orbitais. A definição de orbital, contudo, não é o confinamento dos elétrons, mas as regiões equiprováveis de presença do elétron. Sabemos que a probabilidade de encontrar um elétron diminui exponencialmente quando nos afastamos do núcleo. ((Não estou usando exponencialmente como sinônimo de “grande” ou “bastante”, é literalmente exponencial!))

Quando você estava no cursinho, deve ter ouvido falar desses orbitais e das formas bonitinhas. Esse post é para tratar orbitais e elétrons de forma mais coerente com o que sabemos hoje em física, falando da incerteza da posição, a ausência da trajetória, as medidas de probabilidades, é isso o que sabemos sobre o elétron. Uma molécula envolve muitas vezes o compartilhamento de elétrons, e um orbital partilhado terá uma forma bem mais exótica que essas apresentadas pelo átomo de hidrogênio. Conforme você dá mais energia para o elétron, ele começa a poder ser encontrado mais longe do núcleo e, ao mesmo tempo, assume as formas mais estranhas de orbitais. Quando você vê um desses desenhos de orbitas, pense: a chance de eu encontrar um elétron é a mesma em todos os pontos dessa superfície.

A origem dessas formas é a equação de Schrodinger, uma equação diferencial bem complicada que só pode ser resolvida exatamente para o caso de um elétron. Para mais elétrons, ou moléculas, ainda conseguimos resultados numéricos, ou seja, chicoteamos o computador até ele calcular essas formas com precisão para as moléculas que queremos. Mas fórmula exata, dessas bonitinhas que se cobra em prova, não temos, nem sabemos se existe.

Outra propriedade interessante dos orbitais, e dos elétrons em geral, é o princípio de exclusão. Tome, por exemplo, o orbital 2p, essas duas gotas. Se você tiver três elétrons em um átomo com a energia desse orbital, cada elétron ocupará um orbital em uma região diferente, serão ocupados os orbitais 2px, 2py e 2pz. Se você juntar outros três elétrons, cada elétrons entrará em um orbital e esse será o limite de ocupação. Você nunca consegue colocar mais que dois elétrons por orbital! Por mais que você tente calibrar seu elétron para entrar no orbital 2p, ele não será absorvido. A razão eu já mencionei uma vez quando disse o quanto me impressionava o princípio de Pauli, um dos resultados mais profundos e misteriosos da física.

Ao final do dia, o desenho tem um mérito. Ele representa camadas mais energéticas com círculos maiores, como se o elétron girasse com um raio maior. Isso não é verdade, ele não gira e não tem raio, nem trajetória tem, mas em camadas mais energéticas a chance de encontrar o elétron mais distante do núcleo é maior, como se ele tivesse mais “velocidade” e pudesse passear mais longe antes de ser puxado de volta para o núcleo.

E isso encerra o que queria te contar sobre o elétron, e espero que isso te guie um pouco por suas primeiras aulas de química, e te prepare para a desconstrução daquilo você você achava que sabe e que, como verá, ninguém parece saber.

Eleições indiretas e o conjunto de Cantor

Rookie

Timothy Gowers é provavelmente um dos maiores matemáticos vivos. Recentemente em seu blog, propôs uma explicação matemática para o problema americano de representatividade eleitoral; achei fascinante e decidi explorar um pouco essa ideia. Vamos falar hoje sobre eleições indiretas e sobre como posicionamento é, muitas vezes, mais relevante que números.

Os Estados Unidos possuem um sistema eleitoral indireto confuso o suficiente para merecer um diagrama da Folha de São Paulo a cada eleição americana. É um sistema a dois níveis com algumas sutilezas, cada estado tem seu peso, alguns estados decidem aplicar todo seu peso no candidato vencedor enquanto outros aplicam pesos proporcionalmente ao resultado de suas eleições. Veremos que ainda nesse caso a poucos níveis alguns problemas curiosos podem surgir.

Existem instituições com mais níveis de eleições indiretas, como, por exemplo, a Igreja Presbiteriana do Brasil. Nela, membros de uma igreja elegem alguns dentre si para serem os presbíteros, os presbíteros de várias igrejas se reúne; para eleger o supremo concílio e o supremo concílio elege seu presidente. Nessa lógica, há quatro níveis entre o presidente do supremo concílio e um membro da igreja. Esse método possui suas vantagens, a alternância de poder certamente é um antídoto ao culto à personalidade tão danoso ao proposto por muitas religiões; mas veremos que uma das consequências imediatas das eleições indiretas é a possibilidade de manipulação por posicionamento.

Vou usar um exemplo simples: o triunvirato. Imagine um país em que o presidente é eleito por três “sub-presidentes”, e precisa de dois dos três votos para ser eleito. Cada um dos sub-presidentes é eleito por três sub-sub-presidentes, e cada um precisa de dois dos três votos de seus sub-sub-presidentes para ser eleito. Imagine que isso acontece indefinidamente, até que toda a população foi contabilizada e contada nesse processo.

Para eleger o presidente que quero, preciso apenas ter na minha mão 2 dos 3 sub-presidentes, basta que eu eleja os sub-presidentes certos para realizar meu plano. E para eleger cada um deles, preciso ter sob minha influência 4 sub-sub-presidentes, dois para cada. É fácil perceber que em um sistema de $k$ níveis de eleições indiretas eu preciso apenas convencer um múltiplo de $2^k$ para meu projeto, enquanto a população, ao todo, é um múltiplo de $3^k$. Com alguns níveis, esses valores ficam completamente diferentes! Com dois níveis eu precisaria apenas de $\frac{4}{9}$ dos votos para eleger o presidente, menos da metade da população, sendo que eu estabeleci um critério mais exigente que o das eleições convencionais, exijo dois terços dos votos para eleger qualquer pessoa! Com quatro níveis, no caso da igreja, bastaria apenas $\frac{16}{81}\approx 20$% dos votos totais.

Esse sistema do triunvirato é familiar aos matemáticos, é conhecido como o conjunto de Cantor. Um dos melhores testes para um teorema em teoria da medida é aplicá-lo a um conjunto doentio e ver se ele ainda vale, e o de Cantor é o exemplo mais tradicional de quebra-teoremas nessa área. Para entender o que é esse conjunto de elementos, comece com o intervalo $[0,1]$ e tire o “terço médio”, ou seja, divida em três e tire o pedaço do meio. Com os pedaços que sobraram, divida cada um em três e tire o terço médio. Repita isso até cansar. Os elementos que sobrarem formarão o conjunto de Cantor:

cantorsetÉ fácil ver que isso é exatamente nosso sistema de votação. A primeira barra é o presidente, a segunda são os sub-presidentes que devo convencer (o do meio posso ignorar, não preciso dele), a terceira são as pessoas que preciso convencer para que os de cima sejam eleitos. A quantidade de linha que resta é o quanto em população, proporcionalmente, preciso convencer para eleger o presidente. Quanto mais níveis de eleições indiretas, menos população eu preciso convencer. No conjunto de Cantor, a quantidade de linha que sobra é cada vez menor, dizemos que a medida do conjunto é nula quando o número $k$ é infinito.

Esse problema é mais grave do que se imagina. Se quiséssemos saber quantas pessoas teríamos que convencer para eleger o presidente, basta tomar a população total e ir subtraindo aqueles que não nos interessam. No primeiro nível, subtraímos logo $\frac{1}{3}$ do eleitorado, que votaria no vice-presidente que não nos interessa. Analisando as vice-presidências, poderíamos excluir $\frac{1}{3}$ de cada uma delas. Como cada uma delas já é $\frac{1}{3}$ do total, isso seria o equivalente a subtrair $\frac{2}{9}$. No próximo nível, é fácil ver que teríamos que subtrair $\frac{4}{27}$ da população. Ao todo, essa soma é:

\[ \frac{1}{3} + \frac{2}{9} + \frac{4}{27} + \cdots + \frac{2^n}{3^{n+1}} = 1 \]

A afirmação acima você pode verificar com sua fórmula favorita de somas de progressões geométricas infinitas. O resultado final é que teremos excluído todos os habitantes! Claro, isso é um absurdo decorrente de levar a soma ao infinito, de achar que há níveis infinitos de votações, o que isso realmente quer dizer é que aumentar o número de níveis do triunvirato significa se aproximar dessa realidade distópica em que uma minoria ínfima é capaz de eleger o presidente de uma democracia.

Os Estados Unidos são o exemplo mais gritante de práticas de “posicionamento” de eleitores para garantir a eleição indireta. Em nível regional, para as eleições de parlamentares, essa tática é chamada de Gerrymandering. A página da Wikipédia faz um bom trabalho na explicação, e as imagens são assustadoras: a redefinição de fronteiras para garantir um voto republicano ou democrata seria capaz de explicar a estabilidade de certos governantes; gente que pode quase levar o país à falência por um jogo político, com a garantia de reeleição porque o viés cultural de sua região é tão grande que não há o que temer.

Nós, contudo, temos o que temer. Diretas já não foi apenas um movimento social, foi também estatístico; representatividade indireta é sempre uma solução arriscada e falha quando o objetivo é transferir preferências pessoais a coletivas. Nos EUA, o resultado são os swing states, estados capazes de definir a eleição, ganhando por isso muito mais atenção na campanha política e deixando outros estados, incluindo Nova Iorque e Texas, órfãos de política nas presidenciais. A solução é simples: uma pessoa, um voto, e uma conscientização da população sobre o processo político. Contudo, esse blog nem sobre isso é, os fatores são muitos, a soma é quase infinita, mas acredito, de verdade, que converge.

Correlações e matrizes I

Rookie

Muitos pediram para que eu dedicasse um post à técnica que usei no estudo de correlação dos votos dos políticos nos últimos posts. Gostei das análises e confio em minhas conclusões, mas isso aqui é ciência, meus métodos precisam estar claros para que eu ganhe credibilidade. Pretendo ainda explorar a montanha de dados que tenho das votações dos deputados, mas, como meu computador foi furtado e com ele foram os scripts de análise que tinha feito, mando um post intermediário sobre a técnica antes de continuar com mais resultados. Este post será um pouco árido, mas peço paciência, o assunto é fascinante e as aplicações são imensas em todas as áreas da ciência ou da análise de dados. Seguindo este roteiro, você pode encontrar correlações entre quaisquer duas variáveis em sua pesquisa, em sua empresa, em sua sala de aula.

Vou começar tratando um problema diferente, na área da pedagogia. Eu tenho as notas de física e matemática de dez alunos: Alice, Bruno, Carolina, Daphny, Eduardo, Frederico, Gabriela, Hugo, Igor e Jonas, que serão referidos apenas por sua letra inicial:

Aluno: A B C D E F G H I J
Fís 5,0 8,0 10,0 2,0 4,5 9,0 6,0 3,0 9,0 8,0
Mat 6,0 7,0 9,5 0,0 4,5 7,0 4,5 2,5 8,0 8,0

Quando eu me pergunto se há alguma correlação entre física e matemática, quero saber, sabendo a nota de um aluno em física, se consigo dar um bom chute de qual será sua nota de matemática. Essa tabela não ajuda muito, melhor seria se eu visualizasse meus alunos como os pontos em um gráfico:

correlacao_1Com o gráfico é mais fácil ver que parece haver uma forte correlação positiva entre física e matemática. Se um aluno é bom em matemática, esses pontos me dizem que é um bom chute dizer que ele também é bom em física. Como queremos um método decente de dizer isso, medimos a chamada correlação entre duas matérias. Há diversas maneiras de definir correlação, sendo a correlação de Pearson o exemplo mais clássico de medida de correlação. Intuitivamente, queremos que essa correlação seja alta quando as notas de física e matemática andam juntas, que seja perto de zero se as variáveis parecem independentes e que seja muito negativa se ter nota em física parece atrapalhar a nota em matemática.

Precisamos matematizar isso de uma maneira coerente. Quando um aluno tirar nota baixa nas duas matérias, quero que a correlação entre as matérias aumente, e também quero que ela aumente quando um aluno tirar nota alta nas duas. A correlação deve diminuir quando um aluno tirar nota alta em uma e baixa em outra. Mas qual seria a melhor definição de alta ou baixa? Por justiça e senso comum, uso a média da sala como parâmetro, e defino nota alta e baixa como acima ou abaixo da média. Para que as coisas fiquem bem claras, eu subtraio a média de cada nota e terei o novo gráfico:

correlacao_2E aqui já percebemos que a correlação entre essas matérias certamente é positiva. Notamos que pontos nos quadrantes 1 e 3 (positivo-positivo e negativo-negativo) são pontos que contribuem com a correlação entre as matérias, enquanto pontos nos quadrantes 2 e 4 diminuem essa correlação. Como tenho apenas um ponto no quarto quadrante, e ele está quase na fronteira, é fácil admitir que a correlação é positiva entre as matérias. Contudo, ver não é o suficiente, quero um número para essa correlação.

O que a correlação de Pearson diz é que cada aluno contribuirá com a correlação com um valor de acordo com o produto de suas notas. Essa noção é boa, pois menos vezes menos dá mais, então pontos nos quadrantes um e três contribuirão para aumentar a correlação e pontos nos quadrantes dois e quatro diminuirão esse valor. É importante notar também que, nessa métrica, pontos mais distantes da média contribuem mais com a correlação que pontos próximos. Isso é razoável, pois um ponto próximo da média nas duas matérias poderia estar em qualquer quadrante com pouco esforço, enquanto trazer o ponto D, o mais extremo à esquerda, a outro quadrante exigiria muita aula particular.

Antes de calcular esse valor, precisamos sanar outro problema. Se esse estudo fosse feito na França, as notas iriam de 0 a 20, pois usar base 10 nesse país é démodé. Esses dados teriam uma flutuação maior e as correlações calculadas seriam diferentes, ainda que a proporção entre eles fosse a mesma. Ainda que eu subtraia a média, os valores deixariam de flutuar entre -6 e 6 para flutuarem entre -12 e 12, o que tornaria multiplicações entre eles maiores e a correlação maior. Se a distância em relação à média de algum aluno fosse 5 em matemática e 4,5 em física, a contribuição na correlação seria 22,5 no Brasil; na França, seria quatro-vintes e dez! Não é porque eu mudo a escala que a correlação aumenta, uma análise da correlação de altura e peso da população não pode depender do uso de centímetros ou polegadas ((Contudo, estudar em polegadas é moralmente errado.)) .

O ideal seria dividir os valores por algo que leve em conta a dispersão deles, e um excelente candidato é o chamado desvio padrão. Essa grandeza nada mais é que a raiz da média dos quadrados dos elementos. Se as notas de física são 3, 5, 8 e 10, eu primeiro subtraio de todos a média, que é  6,5, tendo como notas -3,5, -1,5, 1,5 e 3,5. O desvio padrão será

\[\sqrt{\frac{(-3,5)^2+(-1,5)^2+1,5^2+3,5^2}{4}}=2.89.\]

Uma interpretação possível do desvio padrão é o quão longe da média os dados estão. Em nosso caso, parece bem razoável dizer que os dados estão a uma distância de 2.89 da média; mas note que ele coincidir com os valores mais distantes é uma coincidência do exemplo. Esse desvio padrão das notas, que denotaremos por $\sigma_F$ e $\sigma_M$ para física e matemática, é a quantidade que queremos para deixar as notas comparáveis. Assim, a correlação entre duas matérias é calculada somando o produto de cada par de notas e dividindo pelos desvios-padrão de cada matéria, ou seja:

\[\text{Corr }=\frac{F_1M_1+F_2M_2+\cdots+F_{10}M_{10}}{\sigma_F\sigma_M},\]

onde $F_1$ é a nota de física de um aluno e $M_1$ é sua nota de matemática. É importante notar que nessa definição a correlação máxima entre dois pontos é 1 e a mínima é -1, o que nos permite comparar correlações de objetos completamente diferentes usando a mesma escala. Isso é resultado da subtração da média e divisão pelo desvio-padrão, ferramentas que nos permitem equiparar grandezas completamente diferentes e analisá-las com o mesmo termômetro e mesma régua.

Calculando finalmente a correlação entre física e matemática, encontramos o valor 0,94. Ele é, como esperado, extremamente alto, já que o valor máximo é 1, o que mostra que notas de física e matemática, entre nossos alunos, estão profundamente correlacionadas. Em um chute ingênuo, mas honesto, com esses dados, é possível dizer que alunos bons em uma matéria são bons em outra, enquanto os que não sabem matemática também não parecem saber física.

Isso é esperado, porque, como o gráfico mostra, as notas estão praticamente alinhadas. Com esse método, temos um número, uma medida, para dizer o quão alinhadas elas estão. Notas perfeitamente alinhadas nos dariam correlação 1.

Atravessei todas essas definições com carinho para que fique claro o que é aquela matriz colorida dos deputados e senadores. Cada elemento é a correlação entre dois deputados, eles são o equivalente às matérias no meu exemplo. As notas dos alunos, no caso dos deputados, são as decisões que eles tomaram em uma votação, sendo 1 para SIM, -1 para NÃO e 0 para abstenção. A matriz funciona como um jogo de batalha naval, o senador da linha $i$ terá uma correlação com o senador da coluna $j$ representada pelo número no quadrado $(i,j)$ da matriz, sendo esses números de -1 a 1.

Claro que em outras circunstâncias eu teria mais cuidado para dizer que 0,94 é uma correlação grande, pois uma objeção razoável a esse tratamento todo é: quão grande é grande? A partir de 0,8? 0,7? Ainda que em um estudo menos formal você possa tomar o critério que mais lhe pareça razoável, como, por exemplo, dizer que 0,8 é o limite, é intelectualmente mais honesto comparar mais grandezas (em nosso caso, mais matérias) e afirmar que matemática e física, por exemplo, possuem mais correlação que matemática e português, se no caso as notas de matemática e português possuírem uma menor correlação.

No próximo post disserto um pouco sobre como ordenei a matriz e sobre como essa ordenação revela a estrutura de blocos e nos traz informações que, na frieza das tabelas, não são evidentes. Todo esse processo que descrevi pode ser automatizado com tranquilidade em qualquer software de tratamento de planilhas, cujo principal expoente é o Microsoft Excel. Tenho certeza de que na área de funções estatísticas há uma que calcula a correlação de Pierson de duas grandezas, mas entender de onde ela ver e o que ela significa é muito mais importante que calcular 0,94.

A força de uma narrativa

Rookie

Em meu último post, apresentei a vocês algumas técnicas estatísticas interessantes aplicadas ao estudo de correlações entre os partidos brasileiros. O assunto agradou, e muitos pediram um estudo parecido com a câmara dos deputados, com sua base amostral muito maior, seu jogo político mais acirrado, seria um estudo interessante em vários níveis. No entanto, não queria repetir exatamente o que fiz com os senadores, não queria mais do mesmo. Decidi, por isso, avançar em um assunto mais polêmico, e estudar a força de uma narrativa da política brasileira.

Lanço novamente o alerta: esse não é um blog político. Não tenho agenda partidária e minha opinião política é irrelevante na estatística. Tentei tratar os dados da maneira mais imparcial que pude, aceito sugestões dos que acharem alguma soma ou divisão injusta nessas linhas. A escolha do assunto é um interesse pessoal que partilho com muitos brasileiros: o escândalo na política apelidado mensalão.

A narrativa da acusação, resumidamente, é a de que durante os anos 2003-2004 a base aliada pagou uma espécie de mesada a deputados para fortalecer suas votações e assegurar o apoio da câmara aos projetos do governo. Base aliada e governo negam, sustentando sua inocência até o julgamento, que ainda corre. O escândalo explodiu no primeiro semestre de 2005, o que nos permite uma tentativa de análise nisso.

Tendo em mãos os votos dos deputados federais durante o primeiro mandato do governo Lula, pude dividir esses quatro anos em duas duplas: 03-04 e 05-06. Podemos nos perguntar como as correlações entre os partidos evoluíram entre esses dois biênios, pois, se a narrativa da acusação faz sentido, então a correlação entre governo e centro nos dois primeiros anos deve ser mais forte que nos anos seguintes, pois na primeira dupla o mensalão supostamente existiu, e foi desmantelado no início dos dois anos seguintes.

Claro, isso é uma simplificação grosseira, e proponentes de ambos os lados da narrativa podem interpretar os resultados da análise como quiserem. Se eu não encontrasse correlações, os mensalistas poderiam alegar que tal pagamento pode ter continuado no biênio seguinte. Eu encontrando correlação, os anti-mensalistas poderiam dizer que as mentiras vomitadas pelo partido da imprensa golpista fizeram o centro recuar do governo, ou que a mudança nas correlações é um resultado normal de uma crise política. A estatística é uma, mas a interpretação é sua.

Dito isso, vamos aos dados. Depois da publicação do último post, recebi uma chuva de dados, planilhas e banco de dados, e mando todos os meus agradecimentos aos que indicaram referências e especialmente aos do radar parlamentar pelo lindo banco de dados com todos os votos dos deputadores federais desde 1999. Infelizmente esse banco de dados não é meu, qualquer interessado pode entrar em contato com o grupo do radar e eles provavelmente ficarão felizes em compartilhar os dados. Aquele arquivo .xml foi um presente de natal, eu nem sabia o que fazer com tantos dados, senti-me uma criança presa na fábrica da Nestlé.

Para realizar a análise, tomei algumas decisões. Não podia considerar todos os deputados, alguns não possuíam relevância estatística suficiente. Excluí da análise qualquer deputado que tenha votado em menos de 10% das votações em qualquer um desses dois períodos. Ao todo, foram tomadas 259 decisões em 03-04 e 164 decisões em 05-06. A câmara possui 513 deputados, mas com este filtro apenas 450 sobreviveram para a análise. Os excluídos fazem parte dos que se tornaram prefeitos em 2005 ou daqueles cuja frequência no plenário deixou a desejar.

Primeiro, vejamos a composição da câmara no biênio 03-04, em uma matriz similar à usada no estudo dos senadores:

lula_1

Matriz de correlação da câmara nos anos 03-04.

Aos que não viram o último post, explico a matriz. Na linha $i$ e coluna $j$ você encontra a correlação entre o deputado $i$ e o deputado $j$ durante os anos 03-04. Se essa correlação é positiva, eles votam juntos. Se é negativa, costumam divergir. O tamanho da correlação será a coerência entre os votos desses deputados, muito alta, eles votam de forma praticamente igual, muito negativa, eles parecem querer votar um o oposto do outro. Essa matriz pode ser lida em blocos. Notando a existência de dois blocos, percebemos a existência de duas orientações políticas na câmara, que equivalem ao que chamamos de governo e oposição. Como no caso dos senadores, elas existem e são bem definidas. Além disso, há pouquíssimas regiões de anticorrelação, o que mostra que a câmara em 2003 buscou bastante o consenso; a própria natureza dos votos da câmara parece chamar mais concordância e unanimidade.

O segundo passo foi criar essa exata mesma matriz para o período 05-06, mas precisamos tomar cuidado. Devemos continuar com a mesma ordem da matriz, e essa ordem foi definida pelas correlações no primeiro período. Mantendo os mesmos deputados nas mesmas linhas, eu construo a matriz do segundo biênio do primeiro governo Lula:

lula_2_dep_1

Matriz de correlação da câmara nos anos 05-06.

Essa matriz está bem mais confusa, mas é o esperado, pois usamos a ordenação no período anterior, e certamente coisas mudaram entre os dois períodos. Ainda não conseguimos ver claramente o que mudou, ou o quanto mudou, por isso precisamos de um critério mais visual e preciso para medir a diferença, e uma subtração costuma ser bem eficaz para esse trabalho.

A matriz seguinte será a diferença entre as correlação de cada deputado comparando o período 05-06 ao período 03-04. Os exatos mesmos deputados são analisados. As regiões vermelhas, negativas, são aquelas que perderam correlação, ou seja, enfraqueceram politicamente de 03-04 a 05-06. As regiões azuis ganharam correlação, foram fortalecidas quando comparamos os dois biênios.

lula_delta

Diferença entre as matrizes de correlação do primeiro e segundo biênio do primeiro governo Lula.

E aqui temos um prato cheio para análise. A base governista perdeu muita correlação a partir do ano 2005, e, com isso, muita força política. Notamos que as mesmas pessoas que abandonaram o barco do governo, as “raias vermelhas” no bloco governista, concordaram substancialmente mais com o bloco da oposição. Essas raias que rasgam o espectro mostram um movimento massivo de políticos que votaram majoritariamente a favor do governo nos primeiros dois anos e trocaram de opinião, passando a contrariar a situação em um número relevante de vezes nos dois anos seguintes. Cada raia vermelha representa um deputado que em 2003-2004 votou diversas vezes a favor do governo e em 2005-2006 não apresentou o mesmo nível de concordância com a base da situação. O número de raias vermelhas no governo passa de 100.

É verdade que há raias vermelhas na oposição também, não podemos ignorá-las. Mas podemos contá-las, são cinco deputados que votavam com a oposição e passaram à situação, um número insignificante perto do fenômeno inverso, podendo ser explicado por flutuações estatísticas convencionais ou outras manobras políticas naturais ao congresso. Ademais, dentro da oposição há de tudo, aumento e perda de correlação, enquanto a base aliada é um mar de vermelho, não há nenhum ganho de correlação em todo núcleo da base aliada.

Em um próximo post, prometo a análise desses dados com os partidos em mente. Não exponho agora para não carregar em informação, e para não trair meu propósito inicial: avaliar a força de uma narrativa. A acusação do mensalão não cita (que eu tenha visto, correções são bem-vindas) partidos explicitamente, mas um fenômeno interpartidário em larga escala, dinheiro dado a parlamentares como persuasão a votarem de acordo com a situação. Olhando esta matriz, sou obrigado a concluir que a narrativa da acusação, que afirma a existência de um mensalão, é coerente com a estatística apresentada e explica os dados de maneira completa. Contando a partir da explosão do escândalo do mensalão, primeiro semestre de 2005, a correlação da base aliada ao governou caiu de maneira significativa e diversos deputados que estavam no núcleo da coerência governista votaram de maneira drasticamente diferente no segundo período do governo Lula.

Termino o post reiterando o aviso inicial: essa estatística não prova nada. Muitas explicações podem ser levantadas para essa mudança, os dois lados da história podem interpretar os dados como quiserem ou puderem, e podem levantar falhas na metodologia que tentarei responder ou consertar. Vou deixar esse ponto muito claro, porque não quero gente dizendo “Estatístico prova que mensalão aconteceu!”, correlação não implica causalidade. A única conclusão que posso tirar disso é a frase em negrito acima: a narrativa da acusação faz sentido. Se ela fosse verdade, esperar-se-ia dos votos dos deputados uma mudança cujo caráter é muito similar ao observado na realidade. Essa matriz não é prova, no máximo evidência, cuja interpretação e discussão deixo a quem entende do assunto.

Há partidos políticos no Brasil?

Rookie

Discutia um dia desses política com um amigo. Não entendo quase nada do assunto, ainda mais estando longe do Brasil, só recebo compartilhamentos de Facebook com a indignação da classe média no novo escândalo. Meu amigo, contudo, lançou o seguinte argumento:

O Brasil não tem partidos. Não é como os EUA, por exemplo, que possuem ideologia, um partido que vota coeso, um plano de governo. Aqui cada um vota como quer, os partidos servem só para fazer alianças e ganhar ministérios.

Não pude responder, porque não havia base para qualquer opinião nisso, contra ou a favor. Engana-se quem acha que fico satisfeito com o nível “bar” de conversa de política; não posso apenas argumentar citando um caso como prova, sou estatístico, tenho brios. Disse que iria pensar a respeito, e esse post é o que pensei a respeito, minha tentativa de responder a pergunta que vai no título.

Antes de mais nada, esse não é um blog político e esse não é um post político. Se você está buscando gritos de “FORA PT” ou “CHORA TUCANADA”, abra seu Facebook, não este site.

Usando meu comportamento obsessivo, o mesmo que me fez, em maio do ano passado, compilar o mês de aniversário de quase 400 jogadores de futebol, passei algumas horas no site do senado brasileiro e juntei os votos de todos os senadores brasileiros nas decisões da casa no ano de 2012. Não foi fácil, porque o site não é feito para esse tipo de análise. Cada senador possui uma página pessoal, com um arquivo pdf para cada ano e as decisões são escritas nesse arquivo.

Descobri nesse processo que, ainda que o voto seja obrigatório ao brasileiro, não é aos senadores. Existe uma modalidade de voto chamada P-NRV, presente – não registrou voto. O exemplo que dei acima, o arquivo pdf do senador Aloysio Nunes, não foi escolhido por acaso, ele é um dos dois casos de senadores que registrou voto em todas as votações abertas. Se quiser um exemplo do uso de P-NRV, recomendo o pdf de José Sarney, ele votou em apenas três votações abertas. ((Muito provavelmente por ser o presidente do Senado. Ainda que ele não seja impedido de votar, como os presidentes de comissões são em assuntos de sua comissão, Sarney provavelmente prefere deixar seu voto para ser a Minerva nos empates.))

Outra particularidade é a proporção de votações abertas e secretas. Em 2012 tivemos 36 votos abertos e 46 secretos, o que prejudicava um pouco mais minha vida, pois reduzia minha base de dados. Todos os votos, sendo 1 para “Sim”, -1 para “Não” e 0 para a não emissão de voto, por qualquer motivo, você encontra no link.

Em minha análise contei 75 senadores. O leitor atento pode não gostar, pois o Senado possui 81 senadores, mas tive que excluir os que entraram apenas como suplentes em 2012. Muitos começaram o mandato apenas em outubro, a quantidade de informação acrescentada é baixíssima, posso exclui-los sem medo.

E uma vez que tenho essa base de dados (75 senadores em 36 decisões), posso me divertir. A matemática não é difícil, a parte difícil foi caçar os votos no site do Senado. Estamos atrás da chamada matriz de correlação dos votos. Sem entrar em detalhes, essa matriz me diz o seguinte:

Na linha $i$ e coluna $j$ terei um valor. Se esse valor é positivo, o senador $i$ costuma votar de forma coerente ao senador $j$. Se é negativo, eles costumam emitir votos opostos. Quanto mais alto, maior é essa correlação entre eles. Se é muito negativo, eles divergem em muitas decisões.

Usando algumas técnicas interessantes, que infelizmente não cabem em um post nível Rookie ((O autovetor associado ao maior autovalor da matriz de correlação nos dá o primeiro componente principal, o que é o equivalente a saber o quão “governista” ou “oposicionista” um senador é!)) , pude ordenar os senador em “governismo”, ou seja, colocá-los em uma escala de mais governo ou mais oposição. Sem incluir nomes ou partidos, a matriz de correlação tem essa cara:

senadores_1Para ler esse gráfico, basta pensar que quando um quadrado é bem vermelho, então os senadores equivalentes a aquela linha e coluna votam juntos. Se está bem azul, eles costumam votar bem diferente. É claro que a diagonal será bem vermelha, pois ela representa um senador consigo mesmo, e essa é a correlação máxima, uma pessoa sempre vota consigo.

Mas note que há dois grupos bem distintos de senadores. O primeiro bloco, no canto inferior esquerdo, possui alguns pontos vermelhos entre si e é essencialmente azul quando comparamos ao outro bloco. O bloco dominante, o do canto superior direito, também é coerente entre si e profundamente azul com o outro bloco. Nesse gráfico, podemos perceber que no Senado, há bem definidas oposição e situação. Isso fica mais fácil se eu sinalizar esses blocos, de onde conseguimos extrair ainda mais informação:

senadores_2Percebemos mais alguns detalhes aqui. Esse mapa pode ser lido em “blocos”. O quadrado oposição-oposição indica a coerência interna daquele bloco, enquanto o oposição-governo indica o quanto esses blocos diferentes votam juntos. O governo possui muito mais regiões vermelhas, o que indica coesão e correlação entre os votos, enquanto a oposição está cheia de pontos azuis. Isso é a confirmação estatística do que sempre se disse da política atual brasileira, que a oposição não apenas é menor, mas é desunida e não vota de maneira coerente. O governo, no entanto, possui uma larga região coerente e garante, com isso, um senado tranquilo para quem está no poder.

Esse gráfico ainda não responde meu amigo, porque eu não considerei partidos em nenhum momento. Eu descobri dois grupos, e os chamei de oposição e governo, mas apenas fiz isso porque sabia quais partidos eram majoritários em cada bloco. O bloco que contém o PT é o que chamei de governo, enquanto o outro é a oposição; mas vale a pena analisar se esses blocos coincidem com os partidos políticos tradicionais.

Aquela matriz possui uma ordem, eu a ordenei propositalmente para encontrar esses dois blocos; mas agora posso mudar a ordem respeitando os partidos políticos. Como são muitos, anotarei apenas os maiores para que vocês consigam, olhando para os blocos partidários, notar duas coisas:

  • O bloco “interno” do partido, as correlações dele consigo mesmo, situados na diagonal da matriz. Isso dará uma ideia do quão coerente os membros de um partido são com os membros do mesmo partido.
  • Os blocos “externos”, por exemplo, o bloco PSDB-PT nos permite ver o quanto esses dois partidos votaram juntos (presença de vermelho) ou divergiram (presença de azul)

A ordem de todos os partidos, para incluir os omitidos, é: PSDB – PSOL – DEM – PDT – PR – PMDB – PTB – PSD – PSC – PP – PT – PSB – PV – PCdoB – PRB. Esse gráfico já é bem mais interessante. Ele é diferente do anterior porque ordenei as linhas e as colunas para se tornarem blocos partidários, e podemos, com isso, tirar as seguintes conclusões:

  • Os únicos partidos de oposição são PSDB, DEM e, surpreendentemente, PSOL. O senador psolista não apresenta grande correlação com ninguém, mantendo uma coloração verde-água em toda sua linha; infelizmente ele é apenas um e é difícil tirar estatística de um ponto para confirmar a independência política do PSOL.
  • PSDB apresenta razoável coerência interna, mas não se compara à coerência petista. O tom vermelho no bloco interno no PT mostra que o partido costuma votar junto, com raras exceções, sendo Ana Rita, do Espírito Santo, a que mais contraria seu partido.
  • O caso do PMDB é talvez o mais interessante. Compare o bloco interno desse partido com a figura completa, a primeira que coloquei, são quase iguais! A estrutura interna do PMDB é como a estrutura do senado todo, ou seja, o PMDB possui a mesma estrutura partidária que nenhuma estrutura partidária! Esse também é o caso do PR, mas ele possui menos membros e é difícil extrair estatística de poucos pontos.
  • O bloco interno do PDT possui mais correlações negativas que positivas, tornando esse partido o mais incoerente de todo o Senado. Esses senadores mais divergiram que concordaram nas decisões. Estatisticamente falando, eu os teria colocado em extremos opostos na orientação partidária.
  • O DEM é o partido “do contra”. Seu lado da matriz sendo um rio de azul escuro, esse partido faz jus ao título de oposição.

Após a publicação desse post, recebi muito feedback e, em especial, Filipi Nascimento Silva, do grupo de sistemas complexos do Instituto de Física da USP de São Carlos, reproduziu minha análise com alguns softwares mais bonitinhos, um trabalho mais fino, e o resultado é lindo. Ele representa os senadores em um grafo, cada senador é um ponto e, quanto mais próximos os senadores, maior é a coerência entre seus votos. Senadores muito distintos votam drasticamente diferente, enquanto grupos concentrados votam juntos. Ele fez o favor de colorir de acordo com os principais partidos, apresento os resultados:

PartidosFilteredNotamos que, felizmente, sua análise concorda com a minha. Temos dois grupos, um muito mais coeso que o outro, temos o PSDB lutando para ser alguma coisa, o PT profundamente concentrado no centro da região governista, o PMDB espalhado para todo canto e o PDT nos extremos mais diversos do grafo.

Todas essas conclusões são baseadas, infelizmente, em pouca informação; mas acabei me empolgando e provavelmente farei algo mais completo no futuro. Naquela discussão, meu amigo citou o dito do governo ainda imperial, que não há nada mais conservador que um liberal no poder, não posso concordar. A política brasileira atual é mais vasta e complexa, não há apenas dois, há tantos partidos no Brasil, e todos são muito diferentes. Há os que apresentam mais coerência que outros, há os que não parecem querer ter coerência interna, há oposição, há governo, há os que parecem ter sido juntados em um mesmo partido ao acaso, e há os que desejam ser maioria a todo custo.

Esse estudo me convenceu de que há muito a se ganhar se tanto o Senado quanto o Congresso disponibilizarem de forma clara os votos de cada representante. Foi um sacrifício encontrar e extrair esses dados, e acredito profundamente que uma melhora na disponibilidade e exposição desses dados acrescentaria muito ao discurso político. Quanto ao voto secreto do Senado, confesso, incomoda-me. Não questiono o aspecto político do segredo, mas não gosto; se precisasse escolher, pediria para que o abolissem, se não pela transparência e clareza, pela estatística.