Arquivo do autor:Ricardo Marino

Sobre Ricardo Marino

Físico, estatístico, brasileiro, um pouco francês, falador, curioso, aperta a pasta de dente pelo meio e começa a comer coxinha pela base, que é o único lado certo de fazê-lo.

Correlações e matrizes I

Rookie

Muitos pediram para que eu dedicasse um post à técnica que usei no estudo de correlação dos votos dos políticos nos últimos posts. Gostei das análises e confio em minhas conclusões, mas isso aqui é ciência, meus métodos precisam estar claros para que eu ganhe credibilidade. Pretendo ainda explorar a montanha de dados que tenho das votações dos deputados, mas, como meu computador foi furtado e com ele foram os scripts de análise que tinha feito, mando um post intermediário sobre a técnica antes de continuar com mais resultados. Este post será um pouco árido, mas peço paciência, o assunto é fascinante e as aplicações são imensas em todas as áreas da ciência ou da análise de dados. Seguindo este roteiro, você pode encontrar correlações entre quaisquer duas variáveis em sua pesquisa, em sua empresa, em sua sala de aula.

Vou começar tratando um problema diferente, na área da pedagogia. Eu tenho as notas de física e matemática de dez alunos: Alice, Bruno, Carolina, Daphny, Eduardo, Frederico, Gabriela, Hugo, Igor e Jonas, que serão referidos apenas por sua letra inicial:

Aluno: A B C D E F G H I J
Fís 5,0 8,0 10,0 2,0 4,5 9,0 6,0 3,0 9,0 8,0
Mat 6,0 7,0 9,5 0,0 4,5 7,0 4,5 2,5 8,0 8,0

Quando eu me pergunto se há alguma correlação entre física e matemática, quero saber, sabendo a nota de um aluno em física, se consigo dar um bom chute de qual será sua nota de matemática. Essa tabela não ajuda muito, melhor seria se eu visualizasse meus alunos como os pontos em um gráfico:

correlacao_1Com o gráfico é mais fácil ver que parece haver uma forte correlação positiva entre física e matemática. Se um aluno é bom em matemática, esses pontos me dizem que é um bom chute dizer que ele também é bom em física. Como queremos um método decente de dizer isso, medimos a chamada correlação entre duas matérias. Há diversas maneiras de definir correlação, sendo a correlação de Pearson o exemplo mais clássico de medida de correlação. Intuitivamente, queremos que essa correlação seja alta quando as notas de física e matemática andam juntas, que seja perto de zero se as variáveis parecem independentes e que seja muito negativa se ter nota em física parece atrapalhar a nota em matemática.

Precisamos matematizar isso de uma maneira coerente. Quando um aluno tirar nota baixa nas duas matérias, quero que a correlação entre as matérias aumente, e também quero que ela aumente quando um aluno tirar nota alta nas duas. A correlação deve diminuir quando um aluno tirar nota alta em uma e baixa em outra. Mas qual seria a melhor definição de alta ou baixa? Por justiça e senso comum, uso a média da sala como parâmetro, e defino nota alta e baixa como acima ou abaixo da média. Para que as coisas fiquem bem claras, eu subtraio a média de cada nota e terei o novo gráfico:

correlacao_2E aqui já percebemos que a correlação entre essas matérias certamente é positiva. Notamos que pontos nos quadrantes 1 e 3 (positivo-positivo e negativo-negativo) são pontos que contribuem com a correlação entre as matérias, enquanto pontos nos quadrantes 2 e 4 diminuem essa correlação. Como tenho apenas um ponto no quarto quadrante, e ele está quase na fronteira, é fácil admitir que a correlação é positiva entre as matérias. Contudo, ver não é o suficiente, quero um número para essa correlação.

O que a correlação de Pearson diz é que cada aluno contribuirá com a correlação com um valor de acordo com o produto de suas notas. Essa noção é boa, pois menos vezes menos dá mais, então pontos nos quadrantes um e três contribuirão para aumentar a correlação e pontos nos quadrantes dois e quatro diminuirão esse valor. É importante notar também que, nessa métrica, pontos mais distantes da média contribuem mais com a correlação que pontos próximos. Isso é razoável, pois um ponto próximo da média nas duas matérias poderia estar em qualquer quadrante com pouco esforço, enquanto trazer o ponto D, o mais extremo à esquerda, a outro quadrante exigiria muita aula particular.

Antes de calcular esse valor, precisamos sanar outro problema. Se esse estudo fosse feito na França, as notas iriam de 0 a 20, pois usar base 10 nesse país é démodé. Esses dados teriam uma flutuação maior e as correlações calculadas seriam diferentes, ainda que a proporção entre eles fosse a mesma. Ainda que eu subtraia a média, os valores deixariam de flutuar entre -6 e 6 para flutuarem entre -12 e 12, o que tornaria multiplicações entre eles maiores e a correlação maior. Se a distância em relação à média de algum aluno fosse 5 em matemática e 4,5 em física, a contribuição na correlação seria 22,5 no Brasil; na França, seria quatro-vintes e dez! Não é porque eu mudo a escala que a correlação aumenta, uma análise da correlação de altura e peso da população não pode depender do uso de centímetros ou polegadas ((Contudo, estudar em polegadas é moralmente errado.)) .

O ideal seria dividir os valores por algo que leve em conta a dispersão deles, e um excelente candidato é o chamado desvio padrão. Essa grandeza nada mais é que a raiz da média dos quadrados dos elementos. Se as notas de física são 3, 5, 8 e 10, eu primeiro subtraio de todos a média, que é  6,5, tendo como notas -3,5, -1,5, 1,5 e 3,5. O desvio padrão será

\[\sqrt{\frac{(-3,5)^2+(-1,5)^2+1,5^2+3,5^2}{4}}=2.89.\]

Uma interpretação possível do desvio padrão é o quão longe da média os dados estão. Em nosso caso, parece bem razoável dizer que os dados estão a uma distância de 2.89 da média; mas note que ele coincidir com os valores mais distantes é uma coincidência do exemplo. Esse desvio padrão das notas, que denotaremos por $\sigma_F$ e $\sigma_M$ para física e matemática, é a quantidade que queremos para deixar as notas comparáveis. Assim, a correlação entre duas matérias é calculada somando o produto de cada par de notas e dividindo pelos desvios-padrão de cada matéria, ou seja:

\[\text{Corr }=\frac{F_1M_1+F_2M_2+\cdots+F_{10}M_{10}}{\sigma_F\sigma_M},\]

onde $F_1$ é a nota de física de um aluno e $M_1$ é sua nota de matemática. É importante notar que nessa definição a correlação máxima entre dois pontos é 1 e a mínima é -1, o que nos permite comparar correlações de objetos completamente diferentes usando a mesma escala. Isso é resultado da subtração da média e divisão pelo desvio-padrão, ferramentas que nos permitem equiparar grandezas completamente diferentes e analisá-las com o mesmo termômetro e mesma régua.

Calculando finalmente a correlação entre física e matemática, encontramos o valor 0,94. Ele é, como esperado, extremamente alto, já que o valor máximo é 1, o que mostra que notas de física e matemática, entre nossos alunos, estão profundamente correlacionadas. Em um chute ingênuo, mas honesto, com esses dados, é possível dizer que alunos bons em uma matéria são bons em outra, enquanto os que não sabem matemática também não parecem saber física.

Isso é esperado, porque, como o gráfico mostra, as notas estão praticamente alinhadas. Com esse método, temos um número, uma medida, para dizer o quão alinhadas elas estão. Notas perfeitamente alinhadas nos dariam correlação 1.

Atravessei todas essas definições com carinho para que fique claro o que é aquela matriz colorida dos deputados e senadores. Cada elemento é a correlação entre dois deputados, eles são o equivalente às matérias no meu exemplo. As notas dos alunos, no caso dos deputados, são as decisões que eles tomaram em uma votação, sendo 1 para SIM, -1 para NÃO e 0 para abstenção. A matriz funciona como um jogo de batalha naval, o senador da linha $i$ terá uma correlação com o senador da coluna $j$ representada pelo número no quadrado $(i,j)$ da matriz, sendo esses números de -1 a 1.

Claro que em outras circunstâncias eu teria mais cuidado para dizer que 0,94 é uma correlação grande, pois uma objeção razoável a esse tratamento todo é: quão grande é grande? A partir de 0,8? 0,7? Ainda que em um estudo menos formal você possa tomar o critério que mais lhe pareça razoável, como, por exemplo, dizer que 0,8 é o limite, é intelectualmente mais honesto comparar mais grandezas (em nosso caso, mais matérias) e afirmar que matemática e física, por exemplo, possuem mais correlação que matemática e português, se no caso as notas de matemática e português possuírem uma menor correlação.

No próximo post disserto um pouco sobre como ordenei a matriz e sobre como essa ordenação revela a estrutura de blocos e nos traz informações que, na frieza das tabelas, não são evidentes. Todo esse processo que descrevi pode ser automatizado com tranquilidade em qualquer software de tratamento de planilhas, cujo principal expoente é o Microsoft Excel. Tenho certeza de que na área de funções estatísticas há uma que calcula a correlação de Pierson de duas grandezas, mas entender de onde ela ver e o que ela significa é muito mais importante que calcular 0,94.

A força de uma narrativa

Rookie

Em meu último post, apresentei a vocês algumas técnicas estatísticas interessantes aplicadas ao estudo de correlações entre os partidos brasileiros. O assunto agradou, e muitos pediram um estudo parecido com a câmara dos deputados, com sua base amostral muito maior, seu jogo político mais acirrado, seria um estudo interessante em vários níveis. No entanto, não queria repetir exatamente o que fiz com os senadores, não queria mais do mesmo. Decidi, por isso, avançar em um assunto mais polêmico, e estudar a força de uma narrativa da política brasileira.

Lanço novamente o alerta: esse não é um blog político. Não tenho agenda partidária e minha opinião política é irrelevante na estatística. Tentei tratar os dados da maneira mais imparcial que pude, aceito sugestões dos que acharem alguma soma ou divisão injusta nessas linhas. A escolha do assunto é um interesse pessoal que partilho com muitos brasileiros: o escândalo na política apelidado mensalão.

A narrativa da acusação, resumidamente, é a de que durante os anos 2003-2004 a base aliada pagou uma espécie de mesada a deputados para fortalecer suas votações e assegurar o apoio da câmara aos projetos do governo. Base aliada e governo negam, sustentando sua inocência até o julgamento, que ainda corre. O escândalo explodiu no primeiro semestre de 2005, o que nos permite uma tentativa de análise nisso.

Tendo em mãos os votos dos deputados federais durante o primeiro mandato do governo Lula, pude dividir esses quatro anos em duas duplas: 03-04 e 05-06. Podemos nos perguntar como as correlações entre os partidos evoluíram entre esses dois biênios, pois, se a narrativa da acusação faz sentido, então a correlação entre governo e centro nos dois primeiros anos deve ser mais forte que nos anos seguintes, pois na primeira dupla o mensalão supostamente existiu, e foi desmantelado no início dos dois anos seguintes.

Claro, isso é uma simplificação grosseira, e proponentes de ambos os lados da narrativa podem interpretar os resultados da análise como quiserem. Se eu não encontrasse correlações, os mensalistas poderiam alegar que tal pagamento pode ter continuado no biênio seguinte. Eu encontrando correlação, os anti-mensalistas poderiam dizer que as mentiras vomitadas pelo partido da imprensa golpista fizeram o centro recuar do governo, ou que a mudança nas correlações é um resultado normal de uma crise política. A estatística é uma, mas a interpretação é sua.

Dito isso, vamos aos dados. Depois da publicação do último post, recebi uma chuva de dados, planilhas e banco de dados, e mando todos os meus agradecimentos aos que indicaram referências e especialmente aos do radar parlamentar pelo lindo banco de dados com todos os votos dos deputadores federais desde 1999. Infelizmente esse banco de dados não é meu, qualquer interessado pode entrar em contato com o grupo do radar e eles provavelmente ficarão felizes em compartilhar os dados. Aquele arquivo .xml foi um presente de natal, eu nem sabia o que fazer com tantos dados, senti-me uma criança presa na fábrica da Nestlé.

Para realizar a análise, tomei algumas decisões. Não podia considerar todos os deputados, alguns não possuíam relevância estatística suficiente. Excluí da análise qualquer deputado que tenha votado em menos de 10% das votações em qualquer um desses dois períodos. Ao todo, foram tomadas 259 decisões em 03-04 e 164 decisões em 05-06. A câmara possui 513 deputados, mas com este filtro apenas 450 sobreviveram para a análise. Os excluídos fazem parte dos que se tornaram prefeitos em 2005 ou daqueles cuja frequência no plenário deixou a desejar.

Primeiro, vejamos a composição da câmara no biênio 03-04, em uma matriz similar à usada no estudo dos senadores:

lula_1

Matriz de correlação da câmara nos anos 03-04.

Aos que não viram o último post, explico a matriz. Na linha $i$ e coluna $j$ você encontra a correlação entre o deputado $i$ e o deputado $j$ durante os anos 03-04. Se essa correlação é positiva, eles votam juntos. Se é negativa, costumam divergir. O tamanho da correlação será a coerência entre os votos desses deputados, muito alta, eles votam de forma praticamente igual, muito negativa, eles parecem querer votar um o oposto do outro. Essa matriz pode ser lida em blocos. Notando a existência de dois blocos, percebemos a existência de duas orientações políticas na câmara, que equivalem ao que chamamos de governo e oposição. Como no caso dos senadores, elas existem e são bem definidas. Além disso, há pouquíssimas regiões de anticorrelação, o que mostra que a câmara em 2003 buscou bastante o consenso; a própria natureza dos votos da câmara parece chamar mais concordância e unanimidade.

O segundo passo foi criar essa exata mesma matriz para o período 05-06, mas precisamos tomar cuidado. Devemos continuar com a mesma ordem da matriz, e essa ordem foi definida pelas correlações no primeiro período. Mantendo os mesmos deputados nas mesmas linhas, eu construo a matriz do segundo biênio do primeiro governo Lula:

lula_2_dep_1

Matriz de correlação da câmara nos anos 05-06.

Essa matriz está bem mais confusa, mas é o esperado, pois usamos a ordenação no período anterior, e certamente coisas mudaram entre os dois períodos. Ainda não conseguimos ver claramente o que mudou, ou o quanto mudou, por isso precisamos de um critério mais visual e preciso para medir a diferença, e uma subtração costuma ser bem eficaz para esse trabalho.

A matriz seguinte será a diferença entre as correlação de cada deputado comparando o período 05-06 ao período 03-04. Os exatos mesmos deputados são analisados. As regiões vermelhas, negativas, são aquelas que perderam correlação, ou seja, enfraqueceram politicamente de 03-04 a 05-06. As regiões azuis ganharam correlação, foram fortalecidas quando comparamos os dois biênios.

lula_delta

Diferença entre as matrizes de correlação do primeiro e segundo biênio do primeiro governo Lula.

E aqui temos um prato cheio para análise. A base governista perdeu muita correlação a partir do ano 2005, e, com isso, muita força política. Notamos que as mesmas pessoas que abandonaram o barco do governo, as “raias vermelhas” no bloco governista, concordaram substancialmente mais com o bloco da oposição. Essas raias que rasgam o espectro mostram um movimento massivo de políticos que votaram majoritariamente a favor do governo nos primeiros dois anos e trocaram de opinião, passando a contrariar a situação em um número relevante de vezes nos dois anos seguintes. Cada raia vermelha representa um deputado que em 2003-2004 votou diversas vezes a favor do governo e em 2005-2006 não apresentou o mesmo nível de concordância com a base da situação. O número de raias vermelhas no governo passa de 100.

É verdade que há raias vermelhas na oposição também, não podemos ignorá-las. Mas podemos contá-las, são cinco deputados que votavam com a oposição e passaram à situação, um número insignificante perto do fenômeno inverso, podendo ser explicado por flutuações estatísticas convencionais ou outras manobras políticas naturais ao congresso. Ademais, dentro da oposição há de tudo, aumento e perda de correlação, enquanto a base aliada é um mar de vermelho, não há nenhum ganho de correlação em todo núcleo da base aliada.

Em um próximo post, prometo a análise desses dados com os partidos em mente. Não exponho agora para não carregar em informação, e para não trair meu propósito inicial: avaliar a força de uma narrativa. A acusação do mensalão não cita (que eu tenha visto, correções são bem-vindas) partidos explicitamente, mas um fenômeno interpartidário em larga escala, dinheiro dado a parlamentares como persuasão a votarem de acordo com a situação. Olhando esta matriz, sou obrigado a concluir que a narrativa da acusação, que afirma a existência de um mensalão, é coerente com a estatística apresentada e explica os dados de maneira completa. Contando a partir da explosão do escândalo do mensalão, primeiro semestre de 2005, a correlação da base aliada ao governou caiu de maneira significativa e diversos deputados que estavam no núcleo da coerência governista votaram de maneira drasticamente diferente no segundo período do governo Lula.

Termino o post reiterando o aviso inicial: essa estatística não prova nada. Muitas explicações podem ser levantadas para essa mudança, os dois lados da história podem interpretar os dados como quiserem ou puderem, e podem levantar falhas na metodologia que tentarei responder ou consertar. Vou deixar esse ponto muito claro, porque não quero gente dizendo “Estatístico prova que mensalão aconteceu!”, correlação não implica causalidade. A única conclusão que posso tirar disso é a frase em negrito acima: a narrativa da acusação faz sentido. Se ela fosse verdade, esperar-se-ia dos votos dos deputados uma mudança cujo caráter é muito similar ao observado na realidade. Essa matriz não é prova, no máximo evidência, cuja interpretação e discussão deixo a quem entende do assunto.

Há partidos políticos no Brasil?

Rookie

Discutia um dia desses política com um amigo. Não entendo quase nada do assunto, ainda mais estando longe do Brasil, só recebo compartilhamentos de Facebook com a indignação da classe média no novo escândalo. Meu amigo, contudo, lançou o seguinte argumento:

O Brasil não tem partidos. Não é como os EUA, por exemplo, que possuem ideologia, um partido que vota coeso, um plano de governo. Aqui cada um vota como quer, os partidos servem só para fazer alianças e ganhar ministérios.

Não pude responder, porque não havia base para qualquer opinião nisso, contra ou a favor. Engana-se quem acha que fico satisfeito com o nível “bar” de conversa de política; não posso apenas argumentar citando um caso como prova, sou estatístico, tenho brios. Disse que iria pensar a respeito, e esse post é o que pensei a respeito, minha tentativa de responder a pergunta que vai no título.

Antes de mais nada, esse não é um blog político e esse não é um post político. Se você está buscando gritos de “FORA PT” ou “CHORA TUCANADA”, abra seu Facebook, não este site.

Usando meu comportamento obsessivo, o mesmo que me fez, em maio do ano passado, compilar o mês de aniversário de quase 400 jogadores de futebol, passei algumas horas no site do senado brasileiro e juntei os votos de todos os senadores brasileiros nas decisões da casa no ano de 2012. Não foi fácil, porque o site não é feito para esse tipo de análise. Cada senador possui uma página pessoal, com um arquivo pdf para cada ano e as decisões são escritas nesse arquivo.

Descobri nesse processo que, ainda que o voto seja obrigatório ao brasileiro, não é aos senadores. Existe uma modalidade de voto chamada P-NRV, presente – não registrou voto. O exemplo que dei acima, o arquivo pdf do senador Aloysio Nunes, não foi escolhido por acaso, ele é um dos dois casos de senadores que registrou voto em todas as votações abertas. Se quiser um exemplo do uso de P-NRV, recomendo o pdf de José Sarney, ele votou em apenas três votações abertas. ((Muito provavelmente por ser o presidente do Senado. Ainda que ele não seja impedido de votar, como os presidentes de comissões são em assuntos de sua comissão, Sarney provavelmente prefere deixar seu voto para ser a Minerva nos empates.))

Outra particularidade é a proporção de votações abertas e secretas. Em 2012 tivemos 36 votos abertos e 46 secretos, o que prejudicava um pouco mais minha vida, pois reduzia minha base de dados. Todos os votos, sendo 1 para “Sim”, -1 para “Não” e 0 para a não emissão de voto, por qualquer motivo, você encontra no link.

Em minha análise contei 75 senadores. O leitor atento pode não gostar, pois o Senado possui 81 senadores, mas tive que excluir os que entraram apenas como suplentes em 2012. Muitos começaram o mandato apenas em outubro, a quantidade de informação acrescentada é baixíssima, posso exclui-los sem medo.

E uma vez que tenho essa base de dados (75 senadores em 36 decisões), posso me divertir. A matemática não é difícil, a parte difícil foi caçar os votos no site do Senado. Estamos atrás da chamada matriz de correlação dos votos. Sem entrar em detalhes, essa matriz me diz o seguinte:

Na linha $i$ e coluna $j$ terei um valor. Se esse valor é positivo, o senador $i$ costuma votar de forma coerente ao senador $j$. Se é negativo, eles costumam emitir votos opostos. Quanto mais alto, maior é essa correlação entre eles. Se é muito negativo, eles divergem em muitas decisões.

Usando algumas técnicas interessantes, que infelizmente não cabem em um post nível Rookie ((O autovetor associado ao maior autovalor da matriz de correlação nos dá o primeiro componente principal, o que é o equivalente a saber o quão “governista” ou “oposicionista” um senador é!)) , pude ordenar os senador em “governismo”, ou seja, colocá-los em uma escala de mais governo ou mais oposição. Sem incluir nomes ou partidos, a matriz de correlação tem essa cara:

senadores_1Para ler esse gráfico, basta pensar que quando um quadrado é bem vermelho, então os senadores equivalentes a aquela linha e coluna votam juntos. Se está bem azul, eles costumam votar bem diferente. É claro que a diagonal será bem vermelha, pois ela representa um senador consigo mesmo, e essa é a correlação máxima, uma pessoa sempre vota consigo.

Mas note que há dois grupos bem distintos de senadores. O primeiro bloco, no canto inferior esquerdo, possui alguns pontos vermelhos entre si e é essencialmente azul quando comparamos ao outro bloco. O bloco dominante, o do canto superior direito, também é coerente entre si e profundamente azul com o outro bloco. Nesse gráfico, podemos perceber que no Senado, há bem definidas oposição e situação. Isso fica mais fácil se eu sinalizar esses blocos, de onde conseguimos extrair ainda mais informação:

senadores_2Percebemos mais alguns detalhes aqui. Esse mapa pode ser lido em “blocos”. O quadrado oposição-oposição indica a coerência interna daquele bloco, enquanto o oposição-governo indica o quanto esses blocos diferentes votam juntos. O governo possui muito mais regiões vermelhas, o que indica coesão e correlação entre os votos, enquanto a oposição está cheia de pontos azuis. Isso é a confirmação estatística do que sempre se disse da política atual brasileira, que a oposição não apenas é menor, mas é desunida e não vota de maneira coerente. O governo, no entanto, possui uma larga região coerente e garante, com isso, um senado tranquilo para quem está no poder.

Esse gráfico ainda não responde meu amigo, porque eu não considerei partidos em nenhum momento. Eu descobri dois grupos, e os chamei de oposição e governo, mas apenas fiz isso porque sabia quais partidos eram majoritários em cada bloco. O bloco que contém o PT é o que chamei de governo, enquanto o outro é a oposição; mas vale a pena analisar se esses blocos coincidem com os partidos políticos tradicionais.

Aquela matriz possui uma ordem, eu a ordenei propositalmente para encontrar esses dois blocos; mas agora posso mudar a ordem respeitando os partidos políticos. Como são muitos, anotarei apenas os maiores para que vocês consigam, olhando para os blocos partidários, notar duas coisas:

  • O bloco “interno” do partido, as correlações dele consigo mesmo, situados na diagonal da matriz. Isso dará uma ideia do quão coerente os membros de um partido são com os membros do mesmo partido.
  • Os blocos “externos”, por exemplo, o bloco PSDB-PT nos permite ver o quanto esses dois partidos votaram juntos (presença de vermelho) ou divergiram (presença de azul)

A ordem de todos os partidos, para incluir os omitidos, é: PSDB – PSOL – DEM – PDT – PR – PMDB – PTB – PSD – PSC – PP – PT – PSB – PV – PCdoB – PRB. Esse gráfico já é bem mais interessante. Ele é diferente do anterior porque ordenei as linhas e as colunas para se tornarem blocos partidários, e podemos, com isso, tirar as seguintes conclusões:

  • Os únicos partidos de oposição são PSDB, DEM e, surpreendentemente, PSOL. O senador psolista não apresenta grande correlação com ninguém, mantendo uma coloração verde-água em toda sua linha; infelizmente ele é apenas um e é difícil tirar estatística de um ponto para confirmar a independência política do PSOL.
  • PSDB apresenta razoável coerência interna, mas não se compara à coerência petista. O tom vermelho no bloco interno no PT mostra que o partido costuma votar junto, com raras exceções, sendo Ana Rita, do Espírito Santo, a que mais contraria seu partido.
  • O caso do PMDB é talvez o mais interessante. Compare o bloco interno desse partido com a figura completa, a primeira que coloquei, são quase iguais! A estrutura interna do PMDB é como a estrutura do senado todo, ou seja, o PMDB possui a mesma estrutura partidária que nenhuma estrutura partidária! Esse também é o caso do PR, mas ele possui menos membros e é difícil extrair estatística de poucos pontos.
  • O bloco interno do PDT possui mais correlações negativas que positivas, tornando esse partido o mais incoerente de todo o Senado. Esses senadores mais divergiram que concordaram nas decisões. Estatisticamente falando, eu os teria colocado em extremos opostos na orientação partidária.
  • O DEM é o partido “do contra”. Seu lado da matriz sendo um rio de azul escuro, esse partido faz jus ao título de oposição.

Após a publicação desse post, recebi muito feedback e, em especial, Filipi Nascimento Silva, do grupo de sistemas complexos do Instituto de Física da USP de São Carlos, reproduziu minha análise com alguns softwares mais bonitinhos, um trabalho mais fino, e o resultado é lindo. Ele representa os senadores em um grafo, cada senador é um ponto e, quanto mais próximos os senadores, maior é a coerência entre seus votos. Senadores muito distintos votam drasticamente diferente, enquanto grupos concentrados votam juntos. Ele fez o favor de colorir de acordo com os principais partidos, apresento os resultados:

PartidosFilteredNotamos que, felizmente, sua análise concorda com a minha. Temos dois grupos, um muito mais coeso que o outro, temos o PSDB lutando para ser alguma coisa, o PT profundamente concentrado no centro da região governista, o PMDB espalhado para todo canto e o PDT nos extremos mais diversos do grafo.

Todas essas conclusões são baseadas, infelizmente, em pouca informação; mas acabei me empolgando e provavelmente farei algo mais completo no futuro. Naquela discussão, meu amigo citou o dito do governo ainda imperial, que não há nada mais conservador que um liberal no poder, não posso concordar. A política brasileira atual é mais vasta e complexa, não há apenas dois, há tantos partidos no Brasil, e todos são muito diferentes. Há os que apresentam mais coerência que outros, há os que não parecem querer ter coerência interna, há oposição, há governo, há os que parecem ter sido juntados em um mesmo partido ao acaso, e há os que desejam ser maioria a todo custo.

Esse estudo me convenceu de que há muito a se ganhar se tanto o Senado quanto o Congresso disponibilizarem de forma clara os votos de cada representante. Foi um sacrifício encontrar e extrair esses dados, e acredito profundamente que uma melhora na disponibilidade e exposição desses dados acrescentaria muito ao discurso político. Quanto ao voto secreto do Senado, confesso, incomoda-me. Não questiono o aspecto político do segredo, mas não gosto; se precisasse escolher, pediria para que o abolissem, se não pela transparência e clareza, pela estatística.

Meu trabalho

Hardcore Rookie

Tirei férias, viajei a trabalho e abandonei o blog, confesso. Peço desculpas pela ausência de aviso, já que avisei ano passado, mas até durante a viagem esqueci meu carregador e meu notebook era apenas um peso de papel tecnologicamente avançado. Nesse último mês, coloquei meu primeiro artigo no arXiv, um grande site que abriga artigos científicos e os disponibiliza gratuitamente. Você pode conferir meu trabalho aqui, mas dificilmente ele será muito compreensível, então aproveito esse post para me fazer entender, e tentar explicar o que foi meu trabalho desses últimos meses.

Transporte de elétrons é algo bem importante na física, compreender e dominar essa arte é fundamental para construir qualquer aparelho eletrônico que se preze. Não domino nada de eletrônica, mas gosto de elétrons, e imagino um sistema da seguinte forma: elétrons podem entrar em uma “caixa” com propriedades praticamente desconhecidas, e podem sair dela. Dentro, fazem o que quiserem, e eu tenho pouquíssimo controle do que acontece nessa caixa. A pergunta é: sem saber praticamente nada sobre essa caixa, qual a melhor estimativa que posso fazer do fluxo de elétrons nesse sistema?

quantum_dot_1

Eu honestamente prefiro elétrons em amarelo, mas em azul fica mais fácil ver, e é a preferência da física de partículas com que divido o apartamento. Essa pergunta sobre o fluxo de elétrons não é fácil, e é importante, esse tipo de sistema existe na vida real e a eletrônica de seu celular é cheia deles. Conhecido como “ponto quântico”, quantum dot, esse é um dos modelos mais simples de transmissão de elétrons em meios desconhecidos. Na vida real, isso é mais próximo dessa imagem:

quantumdot Essa questão vem sendo respondida desde os anos 80, sempre com um modelo “ideal” em mente. Neste modelo, a caixa e os conectores são perfeitamente acoplados, não há chance de um elétron não entrar ou de não sair, ou seja, não há reflexão de elétrons no contato entre a caixa e os conectores. Esse modelo é extremamente bem sucedido, mas longe da realidade, e meu artigo é sobre aproximar esse modelo da realidade.

Em 2007, Kanzieper e Vidal deduziram como é esse fluxo para o caso em que há impurezas entre os conectores e a caixa. A fórmula que eles obtiveram é horrível, impraticável, ainda que não exatamente feia. Tanto é difícil que os autores só conseguiram estudar o caso de conectores muito pequenos, deixando passar apenas elétrons em uma dada velocidade, um modelo bem limitado. Nesses últimos quatro meses, tratei essa fórmula com muito carinho, e consegui resultados para um modelo um pouco diferente: podemos agora deixar passar quantos elétrons quisermos, e podemos calcular esse fluxo em qualquer precisão, mas minhas fórmulas funcionam melhor para pequenas impurezas. Quanto maiores as impurezas, mais conta você vai ter que fazer. Não é um modelo ruim, porque em geral o número de impurezas é pequeno. Ora, se o caso ideal já era bem sucedido, o caso “impurezas pequenas” será ainda melhor.

E esse foi meu trabalho. Não parece muito emocionante, não parece explicar a origem dos átomos, ou não revela uma verdade fundamental da natureza, mas isso é fazer ciência. O que aprendemos na escola, e a maior parte do que você encontra por aí, é ciência pronta, tudo acabado, bonitinho, ciência que já tem décadas, ou séculos, de idade. Fazer ciência, ser cientista, é como abrir caminho na floresta com um facão, não sabemos o que vamos encontrar, é difícil atravessar obstáculos e podemos muito bem não chegar a lugar nenhum. Se encontramos, no entanto, uma descoberta fascinante; logo esse caminho será alargado, asfaltado, iluminado e a descoberta receberá o tratamento que merece, só então ela vai parar nas escolas ou na divulgação científica.

A partir daqui, o post se torna Hardcore. Continue por sua conta em risco.

Eu não poderia encerrar esse post sem comentar algumas coisas específicas do meu artigo. Como vocês são gente grande na ciência, posso colocar uma imagem mais adequada do quantum dot:

quantum_dot_2Temos uma função de onda dos elétrons que entra e uma que sai. Os conectores desse tipo de sistema costumam ser projetados para deixarem passar funções de onda com um número de onda específico, ou seja, se decompusermos $\Psi$ em ondas planas, o conector vai transmitir apenas $N$ modos de onda. Analogamente, o conector de saída pode deixar passar $M$ modos. Esses valores são importantes, pois se são muito grandes a onda passa praticamente inteira.

A caixa sendo desconhecida, uma maneira de tratar o problema é supor que os elétrons sofrem espalhamento quântico no interior. Sendo agora um problema de scattering, podemos deduzir a matriz $S$ do problema (a matriz que torna a função de onda inicial na final: $\Psi^\prime=S\Psi$). O problema é que, para haver a $S$, precisamos no hamiltoniano da caixa, $H$. É um pouco complicado, mas possível, deduzir que, se a caixa é desconhecida, o hamiltoniano que maximiza a entropia e representa nossa melhor estimativa é um cujas entradas são gaussianas.

Um hamiltoniano gaussiano gera uma matriz $S$ do tipo “Poisson”, que é uma matriz complicada. Se supusermos o caso ideal, apenas o hamiltoniano da caixa conta e não há hamiltoniano de acoplamento entre a caixa e os conectores, então essa matriz $S$ será uma matriz uniformemente distribuída no espaço das matrizes unitárias. A partir dela, podemos estudar o que chamamos de autovalores de transmissão, que são os autovalores da parte de transmissão da matriz $S$. O trabalho de Kanzieper e Vidal deduz a densidade de probabilidade para esses autovalores, mas essa p.d.f. é horrenda. Neste artigo, descobrimos que se essa p.d.f. for expressa em termos de polinômios de Schur, ela fica muito mais bonita, e, além disso, podemos expressar a probabilidade do caso não-ideal como a do caso ideal vezes um fator de correção. Ele é feio, é verdade, mas essa informação é fundamental, porque podemos importar todos os cálculos de momentos e probabilidades do caso ideal (estudado desde os anos 80) para o não-ideal, bastando apenas multiplicar pelos fatores adequados. Se esse assunto interessar alguém, recomendo a excelente review de Beenakker.

Bolhas de Hubble

Rookie

Ano passado, publiquei um post sobre a expansão do universo. É um assunto fascinante que me impressiona duplamente: primeiro porque é interessante saber que o universo está se expandindo e que não sabemos exatamente o que acontecerá com ele, segundo porque conseguimos, flutuando em uma pedra ínfima que gira em torno de um estrela pequena isolados em um canto qualquer do universo, usando apenas a razão, sondar os mistérios da origem e fim de tudo o que existe. Temos como normal o fato de sabermos coisas como o Big Bang, ou a expansão do universo; ainda que isso seja o equivalente a uma civilização que mora em um grão de areia na Terra ser capaz de entender geopolítica e relações internacionais.

Semana passada tive o privilégio de trombar com um artigo na Physical Review Letters sobre teorias atuais da expansão do universo. Como físico, é meu trabalho estar em dia com essas coisas, ainda que estejam muito distantes de minha área. O artigo desbanca uma possível solução para o famoso problema dos 9%, encerrando uma discussão de duas décadas, abrindo caminho para, quem sabe, nova física e uma nova concepção do universo. Para entender o que aconteceu, precisamos entender esses 9%.

O universo está se expandindo, é verdade, mas resta saber quanto. Podemos medir esse valor de duas maneiras diferentes: ou perguntando aos vizinhos, ou tirando fotos de vários cantos do universo e tirando a média dessas fotos. O primeiro método consiste em medir a expansão de objetos em torno da terra (em torno eu digo perto de nossa galáxia, não Marte ou Júpiter), você observa, vê o quanto eles estão se afastando, e tira um valor disso. O segundo consiste em estudar a radiação cósmica de fundo, que são ondas eletromagnéticas chegando de todos os cantos do universo e atingem a Terra. Isso seria o equivalente a tirar uma foto em baixa resolução de todo o universo, com isso podemos obter a média da expansão. Eis o problema, esses métodos produzem valores bem diferentes.

O que medimos não é a aceleração propriamente dita. Por razões relativísticas, falar de aceleração de algo em metros por segundo ao quadrado não faz tanto sentido quanto você gostaria. Medimos o chamado parâmetro de Hubble, um $H_0$, que tudo tem a ver com o $\Omega$ de meu post anterior. Esse $H_0$ define a expansão do universo. No primeiro método, temos que $H_0=73,8\pm 2,4$ km/(s.Mpc), essa é a unidade do $H_0$. No segundo método, temos $H_0=67,80\pm 0,77$ km/(s.Mpc). É fácil ver que esses valores são incompatíveis, e isso é um problema.

Um leitor pode argumentar que essa diferença nem é tão grande, apenas 9%, afinal, estamos falando de cosmologia, erros de 20% são quase certeza absoluta. Com um pouco mais de integridade intelectual, podemos nos convencer de que esse é um problema grave; se a constante de Hubble valesse, por exemplo, R$3,00, a diferença seria de mais de vinte centavos. Mas a questão está longe de ser vinte centavos, é algo mais profundo, algo acontece para causar essa diferença e não sabemos o que é.

A teoria mais interessante para explicar essa diferença era a chamada Hubble Bubble, a bolha de Hubble. Ela começava se perguntando: por que nosso parâmetro de Hubble $H_0$ haveria de ser igual ao da média do universo? E se estivermos em uma região particularmente pouco densa, como que por acaso caímos nela na criação do universo, o que isso teria de estranho? Não que ocupemos uma posição privilegiada no universo, mas um fruto do acaso e das flutuações estatísticas pode ter feito com que tenhamos surgido em uma região pouco densa do universo. Isso seria tão estranho quanto alguém nascido em Cândido Mota achar que a geografia está errada porque a média de tamanho de cidades em São Paulo é muito maior que o da sua cidade.

Uma Hubble Bubble seria uma região do universo com uma densidade não convencional. A seguir, fotos de duas Hubble Bubbles:

Hubble_Bubble_2

O artigo da semana passada, no entanto, derruba a teoria. Ele prova que as alterações típicas de densidade do universo são capazes de explicar no máximo 3% na diferença do valor, sendo uma variação de 9% algo extremamente raro, que nos colocaria de fato em uma posição privilegiada no universo.

A cosmologia sempre fica mais interessante quando teorias caem e não sabemos o que está acontecendo. Se a bolha de Hubble não é capaz de explicar a variação na aceleração do universo, fica aberta a porta da nova física, do inesperado, para salvar nosso modelo, ou para destruí-lo completamente com uma descoberta revolucionária. Ou teremos variações de densidades não previstas pela teoria atual da cosmologia, ou descobriremos defeitos fundamentais na medição de grandezas astronômicas, ou algo muito, muito estranho está acontecendo nessa galáxia.