Arquivo mensais:março 2013

A caixa desconhecida

Rookie

Para completar a trilogia dos posts sobre entropia (Abaixo de zero e Quantos times de futebol tem no Brasil?), preciso me explicar sobre o que disse anteriormente. Em meu primeiro post a respeito, mencionei a seguinte frase, falando sobre a mistura de dois estados:

A entropia indica quão bem feita é essa mistura, sendo máxima quando todas as configurações do sistema, todas as combinações de bolinhas em cima e embaixo, são possíveis e igualmente prováveis, ou seja, desordem completa, não posso afirmar nada sobre o estado atual do sistema, ele pode ser qualquer coisa.“.

Essa frase causou estranheza em alguns, que comentaram como pode uma situação em que eu sei tanto sobre o sistema (que todas as configurações possíveis são igualmente prováveis) ser também aquela que maximiza minha ignorância sobre o sistema. Vou tentar explicar o que quis dizer com isso, através de um problema que me foi proposto no último karaokê a que fui.

Imagine-se diante de duas caixas. Ambas possuem bolas de bilhar em seu interior, pretas e vermelhas, e seu objetivo é colocar a mão na caixa e, sem olhar, tirar uma bola preta. A primeira caixa é aberta e mostram a você que ela possui exatamente a mesma quantidade de bolas pretas e brancas. A segunda caixa, contudo, está completamente fechada e coberta, não é possível saber absolutamente nada sobre ela. A pergunta é: qual caixa você escolhe para jogar o jogo em que o objetivo é tirar a bola preta?

Escolha de caixas para tirar bola preta.

Escolha de caixas para tirar bola preta.

Colocar essa pergunta e colher respostas é um interessante experimento sobre a aversão ao risco, uma característica inata dos seres humanos de preferirem o conhecido ao desconhecido, ainda que o conhecido não seja lá tão bom. A resposta convencional que recebo, e a que ouvi da maior parte de meus colegas naquela noite de cantoria de música brega, é escolher a caixa conhecida. Ainda, na minha vez de responder, não hesitei: as caixas são completamente equivalentes.

Apesar da certeza de ter 50% de chance de ganhar o jogo na caixa da direita, eu tenho que ser coerente com a teoria de probabilidades na escolha. Na ausência de qualquer outra informação, eu não tenho razão para supor que a caixa da esquerda vá me favorecer ou me prejudicar, a única alternativa honesta é assumir que essas duas probabilidades são iguais, em uma hipótese de que o universo não é nem bonzinho nem sacana comigo. A caixa da direita, ainda que eu tenha bastante informação sobre ela, é absolutamente equivalente à caixa desconhecida quando o que quero é tirar uma bola preta!

Mas isso precisa de mais explicação. Não basta dizer que na ausência de informação a configuração mais provável é de 50%-50%, assim como dizer que Deus pode existir e não existir, então a probabilidade de existência ou não do divino é de 50%-50%; ou, ainda, considerando as três maiores religiões monoteístas do mundo, a chance de cada uma delas estar certa é de um terço. Tais considerações são absurdas, mas para as bolas na caixa ela é correta, porque, diferentemente da teologia, eu posso definir o que chamamos de espaço amostral da caixa.

Sabemos que a caixa tem um tamanho finito. Assim, podemos encontrar apenas $N$ bolas na caixa. Ao colocarmos em uma tabela todas as configurações possíveis de proporções de cores de bolas na caixa, percebemos que o número de configurações em que as vermelhas são mais prováveis que as pretas é igual ao número de situações em que elas são menos prováveis. Neste caso o espaço amostral está muito bem definido (diferentemente de meus problemas com o divino), então eu devo, para seu intelectualmente honesto, dizer que todas são equiprováveis.

Isso explica o que disse no post sobre a entropia. Em um sistema de máxima entropia, onde todas as configurações possíveis são iguais, eu tenho a maior “ignorância” sobre o sistema. Essa ignorância não é relativa à proporção de bolas ou às probabilidades associadas aos estados, essas eu conheço bem, a ignorância está no fato de que, em máxima entropia, sei tanto sobre o estado que o sistema estará como se não soubesse nada a respeito dele. Nesse sentido, entropia máxima é ignorância máxima.

Eu certamente não extingui o assunto, entropia é um assunto complicado demais. Ainda, espero que com esses três posts você tenha avançado um pouco mais na compreensão desse conceito, nascido nas máquinas térmicas do século XIX, que descreve tanto o número de configurações possíveis quanto nossa ignorância sobre um sistema, passando pela definição de temperatura e pela importância de times de futebol Brasil afora.

Quantos times de futebol tem no Brasil?

Geek

Ricardo: O autor do post de hoje é um grande amigo meu, Juan Simões, meu calouro tanto no Instituto de Física quanto na École Polytechnique, tendo continuado na física, ainda que seja algo que qualquer físico diria ser alienígena, em interfaces entre biologia, física e matemática pura, não me perguntem. Ele se propôs a escrever algo sobre entropia, e entregou. Entrego-os, portanto, a essa discussão sobre importância, ordem e futebol.


— Tem o Curintia… Tem o Parmera… Tem…

Pare agora mesmo! Não adianta nada começar a contar.

— Mas por quê? Finalmente vai ter uma pergunta que eu consigo responder neste blog!

Isto é só sua impressão, porque está é uma pergunta traiçoeira. Provavelmente quem te perguntou isso não gosta nada de você. Mas vamos pensar um pouco juntos para tentar responder da melhor maneira possível. E até aprender um pouco de física no caminho!

O primeiro problema com esta pergunta é que ela é impossível de responder exatamente. Não dá pra conhecer todos os times do Brasil, mesmo que você acompanhe desde a Libertadores até os rachas dos times de várzea do seu bairro.

— Mas eu conheço os mais importantes!

Tá certo, mas o que é um time importante? É ter torcida grande? Ou simplesmente ser registrado na CBF? Esta pergunta é um clássico exemplo de problema mal posto. Ela não tem uma resposta única correta, e não dá nenhum parâmetro para saber se uma certa resposta que dermos é próxima ou não da verdadeira.

Isso quer dizer que é necessário um índice de importância que nos deixe comparar os diferentes times. Mas isso é suficiente para responder ela direito? Afinal, se o meu critério de importância é a torcida, o time dos pivetes da rua de baixo é um time.

Isso nos leva a outra necessidade. Além de uma importância, temos que saber contar times levando em conta suas respectivas importâncias. Dito tudo isso, vamos começar!

Uma pergunta mais fácil

Vamos tentar responder uma outra pergunta. Quantos grandes times de futebol tem em Campinas? Quase todo mundo vai estar de acordo que só precisamos falar de dois, Guarani e Ponte Preta!

Mas por que nesse caso é mais fácil de responder? A primeira razão é o fato de haver uma importância bem definida, a quantidade de torcedores. A segunda razão é que Guarani e Ponte Preta têm tamanhos muito parecidos, e são muito maiores que os outros times da cidade. Isso permite ignorar os pequenos e contar só esses dois.

Essa pergunta seria muito mais difícil se eu fizesse o pergunta para São Paulo. Afinal, a Portuguesa é grande ou não ((Sim, ela conta. Viva Lusa!))? Ou ela conta como meio time?

Agora vamos usar os superpoderes da matemática para reescrever o problema! Vamos fazer uma lista $P$ com nossos times. Por exemplo, para o problema “Quantos são os times gaúchos campeões mundiais?” a lista seria:

\[P=\{\text{Gremio},\text{Internacional}\}.\]

Além disso, para cada time $p\in P$ vamos dar um índice de importância entre 0 e 1, chamado $|p|$. Nesse exemplo, a proporção dos campeonatos ganhos por cada time. Como cada um só ganhou uma vez, isso nos dá:

\[ |\text{Gremio}|=\frac{1}{2}\]

\[ |\text{Internacional}|=\frac{1}{2}\]

O importante é que a soma total das importâncias seja 1. Tudo isso é só para botar todos os problemas na mesma linguagem. Vamos chamar também de $||P||$ a quantidade de times na lista.

O que nós queremos é um número $N_P$ que represente o número efetivo de times segundo a importância que nós damos para eles. E nós já sabemos pelo menos algumas coisas sobre ele.

No caso do pergunta gaúcha, a resposta é fácil, dois. Isso nos diz uma muito importante sobre o número efetivo $N_P$. Se todos os times da lista tem a mesma importância, então o número efetivo é igual ao número total, isso é $N_P=||P||$. Vamos chamar problemas deste tipo de homogêneos.

O caso campinense nos diz ainda mais alguma coisa. Se temos vários times na lista com importância 0, então eles simplesmente não contam para o número efetivo. Isso já nos dá dicas de como continuar!

Uma pergunta um pouco mais difícil

Mas e no caso onde os times tem importâncias diferentes, o que dá pra fazer? Nós tentamos comparar com um problema homogêneo! O problema é como escolher essa comparação. E como o que não faltam são opções, vou apresentar aqui só uma, a que é mais comum nas rodinhas da física.

Vamos fazer um sorteio. Nesse sorteio a chance de escolher um time é igual a importância dele. E vamos repetir esse sorteio muitas vezes! Os possíveis resultados de n sorteios pode ser representado pela lista Pn, que consiste de todas as listas $(p_1,\ldots,p_n)$ com importância $|(p_1,\ldots ,p_n)|=|p_1|\ldots |p_n|$. Agora vai um segredinho que ninguém te conta. Quando $n$ é muito grande, $P_n$ vira um espaço homogêneo! Mas por quê?

Vamos com calma. A primeira coisa que dá pra ver é que quando $n$ é muito grande, $|(p_1,\ldots ,p_n)|$ é muito pequeno, pois cada um dos $|p_n|$ é menor que 1. Então vamos tentar calcular um número diferente, por exemplo:

\[|(p_1,\ldots ,p_n)|^{\frac{1}{n}}\]

Mas porquê isso? A primeira razão é que este número está sempre entre o menor e o maior dos $p_n$ (é a média geométrica!), o que quer dizer que o resultado para qualquer n não vai ser tão diferente. E além disso, é claro que:

\[[|(p_1,\ldots ,p_n)|^{\frac{1}{n}}]^n=|(p_1,\ldots ,p_n)|\]

Isso quer dizer que esse número é equivalente à importância de um time qualquer em espaço homogêneo, tal que a repetição de $n$ sorteios tem a mesma chance de acontecer deste que acabamos de fazer. Isso é importante. Releia muitas vezes esta frase se possível, até entender a ideia.

A parte chata é que não dá pra fazer um espaço homogêneo que obedeça isso para qualquer lista $(p_1,\ldots ,p_n)$. Tente fazer isso para um caso bem simples e você vai entender. O truque é que dá para fazer isso quando $n$ vai para o infinito! Mas como?

O primeiro ingrediente é a lei dos grandes números. Ela diz basicamente que se fazemos um experimento várias vezes, independentemente, e fazemos a média dos resultados, então esta média se aproxima o quanto quisermos da verdadeira média! Por exemplo, sabemos que a média dos lados de um dado é 3,5. Então a lei dos grandes números diz que jogando muitas vezes o dado, e fazendo a média dos resultados, com muitas repetições vamos chegar bem perto de 3,5.

Mas no nosso caso, estamos fazendo médias geométricas, não aritméticas. Para transformar uma média geométrica em uma aritmética, podemos tirar logaritmos, que transformam produtos em somas! Assim, vamos ter:

\[\log|(p_1,\ldots ,p_n)|^{\frac{1}{n}}=\frac{\log|p_1|+\ldots +\log|p_n|}{n}\]

Assim nosso novo sorteio é um de logaritmos de importâncias. E se repetimos muitas vezes, vamos conseguir a média:

\[ \frac{\log|p_1|+\ldots +\log|p_n|}{n}\to \sum_{p\in P}|p|\log|p|. \]

E encontramos o nosso tão desejado limite tirando a exponencial dos dois lados:

\[ |(p_1,\ldots ,p_n)|^{1/n}\to e^{\sum_{p\in P}|p|\log|p|}.\]

Relembrando, este limite dá a importância de um time em um problema homogêneo. Mas em um problema homogêneo a importância de qualquer time é $1/||P||$. Isso quer dizer finalmente que o nosso número efetivo é:

\[ N_P=e^{-\sum_{p\in P}|p|\log|p|}.\]

Isso resolve o problema! E nesta fórmula dá pra ver que times menos importantes contam menos para o número efetivo que times mais importantes!

Por exemplo, se calcularmos o número efetivo de times brasileiros campeões mundiais, vamos ter a seguinte tabela:

Time Importância
Palmeiras 1/10
Santos 2/10
Flamengo 1/10
Grêmio 1/10
São Paulo 3/10
Internacional 1/10
Curintia 1/10 ((Nota do autor do blog: esse post foi escrito por um torcedor da Portuguesa. Não sou responsável por esse valor.))

Fazendo as contas isso dá um número efetivo de campeões de 6,26. Isso não é nem um número inteiro! Mas o que este número está dizendo é que se dissermos que tem 6 ou 7 campeões mundiais, vamos estar bem próximos da verdade. Como tem alguns times que ganharam mais que outros, esquecer um time não é tão grave.

Mas e a resposta da pergunta? Podemos fazer a mesma coisa com uma lista razoavelmente completa de times do Brasil e suas respectivas torcidas. Como eu sou um cara preguiçoso, eu vou usar o velho truque dos livros de matemática e deixar isso como exercício. Se alguém fizer, mande nos comentários! Com a referência, é claro.

Física

— Mas isso não tem nada a ver com física! Nem tem plano inclinado ou coisa assim.

Calma, não estamos tão longe agora. Um físico é um cara estranho que em vez de contar times, ele conta estados. Isso pode variar desde questões como“Quantas são as posições possíveis de um cubo?” até “Quantos são os níveis de energia possíveis de um elétron em um átomo de hidrogênio?”.

E mais ainda, o físico não conta exatamente estados, pois estes são muitos. Ele conta graus de liberdade. Por exemplo, quando você joga Tibia você está em um quadrado e tem dois graus de liberdade: esquerda-direta e cima-baixo. Suponhamos que em uma certa caverna quadrada você tenha $L$ quadrados de lado. Então você tem ao total $L^2$ estados. Se fosse uma caverna 3D e você pudesse voar, seriam $L^3$ estados. O contador de graus de liberdade então não é o tamanho do lado da caverna, é o seu expoente!

No nosso caso já temos o expoente, e ele é:

\[ S_P=-\sum_{p\in P}|p|\log|p|.\]

Mas como podemos saber que isso é um bom contador de graus de liberdade? A característica mais importante deste graus é: se você tem um sistema com $N$ graus de liberdade e um outro independente com $M$, então o sistema composto pelos dois juntos tem $N+M$ graus de liberdade. Esta afirmação parece bem besta se pensamos em termos simples. Se eu tenho um boneco no Tibia que tem 2 graus de liberdade e um outro igual, então os dois juntos tem 4 graus de liberdade. Isso é o que os físicos chamam de uma quantidade extensiva.

Se você fizer as contas, vai ver que isso funciona! E ainda mais, este é o único jeito de contar graus de liberdade que obedece a isso ((O logaritmo é a única função diferenciável que transforma um produto em uma soma, por isso essa maneira é a única boa.))! Se você estiver curioso, procure pelos axiomas de Khinchin. E, ah, claro!, é essa contagem maluca de graus de liberdade que a galerinha chama de entropia.

No caso da física, a importância do time será trocada pela probabilidade de estar naquele estado, quanto mais provável for o estado, mais “importante” ele será. A entropia será máxima quando todos os estados do sistema forem igualmente prováveis, ou seja, o caso homogêneo. Se há preferência por este ou aquele estado, podemos calcular a entropia e comparar com o caso homogêneo.

E tudo isso é só o começo. E se eu quiser falar que os times Palmeiras A e Palmeiras B são muito parecidos? E se eu acho que time do interior é tudo igual? E se meu gás de elétrons na verdade é fortemente correlacionado? Bom, isso fica para outro dia.