Arquivo da tag: Probabilidades

Posts sobre teoria de probabilidades.

Propagating randomness

Hardcore

Ricardo: O post de hoje é em inglês, e de um convidado muito especial. Alexander Dobrinevski, autor do blog inordinatum.wordpress.com, é meu grande amigo bielo-russo que, após sua graduação na Universidade Ludwig-Maximilians de Munique, seguiu para dois anos de mestrado em estudos avançados em matemática na Universidade de Cambridge e deu-me o privilégio de sua companhia no Laboratório de Física Teórica da École Normale Supérieure, onde dividimos sala durante alguns meses de trabalho enquanto ele fazia seu doutorado e eu, o mestrado. Viciado em cafés, filmes não tão mainstream e transformadas de Laplace. O post de hoje é bem hardcore, vale aos especialistas da área, e a mim, que aprendi e aprendo bastante a cada vez que nos falamos.

Ricardo: This post will be in english, for we have a very special guest today. Alexander Dobrinevski, author of the blog inordinatum.wordpress.com, is a good friend of mine from Belarus. Having finished his graduation at LMU, he followed the Advanced Studies in Mathematics program from Cambridge University to end up his doctoral thesis at the École Normale, where I had the pleasure to share with him the office for a few months. He is addicted to coffee, exotic movies and Laplace transforms. Today’s post is also very hardcore, to the benefit of our dear specialist in the field, and to mine, I who have learned so much and still do every time I get to talk to this dearest friend of mine.


Introduction

I guess anybody doing statistical physics or probability theory has played around with Brownian Motion (by which I mean, here and in the following, the Wiener process, and not the physical phenomenon) at some time or another. It is used e.g. for modelling the price of a stock, the position of a particle diffusing in a gas or liquid, or the pinning force on an elastic interface in a disordered medium.

Being Markovian, time evolution of Brownian motion is completely determined by its propagator, i.e. the probability (density) to arrive at $x_1$ at time $ t_1$ starting from $ x_0$ at time $ t_0$. This is, of course, known to be a Gaussian. However, for practical applications, one often needs to restrict the Wiener process (in general, with drift) to a half-line or an interval, with some imposed boundary conditions (absorbing or reflecting). In the example of a stock price, these would describe call or put options on the stock. In this post I will derive, hopefully in a pedagogical way, the propagator of Brownian motion with drift and linear boundaries.

Propagators without drift

Let us first consider standard Brownian motion $ W(t)$ without drift. Without loss of generality, let us assume it starts at $W(0)=0$. It satisfies the Langevin equation

\[\dot{W}(t) = \xi(t)\]

where $ \xi(t)$ is Gaussian white noise with correlation

\[\overline{\xi(t)\xi(t’)} = 2\sigma \delta(t-t’).\]

With these conventions, the free propagator (i.e. the propagator without any boundaries) $ P(x,t)$ is given by the solution of the Fokker-Planck equation

\[ \partial_t P(x,t) = \sigma \partial_x^2 P(x,t)\]

with initial condition $ P(x,0) = \delta(x)$. This PDE, also known as the heat equation, is easily solved by taking a Fourier transform. The solution is given by

\[ P(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{x^2}{4\sigma t}}.\]

Now, let us determine the propagator with an absorbing boundary at $ x=b > 0$. In the Fokker-Planck equation, this is equivalent to the boundary condition $ P(b,t)=0$, which makes applying Fourier transforms difficult. However, we can use the method of images to find the solution: $ P(b,t)=0$ is enforced automatically if we add a negative source at $ x=2b$ (the position of the original source, reflected at $ b$), i.e. take the initial condition $ P(x,0) = \delta(x)-\delta(x-2b)$. The final propagator with an absorbing boundary at $ x=b$ is thus

\[P^{(b)}(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}\left[e^{-\frac{x^2}{4\sigma t}}-e^{-\frac{(x-2b)^2}{4\sigma t}}\right].\]

Similarly one can treat the case of two absorbing boundaries, one at $ x=b>0$, one at $ x=a<0$. One then needs an infinite series of images, and obtains the propagator as a series which can be rewritten in terms of Jacobi Theta functions.

Propagators with drift

Now let us generalize to the Brownian motion with drift $ \mu$. Then the Langevin equation for $ W(t)$ becomes

\[ \dot{W}(t) =\ mu + \xi(t).\]

The free propagator is obtained from the Fokker-Planck equation just as above:

\[P(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{(x-\mu t)^2}{4\sigma t}}.\]

Let us now introduce again a constant absorbing boundary at $ x=b$. Applying the method of images is not so straightforward anymore. Due to the drift, a path which goes from $ x=0$ to the boundary $ x=b$ will not have the same weight as the reflected path which goes from $ x=2b$ to the boundary $ x=b$. However, for the case of constant drift considered here, the weights of Brownian paths with and without drift have a simple relationship. In my view, the easiest way to see it is using path integrals. The propagator is given by

\[ P(x_f,t) = \int_{x(0)=0}^{x(t)=x_f} \mathcal{D}[x]e^{-\int_0^t \mathrm{d}s, \frac{1}{4\sigma}\left(\dot{x}(s)-\mu\right)^2}\]

Now, expanding the “action” in the exponent, using the fact that our drift $ \mu$ is constant, and using our boundary conditions, this is equal to

\[ P(x_f,t) = e^{-\frac{\mu}{2\sigma}x_f+ \frac{\mu^2}{4\sigma}t}\int_{x(0)=0}^{x(t)=x} \mathcal{D}[x]e^{-\int_0^t \mathrm{d}s, \frac{1}{2\sigma}\left(\dot{x}(s)\right)^2}.\]

We thus get a simple weight depending on the final position, but the remaining path integral is taken over a drift-less Brownian motion, and there we know the solution already, both with and without the boundary! In mathematical literature, you will often find this manipulation under the name of the Cameron-Martin-Girsanov theorem, but I find the path integral explanation much clearer for somebody coming from physics. Note that in the case where the drift $ \mu$ is a function of time, we cannot pull the weight out of the path integral, because it involves the whole trajectory and not just the final point. This shows why non-constant drift with absorbing boundaries is a much more complicated problem (although the free propagator is still trivial to write down!).

The final formula for the propagator of the Brownian motion with drift $ \mu$ and an absorbing boundary at $ x=b$ (also known as Bachelier-Levy formula) is thus

\[P^{(b,mu)}(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{mu}{2\sigma}x+ \frac{mu^2}{4\sigma}t}\left[e^{-\frac{x^2}{4\sigma t}}-e^{-\frac{(x-2b)^2}{4\sigma t}}\right]\]

This is now all that is required to compute things like first-passage times, survival probabilities, etc. The generalization to two absorbing boundaries follows from the solution in the driftless case by multiplying with the same weight as here.

I hope you see that with the right tools, obtaining these propagators is nothing miraculous. If you have any questions or comments, I’d be glad to hear them! If people are interested, at some point I may write a continuation of this blog post, possibly on generalizations of the methods discussed here to Ornstein-Uhlenbeck processes, Bessel Processes, or more complicated boundaries.

Have fun, and thanks for reading!

Ricardo: This post will be in english, for we have a very special guest today. Alexander Dobrinevski, author of the blog inordinatum.wordpress.com, is a good friend of mine from Belarus. Having finished his graduation at LMU, he followed the Advanced Studies in Mathematics program from Cambridge University to end up his doctoral thesis at the École Normale, where I had the pleasure to share with him the office for a few months. He is addicted to coffee, exotic movies and Laplace transforms. Today’s post is also very hardcore, to the benefit of our dear specialist in the field, and to mine, I who have learned so much and still do every time I get to talk to this dearest friend of mine.


Introduction

I guess anybody doing statistical physics or probability theory has played around with Brownian Motion (by which I mean, here and in the following, the Wiener process, and not the physical phenomenon) at some time or another. It is used e.g. for modelling the price of a stock, the position of a particle diffusing in a gas or liquid, or the pinning force on an elastic interface in a disordered medium.

Being Markovian, time evolution of Brownian motion is completely determined by its propagator, i.e. the probability (density) to arrive at $x_1$ at time $ t_1$ starting from $ x_0$ at time $ t_0$. This is, of course, known to be a Gaussian. However, for practical applications, one often needs to restrict the Wiener process (in general, with drift) to a half-line or an interval, with some imposed boundary conditions (absorbing or reflecting). In the example of a stock price, these would describe call or put options on the stock. In this post I will derive, hopefully in a pedagogical way, the propagator of Brownian motion with drift and linear boundaries.

Propagators without drift

Let us first consider standard Brownian motion $ W(t)$ without drift. Without loss of generality, let us assume it starts at $W(0)=0$. It satisfies the Langevin equation

\[\dot{W}(t) = \xi(t)\]

where $ \xi(t)$ is Gaussian white noise with correlation

\[\overline{\xi(t)\xi(t’)} = 2\sigma \delta(t-t’).\]

With these conventions, the free propagator (i.e. the propagator without any boundaries) $ P(x,t)$ is given by the solution of the Fokker-Planck equation

\[ \partial_t P(x,t) = \sigma \partial_x^2 P(x,t)\]

with initial condition $ P(x,0) = \delta(x)$. This PDE, also known as the heat equation, is easily solved by taking a Fourier transform. The solution is given by

\[ P(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{x^2}{4\sigma t}}.\]

Now, let us determine the propagator with an absorbing boundary at $ x=b > 0$. In the Fokker-Planck equation, this is equivalent to the boundary condition $ P(b,t)=0$, which makes applying Fourier transforms difficult. However, we can use the method of images to find the solution: $ P(b,t)=0$ is enforced automatically if we add a negative source at $ x=2b$ (the position of the original source, reflected at $ b$), i.e. take the initial condition $ P(x,0) = \delta(x)-\delta(x-2b)$. The final propagator with an absorbing boundary at $ x=b$ is thus

\[P^{(b)}(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}\left[e^{-\frac{x^2}{4\sigma t}}-e^{-\frac{(x-2b)^2}{4\sigma t}}\right].\]

Similarly one can treat the case of two absorbing boundaries, one at $ x=b>0$, one at $ x=a<0$. One then needs an infinite series of images, and obtains the propagator as a series which can be rewritten in terms of Jacobi Theta functions.

Propagators with drift

Now let us generalize to the Brownian motion with drift $ \mu$. Then the Langevin equation for $ W(t)$ becomes

\[ \dot{W}(t) =\ mu + \xi(t).\]

The free propagator is obtained from the Fokker-Planck equation just as above:

\[P(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{(x-\mu t)^2}{4\sigma t}}.\]

Let us now introduce again a constant absorbing boundary at $ x=b$. Applying the method of images is not so straightforward anymore. Due to the drift, a path which goes from $ x=0$ to the boundary $ x=b$ will not have the same weight as the reflected path which goes from $ x=2b$ to the boundary $ x=b$. However, for the case of constant drift considered here, the weights of Brownian paths with and without drift have a simple relationship. In my view, the easiest way to see it is using path integrals. The propagator is given by

\[ P(x_f,t) = \int_{x(0)=0}^{x(t)=x_f} \mathcal{D}[x]e^{-\int_0^t \mathrm{d}s, \frac{1}{4\sigma}\left(\dot{x}(s)-\mu\right)^2}\]

Now, expanding the “action” in the exponent, using the fact that our drift $ \mu$ is constant, and using our boundary conditions, this is equal to

\[ P(x_f,t) = e^{-\frac{\mu}{2\sigma}x_f+ \frac{\mu^2}{4\sigma}t}\int_{x(0)=0}^{x(t)=x} \mathcal{D}[x]e^{-\int_0^t \mathrm{d}s, \frac{1}{2\sigma}\left(\dot{x}(s)\right)^2}.\]

We thus get a simple weight depending on the final position, but the remaining path integral is taken over a drift-less Brownian motion, and there we know the solution already, both with and without the boundary! In mathematical literature, you will often find this manipulation under the name of the Cameron-Martin-Girsanov theorem, but I find the path integral explanation much clearer for somebody coming from physics. Note that in the case where the drift $ \mu$ is a function of time, we cannot pull the weight out of the path integral, because it involves the whole trajectory and not just the final point. This shows why non-constant drift with absorbing boundaries is a much more complicated problem (although the free propagator is still trivial to write down!).

The final formula for the propagator of the Brownian motion with drift $ \mu$ and an absorbing boundary at $ x=b$ (also known as Bachelier-Levy formula) is thus

\[P^{(b,mu)}(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{mu}{2\sigma}x+ \frac{mu^2}{4\sigma}t}\left[e^{-\frac{x^2}{4\sigma t}}-e^{-\frac{(x-2b)^2}{4\sigma t}}\right]\]

This is now all that is required to compute things like first-passage times, survival probabilities, etc. The generalization to two absorbing boundaries follows from the solution in the driftless case by multiplying with the same weight as here.

I hope you see that with the right tools, obtaining these propagators is nothing miraculous. If you have any questions or comments, I’d be glad to hear them! If people are interested, at some point I may write a continuation of this blog post, possibly on generalizations of the methods discussed here to Ornstein-Uhlenbeck processes, Bessel Processes, or more complicated boundaries.

Have fun, and thanks for reading!

Introduction

Quiconque ayant déjà pratiqué la physique statistique ou les probabilités a forcément eu affaire au mouvement Brownien (j’entends par là le processus de Wiener, et pas le phénomène physique). On l’utilise, par exemple, pour modéliser l’évolution des prix, la position des particules dans un liquide ou un gaz, ou la force d’ancrage sur l’interface élastique d’un milieu désordonné.

L’évolution temporelle du mouvement brownien est markovienne, et donc entièrement déterminée par son propagateur, c’est-à-dire la (densité de) probabilité d’atteindre $x_1$ à la date $ t_1$ en partant de $ x_0$ à la date $ t_0$. Il est bien connu que ce propagateur est gaussien. Cependant, pour des applications pratiques, il est souvent nécessaire de restreindre le processus de Wiener à une demi-droite ou un intervalle, avec des conditions aux bords imposées (absorption ou réflexion). Dans l’exemple du prix d’un stock, ces dernières décriront les options d’achat et de vente. Dans cet article, je vais obtenir le propagateur du mouvement brownien avec dérive et conditions aux bords linéaires, avec une approche que j’espère pédagogique.

Propagateurs sans dérive

Considérons d’abord le mouvement brownien standard $ W(t)$ sans dérive. Sans perte de généralité, supposons $W(0)=0$. $W$ vérifie l’équation de Langevin :

\[\dot{W}(t) = \xi(t)\]

où $ \xi(t)$ est un bruit blanc gaussien avec des corrélations

\[\overline{\xi(t)\xi(t’)} = 2\sigma \delta(t-t’).\]

Avec ces conventions, le propagateur libre (c’est-à-dire sans conditions aux bords) $ P(x,t)$ est donné par la solution de l’équation de Fokker-Planck

\[ \partial_t P(x,t) = \sigma \partial_x^2 P(x,t)\]

avec la condition initiale $ P(x,0) = \delta(x)$. Cette équation aux dérivées partielles, également connue sous le nom d’équation de la chaleur, se résout facilement en prenant une transformée de Fourier. On trouve

\[ P(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{x^2}{4\sigma t}}.\]

Maintenant, intéressons-nous au propagateur avec une frontière absorbante en $ x=b > 0$. Dans l’équation de Fokker-Planck, ceci se traduit par $ P(b,t)=0$, ce qui rend plus difficile la transformation de Fourier. Cependant, on peut utiliser la méthode des images pour trouver la position : $P(b,t)=0$ est automatique en ajoutant une source négative en $ x=2b$ (symétrique de la source initiale par rapport à la frontière en $ b$). Cela revient à prendre la condition initiale $ P(x,0) = \delta(x)-\delta(x-2b)$. Finalement, le propagateur avec frontière absorbante en  $x=b$ est

\[P^{(b)}(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}\left[e^{-\frac{x^2}{4\sigma t}}-e^{-\frac{(x-2b)^2}{4\sigma t}}\right].\]

On traite le cas de deux frontières absorbantes en $ x=b>0$ et $ x=a<0$ de la même façon, mais il faut maintenant une infinité d’images, et le propagateur s’écrit sous forme d’une série qui peut être exprimée en termes des fonctions $\vartheta$ de Jacobi.

Propagateurs avec dérive

Généralisons maintenant au mouvement brownien avec une dérive $ \mu$. L’équation de Langevin pour $ W(t)$ devient

\[ \dot{W}(t) =\ mu + \xi(t).\]

Comme ci-dessus, le propagateur libre se déduit de l’équation de Fokker-Planck :

\[P(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{(x-\mu t)^2}{4\sigma t}}.\]

Introduisons maintenant une frontière absorbante en $ x=b$. La méthode des images n’est plus évidente à appliquer ! A cause de la dérive, le poids d’une trajectoire partant de $ x=0$ vers la frontière en $ x=b$ ne sera pas le même que celui de son image, de $ x=2b$ à $ x=b$. Cependant, dans le cas d’une dérive constante, une relation simple lie les poids avec et sans dérive. Il me semble que la façon la plus simple de s’en rendre compte est l’utilisation des intégrales de chemin. Le propagateur est donné par

\[ P(x_f,t) = \int_{x(0)=0}^{x(t)=x_f} \mathcal{D}[x]e^{-\int_0^t \mathrm{d}s, \frac{1}{4\sigma}\left(\dot{x}(s)-\mu\right)^2}\]

En développant maintenant “l’action” dans l’exponentielle, et en utilisant le fait que $ \mu$est constant, ainsi que les conditions aux bords, on trouve

\[ P(x_f,t) = e^{-\frac{\mu}{2\sigma}x_f+ \frac{\mu^2}{4\sigma}t}\int_{x(0)=0}^{x(t)=x} \mathcal{D}[x]e^{-\int_0^t \mathrm{d}s, \frac{1}{2\sigma}\left(\dot{x}(s)\right)^2}.\]

On obtient alors un poids qui ne dépend que de la position finale (hors de l’intégrale), et l’intégrale restante ne présente plus de dérive, ce qui signifie que nous connaissons déjà la solution, avec ou sans frontières ! Dans la littérature mathématique, vous trouverez fréquemment cette manipulation sous le nom de “Théorème de Cameron-Martin-Girsanov“, mais je trouve que l’approche via l’intégrale de chemin est beaucoup plus claire pour un physicien. Notons que si la dérive $ \mu$ dépend du temps, on ne peut pas sortir le poids de l’intégrale de chemin, car il dépend de toute la trajectoire, et pas seulement du point final. C’est pourquoi il s’agit d’un problème bien plus difficile, bien que le propagateur libre soit toujours trivial à écrire !

La formule finale pour le propagateur du mouvement brownien avec dérive $ \mu$ et une frontière absorbante en $ x=b$ (connu sous le nom de “formule de Bachelier-Levy”) est donc

\[P^{(b,mu)}(x,t) = \frac{1}{\sqrt{4\pi\sigma t}}e^{-\frac{mu}{2\sigma}x+ \frac{mu^2}{4\sigma}t}\left[e^{-\frac{x^2}{4\sigma t}}-e^{-\frac{(x-2b)^2}{4\sigma t}}\right]. \]

C’est tout ce dont nous avons besoin pour calculer des choses comme des temps de premier passage, des probabilités de survie, etc. La généralisation à deux frontières absorbantes peut être déduite de la solution sans dérive, en multipliant par le même poids.

J’espère vous avoir fait sentir qu’avec les bons outils, obtenir ces propagateurs n’a rien de miraculeux. Si vous avez des questions ou des commentaires, je serai ravi de les entendre ! Pour approfondir, diverses voies sont envisageables, comme des généralisations des méthodes exposées ici aux processus de Ornstein-Uhlenbeck, de Bessel, ou encore des conditions aux bords plus compliquées.

Merci de m’avoir lu !

O melhor remédio

Rookie

No post anterior sobre motores moleculares, comentei um aparente paradoxo estatístico com aplicações fascinantes na biofísica. Esse tipo de fenômeno, contra-intuitivo e profundamente aplicado, não é tão raro quanto se imagina. Se o paradoxo de Parrondo é meu favorito, dedico o post de hoje a meu segundo paradoxo aparente favorito, que começa em uma manhã repleta de problemas.

Você acorda sentindo dores nas costas, que aumentam em ondas, até se tornarem as piores que você já experimentou se não deu a luz a uma criança ou teve uma parada cardíaca. Você é levado às pressas ao hospital, onde o médico prontamente diagnostica um caso clássico de pedra do rim, e você se arrepende de todo aquele sal grosso que adora na picanha. Felizmente há cura, e o médico logo iniciará o tratamento, mas, antes, precisa de seu consentimento para saber qual procedimento tomará. Ele apresenta as opções, enquanto você agoniza de dor.

Há dois tratamentos possíveis, o A e o B. Um estudo foi realizado para testar a eficácia dos tratamentos e determinar qual é o melhor e você, como bom amante das exatas, pede para ver os dados dos estudos. Ele é dividido em casos de pedras grandes e pedras pequenas, sendo o número total de casos o mesmo testado no tratamento A e B, para que não haja tendências.

No caso das pedras grandes, o tratamento A é mais eficaz que o B. Ele curou 190 dos 260 testados (73%) enquanto o B curou apenas 50 dos 80 casos testados (62,5%). Sendo 73%>62,5%, o médico recomenda, caso você tenha uma pedra grande, aceitar o tratamento A.

No caso das pedras pequenas, o tratamento A também é mais eficaz que o B. Ele curou 80 dos 90 casos testados (88,8%) enquanto o B curou apenas 230 dos 270 testados (81,2%). Como 88,8%>81,2%, o médico recomenda, caso você tenha uma pedra pequena, aceitar o tratamento A. Ainda, ele pergunta qual tratamento você escolhe.

A questão parece estúpida, pois o tratamento A é mais eficaz que o B em todos os casos. No entanto, você, em um lampejo de lucidez em meio à dor, nota algo. Em ambos os tratamentos, 350 casos foram testados. O A curou (190+80=) 270 casos de seus 350, enquanto o B curou… (50+230=) 280. Sem sombra de dúvida, o médico deveria recomendar o mais eficaz dos tratamentos, que seria, sem hesitação, o tratamento B.

Consternado, você pode pensar que o tratamento B é melhor caso você não saiba seu tipo de pedra, e o A caso saiba; mas rapidamente percebe que esse raciocínio é profundamente desonesto. Você pode apenas ter uma pedra grande ou pequena e, na sua lógica, se souber que tem a grande, tomará o A; se souber que tem a pequena, também tomará o A. Seu conhecimento da pedra em nada influenciará sua decisão, e você ainda sabe que o B curou mais que o A nos dois casos juntos, o problema persiste.

Eis o famoso paradoxo de Simpson, uma armadilha clássica na teoria de probabilidades que atinge até os mais preparados. Temos uma tendência instintiva a achar que medidas que beneficiam todos os grupos envolvidos serão benéficas ao coletivo, isso não é necessariamente verdade. Esse paradoxo aparece de diversas formas nas análises estatísticas, como, por exemplo, a comparação entre Chicago e Illinois nas matérias de matemática, com uma análise mais profunda nos grupos étnicos e sociais. Chicago foi melhor que Illinois em todos os grupos étnicos analisados (brancos, negros, hispânicos), mas ao final Chicago ficou muito aquém de Illinois nos resultados. Isso aconteceu apenas porque a distribuição racial das regiões diferia bastante, criando esse aparente paradoxo.

A razão desse paradoxo, esse aparente contrassenso, é a diferença no tamanho das amostras. No caso da pedra no rim, podemos ver que pacientes com pedras pequenas tendem a sistematicamente receber o tratamento B, enquanto pacientes de pedras grandes tendem a receber o tratamento A. Mas, mais importante que a diferença no tamanho das amostras, temos que o fator “pedra grande” ou “pedra pequena” influencia muito mais a taxa de cura que o tratamento usado. O paradoxo de Simpson ocorrendo é um excelente indício de que há uma variável escondida, algum fator determinante ao dividir o estudo em grupos e que, somados os grupos, desaparece.

Não podemos dizer que o estudo apresentado a você no hospital possui “estatística que não presta”, mas devemos tomar cuidado na análise. O paradoxo de Simpson é uma das melhores maneiras de enganar alguém com estatísticas, então não se deixe levar por estatísticos malandros; o todo é mais que a soma das partes, frações às vezes enganam e, escolhendo o tratamento A ou B, sempre beba bastante água.

Mas, já que apresentei a situação, deixo a pergunta: e você? Qual tratamento escolheria?

No cassino de Parrondo

Geek Rookie

A estatística possui alguns resultados não muito intuitivos, e muito divertidos. Um deles, proposto pelo físico espanhol Juan Parrondo, é um de meus favoritos. Para contar esse aparente paradoxo, convido-os a jogarem um jogo no cassino de Parrondo.

Esse cassino possui duas mesas, uma com um jogo A, outra com um jogo B, que possuem regras diferentes. Em ambos os jogos você só pode apostar uma ficha por vez, digamos, valendo R$100,00. Se você ganhar, leva mais uma ficha consigo. Se perder, perde sua ficha.

No jogo A você deve tirar uma carta de um baralho muito bem embaralhado. Se a carta for preta, você ganha. Se for vermelha, você perde. Neste maço de baralho, contudo, há um curinga; e você perde se tirar o curinga.

No jogo B, as regras mudam um pouco. Se seu número atual de fichas não for um múltiplo de três, suas chances são ótimas: você tira uma carta e perde apenas se ela for de copas ou o curinga. No entanto, se seu número de fichas for múltiplo de três, você deve tirar um às ou o curinga para ganhar, perdendo em todos os outros casos.

Não é surpresa nenhuma se eu te contar que o jogo A é falência na certa. A chance de você perder é maior que a de ganhar, e o ganho é igual à perda; jogar diversas vezes seguidas o jogo A fará você sair do cassino de mãos vazias. E apesar de o jogo B parecer um grande negócio, ele não é, podemos provar com diversas simulações numéricas, o que é o equivalente a jogar várias vezes, que a tendência é perder mais e mais dinheiro jogando o jogo B várias vezes. Assim, nas mesas do cassino de Parrondo a casa sempre vence.

Mas suponha que você pode caminhar de uma mesa à outra. Ora, certamente você só iria ao jogo B quando tem certeza de que suas fichas não são um múltiplo de três; o cassino jamais permitira algo parecido. Então você pode mudar de uma mesa para outra, mas com uma regra: você não pode contar suas fichas. Para deixar ainda mais justo, você não sabe, a cada aposta, se ganha ou perde, fica apenas sabendo o resultado final de suas aventuras ao sair do cassino. Assim, você até pode alternar os jogos, mas, sem contar as fichas e sem saber quando ganha ou perde, não consegue tirar muita vantagem disso. De certa forma, é como se você fosse obrigado a, na entrada, dizer quantas vezes irá apostar em cada jogo e em qual ordem. Assim, nunca sabendo em qual você ganha e qual perde, não poderá mudar de estratégia no meio da noite.

E eis a parte surpreendente. O jogo A é perda certa para você, o B também se jogado continuamente; mas alternar os jogos te leva a ganhar muito dinheiro. Esse fenômeno é o paradoxo aparente de Parrondo, duas táticas fracassadas que, combinadas, resultam em um ganho certeiro. Aos que não acreditam em mim, escrevi um pequeno código de computador para simular esses jogos todos. Claro, um exemplo não prova nada, coloco o resultado apenas para que sua confiança em mim aumente. O jogo A+B consiste em escolher, antes de cada jogada, aleatoriamente um dos jogos, ambos com a mesma probabilidade, como se tirasse no cara-ou-coroa a mesa escolhida para apostar. Eis os resultados, começando com uma fortuna de 47 fichas e permitindo ficar no negativo:

E esse aparente paradoxo nada mais é que um fenômeno estatístico fascinante usado abundantemente em diversos sistemas biológicos, o que inclui suas células. Temos, no caso de Parrondo, um jogo que apenas “bagunça” seu dinheiro (o jogo A, cuja chance é quase 1/2 para cada lado) e outro que te permite ganhar bastante, até atingir um valor (o múltiplo de três) bem difícil de atravessar, tão difícil que é mais fácil o jogo te fazer perder dinheiro a atravessar aquele valor e, perdendo, ele encontrará outro múltiplo de três, e será mais uma vez difícil de subir. No entanto, esse combo “bagunça+tendência” torna-se uma tática interessante, pois a bagunça pode te permitir “saltar” os múltiplos de três e, fora deles, você escala mais fácil a escada da fortuna.

 A partir desse ponto, esse post torna-se geek. Continue por sua conta em risco.

Parrondo não estudava teoria dos jogos, estudava os chamados “motores moleculares”, a base do funcionamento de diversos processos biológicos no nível celular. Suponha uma partícula submetida a um potencial da forma “dente de serra”:

Dente de serra

E suponha essa partícula com uma temperatura suficientemente baixa (ou seja, suficientemente lenta) para que fique confinada no poço. Na figura, o roxo representa a densidade de probabilidade da posição dela, note que é bem difícil ela sair daquele lugar.

Mas suponha agora que eu aumente bastante a temperatura, bastante mesmo. Ora, a partícula se comportará como se ignorando o potencial, e as chances de ir para a esquerda e para a direita tornam-se as mesmas. Mas algo é diferente, se pensarmos em qual poço é mais provável que ela caia. Veja como é a evolução desse sistema, nessa figura:

parrondo_4

Note que, no momento de alta temperatura, é mais provável que ela tombe no poço da direita (área verde) que no poço da esquerda (área vermelha). Ao resfriarmos o sistema, que é representado pelo terceiro quadro, percebemos que a partícula tende a andar pela serra para a direita. Por causa da assimetria do potencial, o sistema adquire uma direção preferencial.

A relação disso com o cassino é simples, o jogo B é a situação de temperatura baixa e o jogo A é a alta temperatura, andar para a direita significa ganhar dinheiro e perder dinheiro é andar para a esquerda. Mas o cassino de Parrondo é malandro, nele os picos de potencial não são iguais e o jogo B tende a te empurrar para a esquerda, e o jogo A também (o que seria equivalente a uma gaussiana levemente assimétrica). No entanto, pela diferença na inclinação do potencial, passar ao jogo A e voltar ao B torna o sistema mais propenso a te mandar para a direita, a direção de maior fortuna!

Esse jogo de aumento e diminuição de temperatura é a base dos motores moleculares, ele é a razão pela qual a proteína é sintetizada pelo ribossomo em um sentido e não decide, aleatoriamente, seguir o sentido oposto e ir se desfazendo. E a célula funciona, vive, produz e sintetiza proteína dessa maneira: aumento de temperatura, diminuição, aumento (o que deve explicar aquele monte de ATP sendo desfeito para fazer esse sistema andar), em um intrincado maquinário de potenciais assimétricos que nos permite andar, pensar, respirar e jogar cartas em um cassino.

O método científico

Geek

Aprendemos ainda no ensino primário sobre o método científico, e eu até lembro dessa aula. A professora trazia um ovo para a classe e pedia hipóteses sobre o destino do ovo ao ser jogado ao chão. Enumerávamos da mais óbvia à mais absurda, e por fim a professora abandonava o ovo e ele tocava o solo, estava completamente cozido e não fazia sujeira, para entendermos que o método científico é: observação de um problema, formulação de hipóteses, experimento controlado e conclusões.

Tornei-me cientista, pesquiso física, e ganho muitas caras de interrogação quando anuncio a alguém minha profissão. Cientista parece mais profissão de filme, um homem louco em jaleco cercado de vidros coloridos e de poucos amigos. Quando admitem que sou cientista, a próxima pergunta sempre é: “mas o que você faz, exatamente?”. E, para essa pergunta, e para dar uma versão mais real do método científico, listei alguns acontecimentos de um dia meu de trabalho e relato hoje com vocês. Nomeei-o “O método científico”, mas talvez título mais próprio seria “A Day in Life”. Esse post terá alguns detalhes científicos do que faço, é normal alguém de fora da área não os compreender, vou tentar explicar conforme escrevo.

9h30 Chego ao trabalho. Cheguei cedo, não costumo estar aqui antes das 10h, então aproveito para tirar de minha cadeira as coisas que o russo com que divido sala deixou ontem, escrever algo no blog, responder emails, preparar uma caneca de Earl Grey.

10h30 Passei uma hora fazendo o que deveria tomar quinze minutos, é a vida. Abro o Mathematica (programa que costuma fazer contas para mim, mas na realidade é minha cota de autoflagelação semanal). E eis meu problema de hoje: inverter uma transformada de Laplace (o que consiste a uma operação matemática bem difícil). Tento lembrar de minhas aulas sobre essa transformada, a razão de estar usando ela, tudo parece vago e um pouco difícil, vou só mandar o Mathematica fazer: InverseLaplaceTransform[f[s],s,t].

10h45 Mathematica está há quinze minutos na mesma conta, sem me devolver nada, é hora de aceitar a derrota e tentar achar um jeito mais inteligente de fazer isso.

12h Depois de alguma procrastinação com os colegas de laboratório que foram chegando, e depois de ter me forçado a manipular um pouco a forma exata da inversa transformada de Laplace, abandono qualquer esperança de resolver o problema exatamente. A forma exata é bem feia, chama-se integral de Bromwich, e não parece ser um bom caminho. Existem outros métodos, a fórmula de inversão de Post, mas tudo parece fadado ao fracasso, pois a função que quero inverter é, em um caso simples:

\[(100^{-6 – i – j} \Gamma[6 + i + j] \Gamma[-6 – i – j + s] \text{Hypergeometric1F1}[6 + i + j, 7 + i + j – s, 1/100])/ \Gamma[s] + 100^{-s} \Gamma[6 + i + j – s] \text{Hypergeometric1F1}[s, -5 – i – j + s, 1/100].\]

Vou abandonar e tentar fazer isso numericamente.

14h30 Voltei do almoço e parti para o Google buscando métodos numéricos de inversão de Laplace. Descobri como instalar coisas no Mathematica, isso é bem útil. Achei um método bom, chamado Piessens, e ele parece funcionar para funções cuja inversa da transformada eu já conheço (como $\frac{1}{s^2}$).

15h Eis o resultado do Piessens:

O que seria um resultado animador, se o que eu estivesse procurando não fosse uma probabilidade, e ainda não inventaram probabilidade negativa. Há algo errado ou com minha função, ou com o Piessens. Desço e compro um chocolate, preparo outro Earl Grey.

16h Minha função parece boa, o problema é no Piessens, e isso está me deixando nervoso. Durante minha palestra de exposição desse problema, um colega russo (não aquele com que divido sala) perguntou se não valia a pena abrir a série em Taylor e inverter termo a termo, eu respondi que não podia garantir a convergência, mas agora essa ideia parece animadora, tendo em vista a probabilidade negativa.

16h45 Maldito russo, aposto que ele nunca tentou abrir em Taylor e mandar a transformada. Sabe quem é a inversa de Laplace de $x^n$? A n-ésima derivada da delta de Dirac. Agora imagine eu com uma bela coleção de derivadas do delta com coeficientes diferentes para somar, de quê isso me serve? Era para ser uma probabilidade! Veio uma ideia: integrar essa probabilidade para ter a cumulada. Sabe o que acontece? A probabilidade de obter um valor menor que $r$ não depende de $r$ ! E a razão fica evidente uma vez que o método fracassa, só pode ser culpa da inversão da soma com uma operação integral, que pode ser resolvida com o teorema:

Teorema (da convergência dominada de Lebesgue): Ninguém troca integral com limite impunemente.

Vou tentar baixar outro método.

17h15 Achei um, chamado GWR, funciona para funções simples.

18h Eis o resultado com GWR:

E, depois desse gráfico, surge aquele pensamento de “o que estou fazendo com minha vida…?” aliado a uma vontade desenfreada de arremessar o Mathematica pela janela.

18h30 Depressão, seguida de raiva, dá lugar à aceitação. Fim de jogo, vou para casa, amanhã penso em outra coisa. Tento a barganha, ao menos, em um único dia, descobri três maneiras diferentes de não resolver meu problema.

Cabras, Ferraris e probabilidades

Rookie

Ricardo: Hoje contaremos com um post de um convidado especial, e mais entendido que eu no assunto. Pedro Natal é um gaúcho iteano que atravessou comigo a Polytechnique e seguiu para ser mestre em matemática aplicada pela Universidade de Paris. Tem por vícios chá inglês, café forte e propor problemas matemáticos à turma quando nos reunimos em algum KFC. Sem mais, entrego-lhes uma leve discussão sobre cabras e probabilidades.


Embora o título logo acima possa levar a crer que discorreremos sobre uma peça de teatro do absurdo, o assunto principal deste texto é matemática. Mais especificamente: cabras, Ferraris e programas de auditório; não precisamos de mais que um conhecimento básico desses três itens para seguirmos. E, convenhamos, o que há de melhor para aguçar nossos sentidos probabilísticos do que histórias envolvendo Sílvio Santos, ruminantes e carros de corrida?

Suponha que você esteja num programa de auditório estilo Sílvio Santos, e que você deva escolher uma dentre três portas. Uma delas esconde uma Ferrari; as outras duas, simples cabras. Você escolhe, digamos, a de número 1. Nesse momento, antes de revelar o resultado da sua escolha, Sívio Santos $-$ que sabe onde está a Ferrari $-$ abre uma das outras duas portas e revela uma cabra. Ele então pergunta: “Você muda a sua escolha ou continua com a número 1?”.  Em outras palavras, existe alguma vantagem em trocar de porta?

Se essa é a primeira vez que você se depara com esse problema, eu sugiro honestamente que você aproveite para pensar nele antes de ler o próximo parágrafo. A resposta correta é mais interessante do que parece e está longe de ser trivial.

É possível que você tenha chegado à seguinte conclusão: como só restam duas portas, cada uma delas tem 1/2 de chance de conter a Ferrari, e logo não há vantagem em trocar de porta. Infelizmente, esse raciocínio não está correto. Sim, existe uma vantagem em trocar de porta. A probabilidade que a porta inicial contenha a Ferrari é 1/3, ou seja, a probabilidade de ganhar trocando de porta é de 2/3. Por quê? A maneira mais fácil de entendê-lo é com o seguinte desenho (que eu não tive vergonha de roubar da Wikipédia):

A figura da esquerda mostra que a probabilidade de você ter acertado na sua primeira escolha é de 1/3, ou seja, a probabilidade que a Ferrari esteja em uma das outras duas portas é de 2/3. Quando Sílvio revela a cabra, ele não altera as probabilidades calculadas anteriormente! Assim, como vemos na figura da direita, a probabilidade de encontrar a Ferrari trocando de porta é de 2/3.

Esse famosíssimo problema, conhecido como Problema de Monty Hall, gerou muita confusão e discussão nos EUA há pouco mais de 20 anos. Ele foi publicado por uma colunista chamada Marylin vos Savant na revista Parade em 1990, e desencadeou uma enxurrada de respostas furiosas da parte dos leitores que não aceitavam que a resposta fosse diferente de 1/2 (reza a lenda que, das 10 mil reclamações recebidas, mais de mil foram redigidas por pessoas com um PhD).

Mas o que há de errado afinal com o raciocínio que leva à conclusão de que não há vantagem em trocar de porta? Um pequeno detalhe: Sílvio Santos sabe o que há atrás das portas. O raciocínio seria correto se a porta a ser revelada fosse escolhida ao acaso, mas ela não é! Sílvio Santos nunca vai revelar a Ferrari para o jogador, e é essa assimetria que gera a assimetria probabilística do problema,

Como observado pelo (meu grande amigo) dono do blog Todas as configurações possíveis, existe ainda uma outra maneira intuitiva de se compreender a vantagem em mudar de escolha: se houvesse 1000 portas, você escolhesse uma, e Sílvio abrisse 998, revelando cabras em todas elas, você trocaria? Qual é, honestamente, a chance de você ter acertado de primeira?

Ao leitor que não ficou convencido com esses argumentos intuitivos: uma prova mais formal (mas menos astuciosa) envolvendo a famigerada fórmula de probabilidade condicional existe. Não por acaso, é exatamente o conceito de probabilidade condicional que está por trás da confusão que o Problema de Monty Hall gera na nossa intuição.

As histórias divertidas envolvendo probabilidade não acabam por aí. Num futuro artigo, que deve ser matematicamente (um pouquinho) mais complicado, falaremos sobre as peculiaridades da mistura de álcool, probabilidades condicionais, e cadeias de Markov!