Archivos para Marzo, 2008

Preguntas y comentarios

Abrimos esta sección para preguntas y comentarios sobre el curso y los materiales de estudio.

Sobre MCMC y el trabajo de Pritchard et al.

a. Algunos comentarios sobre el ejercicio 1 (9 de abril):

1. Si trabajaron el ejercicio planteado para el 9 de abril (si no lo hicieron les recomiendo que lo hagan en la versión corregida), espero que concuerden con los siguientes puntos:

  • Nos planteamos un estado de la cadena en una generación determinada, y tomamos como dadas las frecuencias alélicas en las dos subpoblaciones de la cadena (recordemos que K es constante para cada corrida del proceso, en este caso K=2); nuestro problema, entonces, se reduce a asignar individuos (en base a sus genotipos) a subpoblaciones en la siguiente generación.
  • A su vez, dividimos el problema en dos partes. Primero, calcular la probabilidad de observar un genotipo en cada una de las subpoblaciones (dadas, insitamos en ello, las frecuencias alélicas, vengan de donde vengan). Si consideramos todos los genotipos posibles (pregunta a lo plantea para el locus A solamente), naturalmente la suma de dichas probabilidades, calculada separadamente para cada subpoblación, debe ser 1. Ahora bien, si consideramos solamente un genotipo particular (A1A1 en la pregunta b), y realizamos el cálculo para cada subpoblación, la suma no da 1.

Concretamente, en b) estimamos que dichas probabilidades son 0.04 para la subpoblación 1 y 0.49 para la 2, usando el modelo de Hardy-Weinberg.

  • Para calcular la probabilidad de asignar un genotipo (A1A1 en la pregunta b) a cada una de las subpoblaciones, tomamos como regla (pudimos haber tomado otra) que las probabilidades de asignar un genotipo a una u otra subpoblación en la próxima generación sean proporcionales a las probabilidades de observarlos en dichas subpoblaciones (dadas, una vez más, las frecuencias alélicas). En nuestro caso, ello equivale a colocar 4 bolillas marcadas como “subpoblación 1″ y 49 marcadas como “suboblación 2″ en un bolillero y sortear el destino del genotipo A1A1. De manera equivalente, podemos usar cualquier otro método que asigne el genotipo a 1 o 2 con probabilidades 4/53 y 49/53, respectivamente (obviamente la suma de estos valores es igual a 1). Un método posible, como se explicó en clase, podemos tomar un número al azar de la distribución uniforme de 0 a 1, y marcar un punto de corte que divida dicho segmento en dos partes proporcionales a las probabilidades de interés.
  • En cuanto a la pregunta d), para usar dos loci en forma simultánea hay que tratarlos como independientes; bajo esas condiciones, la probabilidad de observar un genotipo multilocus es el producto de las probabilidades parciales, calculadas usando Hardy-Weinberg, calculadas separadamente para cada locus. Existen, por supuesto, variantes a esta idea, pero el ejercicio está a tiro bajo esta premisa. Recuerden que en la primera versión del texto había un error (ahora corregido, creo… eso de sumar dos o tres números en pantalla no es lo mío).

B. Sobre la asignación de frecuencias alélicas

El ejercicio 1, discutido más arriba, toma como dadas las frecuencias alélicas y se ocupa de asignar los genotipos a las subpoblaciones. En el trabajo de Pritchard et al., esto corresponde al Paso 2, Algoritmo 1, del modelo sin mezcla (p. 947, MCMC algorithm (without admixture), Algorithm 1, Step 2). En la terminología del trabajo, “muestrear Z(m) de Pr[ZlX, P(m)]“. Z(m) es la asignación de individuos en la generación (de la cadena de MCMC) m. Por supuesto, los genotipos nos son dados (son nuestros datos), y tomamos P(m), las frecuencias alélicas en la generación m, como dadas.

Nos resta avanzar un poco en el paso 1 (Step 1 en la misma sección), que consiste precisamente en obtener P(m). Aquí la regla propuesta para obtener P(m) es “muestrear P(m) de Pr[PlX, Z(m-1)]“. Los genotipos (X) están asignados a subpoblaciones en Z(m-1), proveyéndome de una estimación de las frecuencias alélicas de la cual muestreamos P(m). Un ejemplo:

Supongamos que un locus tiene dos alelos, con las siguientes frecuencias en m-1, observadas en vista de la asignación de individuos Z(m-1) en la subpoblación 1:

pm-1=0.8, q m-1=0.2

Voy a asignar tantos alelos como sea necesario (en función del número de individuos asignados a la subpoblación en cuestión) alelos a esta subpoblación. Para cada uno, mi regla es que las probabilidades de asignación son las que acabamos de indicar. Como el número de alelos es finito, P(m) depende de estos valores, pero puede diferir de ellos.

Notas sobre el trabajo de Kimura y Ohta 1971

Consideramos un locus cualquiera, del que conocemos la distribución de frecuencias Pi= (p1, p2, p3…).  El número efectivo de alelos n(e) (e es un subíndice)  se define como un número de alelos con frecuencias iguales entre sí tales que la heterocigosidad y homocigosidad esperadas sean iguales a las observadas para el locus de interés.  Para n(e) alelos, dichas frecuencias deben ser 1/n(e).  La homocigosidad esperada debe ser, por tanto, la suma de n(e) términos, todos ellos iguales a 1/n(e) al cuadrado.

Por lo tanto:

E(F) = 1/n(e),

de lo cual se deduce que

n(e) = 4Nu+1 (ecuación 3 de Kimura y Ohta).

El inverso de la homocigosidad esperada es igual a n(e).

Dejar un comentario

Lecturas para la clase del 2 de abril (que no se suspende)

1. Del libro de Gillespie, el capítulo introductorio y el que trata sobre Eq. Hardy Weinberg. Recomendamos estas lecturas como un repaso y puesta a punto para el curso.

2. Para la discusión: Artículo de Pritchard et al 2000

Dejar un comentario