Escena 1: se ve la puerta de una cámara acorazada de un banco, la puerta es de extrema seguridad y se abre por reconocimiento de la huella digital. Delante de la puerta, un joven hacker engaña al sistema de seguridad solo haciendo una llamada con su móvil. No, no es una escena de la próxima temporada de la famosa serie La casa de papel, tampoco es la escena real de un robo. La escena está grabada en un banco israelí el año 2006, y el protagonista se llama Yaniv Erlich, un hacker blanco, contratado por las propias empresas de seguridad para comprobar el nivel real de inviolabilidad, en este caso del banco. Este joven que, sin casi esfuerzo, sabía identificar los puntos débiles de sistemas de información, estaba estudiando Biología. De hecho, cuando acabó la carrera, se fue a los Estados Unidos para hacer un doctorado en Genética y es ahora un científico especializado en Genética computacional, es decir, un científico que desarrolla algoritmos para poder manejar e interpretar la ingente cantidad de información que se obtiene del análisis de los genomas.

Como dicen los anglosajones, si eres un hacker, siempre serás un hacker (once a hacker, always a hacker), así que en vez de los bancos de dinero, pensó en usar sus conocimientos para comprobar si eran lo suficientemente buenos los mecanismos de seguridad de los biobancos, en concreto, de los bancos de ADN y de información genética que obtienen, analizan y almacenan muestras de pacientes y de donantes voluntarios, a quienes a cambio de su ADN se les promete privacidad y anonimato. Normalmente, sólo se recoge la fecha y lugar donde se recogió la muestra y, a veces, el sexo biológico. El reto, en este caso, era diferente, porque los biobancos no encriptan ni protegen especialmente los datos genéticos en sí mismos y, de hecho, estos datos genéticos son usados en muchas publicaciones científicas en que se analizan gran cantidad de datos del ADN de muchos individuos. La supuesta seguridad radica en la gran cantidad de información que contiene nuestro genoma, y que si no está nuestro nombre pegado en el tubo o en la publicación, en teoría tendría que ser muy difícil relacionar este ADN con alguien de nosotros. Así que lo que este científico se planteó era si había manera de hacer programas informáticos que analizaran el ADN de forma que fueran seleccionando la información y buscando coincidencias con datos personales que son públicos y accesibles por internet. Una especie de apuesta, similar a si alguna vez habéis jugado al "Quién es quién". Seguramente, la idea acabó de madurar cuando leyó que un chico que había sido concebido por inseminación artificial, fue capaz de encontrar su padre biológico, enviando su muestra biológica a una empresa de diagnóstico genético de ancestralidad y depositando sus datos genéticos en internet en abierto.

Cualquier persona con un buen programa de análisis y cruce de datos e internet podía llegar a relacionar los datos genéticos, en teoría anónimos y privados, con una persona determinada con nombre y apellidos 

Así que se convirtió en un hacker del genoma y lo primero que hizo con la gente de su laboratorio fue una prueba empírica. Cogieron una muestra de un biobanco de los Estados Unidos, por lo tanto, sabían que la cantidad inicial de gente a analizar eran las personas de los EE.UU., unos 320 millones de personas. Pero también sabían que la muestra de ADN se había obtenido en el estado de Utah, por lo tanto, ya podían restringir la búsqueda a 3 millones de personas. Además, sabían que el análisis genético indicaba que se trataba de un hombre, ya sólo les quedaban 1,5 millones de personas por analizar. También sabían que tenía 49 años el año de la donación de la muestra, lo cual ya lo limitó a unas 20.000 personas. Sólo usando datos registrados en la donación de la muestra, ya habían restringido la busca a sólo 20.000 personas. Sin embargo, les quedaba la tarea ingente de buscar de quién de estas 20.000 personas era la muestra. Entonces, hicieron una asunción cultural y genética al mismo tiempo. En la población de los EE.UU., la gente hereda el apellido paterno. Además, los hombres heredan de padre (y exclusivamente de su padre biológico) el cromosoma Y (como ya expliqué en otro artículo). Si unimos los dos hechos, podemos razonar que todos los hombres de una misma familia, que están relacionados genéticamente por vía patrilineal, todos comparten el mismo apellido. Por lo tanto, para saber el apellido de su muestra de ADN (que era hombre) sólo hacía falta que se fijaran en las variantes genéticas del cromosoma Y que tenía aquella muestra, y buscaran en los bancos de datos publicados en abierto en internet de las empresas de genealogía con el fin de buscar una coincidencia. Aquí es donde se la jugaban, porque quizás no había ningún familiar que hubiera dado su ADN para realizar este tipo de estudios, pero la encontraron, y así infirieron el apellido de la persona a quien pertenecía la muestra. Entonces contrastaron la lista de 20.000 personas con el apellido e identificaron a una, el individuo en cuestión, que ahora sin anonimato, tiene nombres y apellidos, página de Facebook, dirección de e-mail y de casa, y todos nuestros datos que, sin saber, están colgados en Internet. Este hito implicaba que cualquier persona con un buen programa de análisis y cruce de datos e internet podía llegar a relacionar los datos genéticos, en teoría anónimos y privados, a una persona determinada con nombre y apellidos (os recomiendo ver su vídeo TEDxDanubia, si no queréis leer el artículo).

Llegados a este punto, es muy probable, porque salió en todos los medios de comunicación y porque también os lo expliqué en un artículo en abril de este año, que sabréis que este tipo de análisis se utilizó también para identificar a un peligroso violador y asesino, que había actuado en los años setenta y ochenta en California, generando un perfil falso con los datos genéticos obtenidos en los lugares de los crímenes y consultando una base de datos para genealogía con más de un millón de perfiles. De hecho, desde la resolución de este caso, en menos de cinco meses se han resuelto de esta manera 13 crímenes difíciles. Pues bien, Yaniv Erlich acaba de publicar un artículo esta semana en Science en el cual mejora su búsqueda, ampliando la información genética en todos los cromosomas para hacer búsquedas de parentesco genético lejano. Este tipo de algoritmos de búsqueda genética se basan en el hecho de que las personas emparentadas biológicamente comparten fragmentos cromosómicos grandes. Pensad que con nuestros padres compartimos el 50% de nuestro ADN, y con nuestros abuelos, por término medio, un 25%; por lo tanto, con nuestros primos hermanos o, incluso, primos terceros, podemos encontrar fragmentos cromosómicos muy largos que son idénticos. Además, esta búsqueda puede utilizarse indistintamente en hombres y mujeres. Los autores demuestran computacionalmente, y también empíricamente, que pueden identificar con fiabilidad hasta primos terceros en un 60% de las muestras que hay actualmente en los bancos de datos genéticos directos al consumidor para identificar ancestros comunes y reconstruir genealogías de los EE.UU. (¡recordad que son accesibles y libres en internet!). De hecho, los científicos calculan que con respecto a los individuos de origen caucásico, que son los habitantes de los EE.UU. que más interesados están en encontrar sus raíces etnogeográficas, que participan más en estos bancos de datos y que también tienen más poder adquisitivo para pagar el análisis genético, con sólo un 2% de la población que envíe su perfil genético, la probabilidad de identificar cualquier muestra genética con, como mínimo, un primo tercero, es del 99%. Es decir, que lo podrán encontrar. Curiosamente, los datos genéticos criminalísticos en los EE.UU. están claramente decantados hacia los afroamericanos, asiáticos, nativos americanos y otras minorías. ¿Quién sabe? Quizás así compensarán un poco este sesgo en los bancos de datos de la policía.

El artículo no acaba sólo con estos datos, sino que propone acciones positivas para convencer a todos que dar nuestros datos genéticos es en beneficio de toda la sociedad. Habla de retorno a la sociedad, de confianza y de medicina personalizada. Y por lo que me corresponde, yo lo apoyo. Otro día hablaremos de la necesidad de contribuir a los bancos de datos genéticos, pero en resumen, ya que los científicos no podemos proporcionar una absoluta privacidad ni anonimato, entonces hace falta retornar y dar información útil para prevenir y tratar enfermedades, y crear una sociedad donde la información genética sea usada a favor de las personas.