Cómo extraer TODAS las referencias bibliográficas de un paper

¿No sería una pasada poder importar automáticamente todas las referencias bibliográficas que aparecen citadas en un artículo científico en tu gestor bibliográfico?

Hasta el momento no existía ninguna forma de hacerlo, la única posibilidad era importar individualmente cada una de las referencias.

Esto acaba de cambiar.

En este artículo voy a sentar las bases para ahorrarte no minutos, sino meses de trabajo en tu revisión bibliográfica.

Si continuas leyendo, aprenderás a importar en tu gestor preferido todas las referencias bibliográficas presentes en un paper (o en cientos de ellos) en menos que canta un gallo.

referencias bibliográficas

 

¿Para qué importarlas?

Desde hace algunas semanas estoy rompiéndome la cabeza queriendo hacer esto, la verdad. Puede que incluso tú ya te lo hayas preguntado alguna vez. Los motivos por los que pudiste querer hacerlo son múltiples:

  • Has hecho toda tu vida el referenciado bibliográfico de forma manual y ahora quieres tener todas las referencias de los papers que has publicado en un archivo bibliográfico digital.
  • Quieres poder realizar citas secundarias rápidamente a partir del texto contenido en otros trabajos.
  • Deseas mejorar tus búsquedas bibliográficas creando un gran almacén de papers relacionados con tu actividad investigadora y sobre los que realizar pruebas.
  • Intentas filtrar mejor la información y ahorrarte un tiempo que no tienes introduciendo una a una cada referencia bibliográfica en tu software de trabajo.
  • Tratas de encontrar ese paper que suponga el último dato para tu investigación pero ya estás cansado de buscar en los mismos sitios sin ningún resultado.

Sean cuales sean tus objetivos, las ventajas son infinitas. No obstante, no quiero llamar al engaño. No he creado un programa mágico, tan solo he desarrollado un pequeño sistema para realizar este proceso rápidamente y sin demasiado esfuerzo. Producirá errores, ya te lo adelanto. Sin embargo, cuando quieres importar 5000 referencias de una vez sin la tecnología adecuada no se puede pedir más. Al menos, tendremos un sistema.

Al lío, ¿Cómo importo mis referencias bibliográficas?

Hasta el momento, ninguno de los grandes gestores bibliográficos ha conseguido desarrollar esta funcionalidad. Ni Mendeley, ni Endnote, ni Refworks, ni Zotero, ninguno. Todos facilitan la importación de las referencias bibliográficas propias de cada paper, pero nadie se ha atrevido a desarrollar una característica que permita extraer los metadatos de las citas incluidas en ellos.

La verdad, es que es un fenómeno bastante complejo. Hay muchos estilos de referenciado: APA, Vancouver, Chicago, MLA, Harvard… y también muchos idiomas a los que podemos adaptar cada uno de ellos: español, inglés, francés… Crear un algoritmo único que permita extraer toda esta información con un click no es nada fácil.

Sólo algunos pequeños desarrolladores se han esforzado por solucionar este problema. Por ejemplo, la aplicación Pdfexctract programada en Ruby o Ref2Ris un AppleScript para Mac nos permiten hacer lo que os vengo comentando. También tenemos aplicaciones web como Paracite o Freecite que aunque bastante limitadas permiten ayudarnos a solventar estos inconvenientes.

En cuanto a procesos también contamos con uno muy sencillo, nos dirigimos a nuestra base de datos preferida y buscamos el nombre del artículo del que queramos obtener las referencias bibliográficas. Si utilizas WOS (Web of Science), podrás comprobar qué artículos aparecen referenciados por este documento y exportarlos a tu gestor bibliográfico favorito (aparecerá algo así como X cited references en uno de los laterales). A pesar de esto, el sistema tiene un problema y es que solamente aparecen aquello resultados a los que la base de datos puede conectar, es decir, no puedes extraer TODAS las referencias, tan solo aquellas en las que el paper es accesible o está indexado desde el sistema. Aún así, sigue siendo muy buen proceso pero no te dará resultados con la totalidad de documentos.

He probado la mayoría de estos métodos. Por h y por b algunos dejaban de funcionar, otros ni siquiera eran compatibles con mi sistema y muchos de ellos únicamente eran útiles para aquellos privilegiados que conociesen el lenguaje de programación en cuestión. Con todo esto, la situación no era nada alentadora. Sin embargo, un día me encontré con un pequeño gran programa que cambiaría radicalmente mi forma de realizar búsquedas bibliográficas. Hoy quiero que tú también lo conozcas, estoy seguro que a ti también podrá darte muy buenos resultados. Vamos al lío. Esta es la situación, queremos importar lo señalado en esta imagen en nuestro gestor:

referencias_bibliográficas_1

Como buenos chefs que somos tenemos que contar con los mejores ingredientes. Para preparar este plato necesitaremos:

  • Microsoft Excel
  • Un editor de código (Ej. TextWrangler para Mac, Notepad++ para Windows o Notepadqq para Linux).
  • Programa de gestión bibliográfica que permita importar referencias en formato *.bib (Mendeley o Bibtex por ejemplo).
  • 5 minutos de tu tiempo.

Nota: Yo lo voy a hacer con programas de OSx que es mi sistema operativo, pero no te preocupes, en Windows el procedimiento es el mismo.

Una vez estás listo, has instalado todos los programas y ya tienes a mano todo el material, lo primero que debes hacer es crear una nueva hoja de datos en excel.

Hecho esto copiarás lo señalado en la imagen superior (Edición < Copiar). Es decir, copiarás todas las referencias bibliográficas formateadas del paper o documentos que desees (Word, pdf o el tipo de documento que sea), seleccionarás la casilla A1 de tu hoja de cálculo y las pegarás (Edición < Pegar).

Verás como se distribuyen por filas. Esto lo puedes hacer con la cantidad de documentos que quieras al mismo tiempo. En otras palabras, si tienes 100 papers de los que quieres recuperar sus referencias bibliográficas, no tienes más que repetir el proceso que has visto en este punto e ir pegándolas de la misma forma unas a continuación de otras en tu excel (en la fila siguiente a la que acaban las de unos empiezas con las de los otros y así sucesivamente). De esta manera acabarás muchísimo más rápido.

referencias_bibliográficas_2

Como puedes intuir en la imagen superior marcado de azul claro, es posible que haya errores de formateado. Algunas referencias no se distribuirán en filas distintas, algunos números se separarán, los DOIs se mezclarán… No los corrijas de momento, espérate a los siguientes pasos que es más sencillo.

A continuación, harás click sobre la casilla B1 e introducirás una función de excel. Concretamente harás uso del operador CONCATENAR (si tu excel está en castellano), con el que conseguirás crear una nueva referencia en esta casilla que incorpore unos símbolos al final (en este caso, #$). Pondrás exactamente esto eliminando las comillas iniciales y finales: “=CONCATENAR(A1;”#$”)”

Posteriormente, deberás hacer click nuevamente sobre este campo, copiar su contenido, volver a hacer click sobre él y manteniendo pulsado arrastrar el puntero hacia la última casilla de esta columna que coincida con la última referencia bibliográfica de la columna A. Hecho esto pegarás el portapapeles. Así, habrás extendido la función al resto de filas y todas tus referencias aparecerán con los símbolos mencionados anteriormente. Una imagen vale más que mil palabras:

referencias_bibliográficas_3

Ahora mismo tendrás un listado de nuevas referencias en la columna B que incorporan los símbolos “#$” al final. Abre un nuevo proyecto en uno de los editores de código que te he propuesto y copia y pega en él, el contenido de esta columna.

referencias_bibliográficas_4

Gracias a haber añadido estos dos símbolos extra, evitarás que el programa que te presentaré en breves instantes te de problemas. Para que funcione bien, entre referencia y referencia deberían existir dos saltos de linea. Si tienes 1000 o 2000 referencias que quieres exportar de golpe, puedes llegar a volverte loco pulsando “Enter” si no haces algo al respecto.

Por esta razón, lo que a continuación haremos con nuestro editor será remplazar estos dos símbolos (que son raros a propósito para que no haya conflictos con que alguna referencia lo incluya por si misma) por un doble espacio.

Para conseguirlo harás uso de la opción “Buscar y remplazar” o de la opción “Buscar” o “Remplazar” según sea el editor de código que hayas elegido. Una vez aparecen las cajas de búsqueda, introducirás el conjunto #$ en la de búsqueda y \n\n en la de remplazo ( cada”\n” equivale al código para un nuevo salto de linea).

Nota: Para que este truco funcione en muchos programas tienes hacer click en una opción que indique algo parecido a “Encontrar el exacto”. Asimismo, deberás seleccionar el modo de búsqueda extendido (\n \r \t \0) que aparecerá en un popup como el de la imagen inferior. Un ejemplo de esto ocurrirá si usas Notepad++ para Windows.

 

referencias_bibliográficas_5

Hecho esto tus referencias bibliográficas quedarían tal que así. Habría un espaciado de dos lineas entre cada una de ellas.

referencias_bibliográficas_6

Como ves, sigue persistiendo el error de formateado que comentamos al principio. Es el momento de corregirlo. Tienes que intentar que todas tus referencias bibliográficas estén correctas antes de transformar nuestros datos en el siguiente paso. Así, evitaremos causar más problemas de reconocimiento de los que ya existen. Fíjate en las tildes, en que no haya dos citas en una misma linea, que no haya números sueltos entre renglones, que no haya keywords perdidas… Realiza una comprobación rápida de todo esto.

referencias_bibliográficas_7

Una vez hayas terminado de revisar el documento, te dirigirás a nuestro magnífico programa diseñado por Marino Takaki, que te permitirá transformar un conjunto de referencias en formato texto plano en formato tipo *.bib y que posteriormente importarás en tu gestor.

El programa se llama Makebib. Nada más entrar visualizarás una caja de texto donde aparecerá un ejemplo. Tras borrarlo tendrás que insertar en ella las referencias bibliográficas del editor de código (si te fijas en las instrucciones del programa aparece señalado lo del doble espaciado). Las copias y pegas en la caja de texto y haces click sobre “Make BibTex Source!”.

referencias_bibliográficas_8

Te aparecerá bajo la caja un código como el de la imagen inferior. Contrasta los datos que aparecen en él y comprueba que ha llegado hasta la última referencia posible de tu lista. Si ves que sólo ha transformado unas pocas es probable que en el punto donde se ha detenido exista un error que no hayas corregido todavía. Revísalo y comienza de nuevo desde ahí.

Personalmente me gusta ir transformando el código con pocas referencias de cada vez, de esta manera ves más claramente los errores y evitas que el sistema (que como puedes ver es ciertamente rudimentario) se sature.

referencias_bibliográficas_9

Una vez has guardado tu proyecto inicial en el editor de código para evitar perder las referencias separadas por dos saltos de linea, crearás otro donde, tras copiar este código desde el primer “#comment” hasta el fin de página, pegarás el nuevo formateado de los datos. Si lo has hecho por fragmentos como te he sugerido pega los resultados en este proyecto unos a continuación de otros.

referencias_bibliográficas_10

Guardarás este proyecto en tu carpeta de preferencia con el nombre que desees pero con la extensión “.bib” (sin las comillas). Asegúrate de que no lo estés guardando como texto. Si lo haces, no te preocupes, luego podrás modificar la extensión mediante el editor de nombres de Windows o de tu sistema operativo.

Una vez tienes tu código a salvo en un archivo con la extensión .bib, abre tu gestor bibliográfico para hacer magia de la informática.

En mi caso, como he hecho las pruebas con Mendeley, he creado una nueva carpeta para meter mis referencias bibliográficas, la he seleccionado y, como se puede ver en la imagen inferior, he hecho click en la opción “Importar datos” presente en la pestaña “Archivo”.

Te aparecerá una pantalla como la que sigue en la que deberás elegir la extensión de archivos a importar y seleccionar tu documento *.bib.

referencias_bibliográficas_11

Esperamos unos instantes (dependiendo de la cantidad de referencias tardará más o menos), abracadabra pata de cabra y sorprendentemente ya tenemos TODAS nuestras referencias bibliográficas en el interior de nuestro gestor.

Con fallos sí, pero para muchos esto será mejor que nada y más teniendo en cuenta que podemos importar miles de referencias de cada vez. Aún así, puede seguir siendo de una gran utilidad y de hecho, para la mayoría de cosas que se pueden hacer no supondrá ningún impedimento.

Obviamente si las quieres citar deberás ir corrigiéndolas. Un ejemplo de fallos se puede ver marcados en azul en la imagen (mal formateado de título, año equivocado, páginas incorrectas). No obstante, debo destacar que la proporción de ellos es bastante menor que la de aciertos:

referencias_bibliográficas_12

Inconvenientes de este sistema

Y después de todo este embrollo es cuando te cuento lo malo. El programa que has utilizado tiene ya unos cuantos años, además tiene la pinta de ser casero del todo. Teniendo en cuenta esto y con lo que hemos visto, intuimos que nos va a dar numerosos fallos.

Asimismo, tengo entendido que solamente funciona con el estilo tipo APA que es con el que intento practicar últimamente. No obstante, si alguien se anima a comentar sus resultados con otro estilo le estaría muy agradecido.

De otra forma, solo funciona decentemente bien con las referencias que estén en inglés. Si intentas utilizar referencias APA en castellano lo más probable es que produzca más inconvenientes.

Para superar estas barreras, si alguien sabe programar en perl le animo a que nos ayude a extender sus funcionalidades para que pueda capturar correctamente las referencias bibliográficas en castellano y de otros estilos bibliográficos. El código esta disponible en Github y bajo una licencia GPL, es decir, es software libre que puedes modificar a tu antojo.

¿Hablamos?

Habrá personas a las que este post les parezca una tontería y a otras muchas a las que les parecerá útil. Sea como sea, te puedo asegurar que aplicar este proceso será muy relevante para los próximos artículos que tengo pensados para ti y con los que pretendo que alcances definitivamente un flujo productivo en tus revisiones bibliográficas. Mientras tanto, me gustaría saber tu opinión: ¿Conoces otro sistema para hacer esto mismo? ¿Qué fallos le ves al proceso? ¿Cómo crees que podríamos mejorarlo? ¿Podrías programar una aplicación que nos ayude a todos a conseguir esta funcionalidad?

Leave a Reply 11 comments