Y tú sin saberlo, ¿verdad?  

La apariencia del world wide web ha ido cambiando, pero cuando uno entra en la página del Congreso de lxs Diputadxs tiene la sensación de que, de fondo, se oye el sonido estridente de un módem de los de antaño. Esa letra microscópica, esos títulos e imágenes pixeladas, ese toque tan… Dreamweaver de finales de los 90. Quizás un deleite para los fans de lo retro, pero no así para quienes queremos usarla para buscar información.  
Pues no es tan solo un problema de apariencia, sino de varias de sus funcionalidades.

La más reseñable es que el buscador de la web del Congreso actúa como el de una biblioteca; solo busca en los títulos de las leyes, por lo que si el tema que buscas no está ahí, pues… no lo puedes encontrar. Algo incomprensible en 2018.
 O quizás no tanto porque más adelante veremos que sí tiene una explicación, o mejor dicho dos: el tremendo combo software privativo + papeles de Bárcenas.

Llevamos años defendiendo que la tarea de fiscalización de la acción gubernamental pende del acceso sin restricciones a las iniciativas legislativas para que la ciudadanía pueda monitorizar la actividad de nuestrxs políticxs y las leyes que propugnan. Y no solo esto: muchas veces las propias diputadas y diputados que sí quieren hacer bien su trabajo, no tienen ni idea de lo que está pasando en el Congreso y un buen buscador no les iría nada mal. Si no nos creen, pregunten y verán.

  Además, no hay modo de suscribirse para recibir avisos de lo que ocurre, de las fases de una ley y otras cosas que lxs activistas y la ciudadanía en general necesitamos saber y que deberían estar en la base de una democracia real y transparente.

  Por todo esto, a priori, estábamos deseando la convocatoria de una licitación para una nueva web del Congreso, y por esto nos hemos leído todo el pliego para ver si había intención de solucionar el problema.

  Esto es lo que hemos encontrado. Buscando una cosa, acabas encontrando otra; sigue leyendo que la sorpresa está al final.   

El 28 de noviembre de 2017 y el 7 de diciembre se difunde la licitación por 1,5 millones de euros en sendos anuncios en el Boletín Oficial del Estado y el Boletín Oficial de las Cortes Generales del Congreso [0].    

A cambio de esa nada desdeñable cifra se requieren al licitante servicios para el desarrollo de una página web y la infraestructura que la debe soportar [1].

Cuando lo público es privado

Antes que nada veremos en todo el pliego que en muchos casos el uso de software privativo es obligatorio. En muchos casos no se deje otra opción (como en el caso tan simple del formato de los documentos).   

Seguir apostando por el desembolso en concepto de licencias implica un gasto superfluo que podríamos ahorrarnos hoy que el software libre ofrece soluciones para prácticamente todas las necesidades web. Sin duda es el caso al menos en cuanto a los software de texto, pero parece que el Congreso sigue usando Word y pagando por sus licencias para todos los ordenadores de todo lo que ahí se genera (echen números).

  Esto denota, en el mejor de los casos, incompetencia, y en el peor la voluntad de favorecer los unos por encima de los otros en una práctica claramente anticompetitiva.  
Y no solo. Nos obliga pliego tras pliego a pagar una y otra vez por lo mismo, mientras impide que las personas podamos auditar y mejorar las prestaciones accediendo al código fuente. El compromiso por la transparencia que exigen las sociedades en red va hoy mucho más allá de dar acceso a las iniciativas legislativas. El uso de código abierto, con el que cualquier persona con conocimientos técnicos en la materia puede evaluar la eficiencia del sistema, debería ser imperativo. Luego en las aclaraciones publicadas se asegura que trabajar con software de código abierto no penaliza, aunque desde luego no es un requisito. Habrá que esperar a ver la propuesta ganadora. 
En todo caso, no apostar por el software libre en estos casos es caro, obsoleto y esperamos que pronto ilegal. De aquí nuestra línea de lucha de Dinero Público -> Código Público #PublicCode.

  Aunque, como hemos dicho, el código abierto no se impide de por sí en el pliego, su implantación colisiona completamente con el requerimiento expreso de que el grueso de las bases de datos a las que la web tiene que dar acceso continúen estando gestionadas por software privativo.   

En plata: todo este dinero no es para cambiar realmente las tripas de la web sino básicamente solo para un cambio de interfaz.  

Sobre la Dark Web

En lo relativo al asunto del buscador, tal y como hemos explicado, actualmente [2] para acceder a la parte «abierta al público» (el resto es literalmente dark web ;) ) se utiliza un software que es básicamente un software de búsquedas para bibliotecas, AbsysNET. Este software es propiedad de la empresa Baratz Servicios de Teledocumentación S.A. Luego volveremos sobre esta compañía y al porqué tratamos el Congreso como una biblioteca cuando no lo es: quedaos con el nombre.

Ya en el apartado de los pliegos en el que se repasa qué es lo que hoy encontramos en la web de la cámara legislativa se reconoce que “la falta de un buscador general sobre el conjunto del contenido albergado dificulta la localización de la información” y se pide que “el software propuesto como herramienta de gestión de portales y contenidos sea un único producto, y no varios diferentes”. Se habla pues del software que entre otras cosas ha de interactuar con el software privativo que da acceso a las bases de datos de las que hemos hablado y no parece prever que esa sean sustituidas por otras.   

Dejando a un lado las comodidades para que los usuarios finales —léase los funcionarios que gestionan el portal— puedan crear contenido sin ser doctos en HTML y otras cuestiones de orden interno, vamos a lo que interesa al gran público.

  El centro informático pide al licitante un buscador tipo crawler o araña: un bot que explore la web del Congreso y las bases de datos a las que este portal da acceso para indexar los resultados. Lo que vendría a ser un pequeño Google en miniatura. Se pide a la empresa ofertante que el crawler sea personalizable, de manera que se pueda establecer qué se excluye de la indexación o el nivel de profundidad de los enlaces.

En este momento este buscador ya existe, único en España y ha sido desarrollado en el proyecto TIPI https://tipiciudadano.es/, un proyecto de CIECODE, un grupo de la sociedad civil que con cuatro duros ya ha hecho el trabajo y ha dejado su código accesible. Desde 2014 las personas que queremos monitorizar el trabajo parlamentario podemos hacerlo gracias a esta herramienta. Para nosotros es CIECODE la que debería ganar este contrato. Pero seguramente CIECODE no dispone de la estructura requerida y ni se habrá podido presentar. ¡Qué desperdicio de dinero y de talento!

En todo caso ¿esto que quiere decir? Que probablemente se solucione el problema del buscador [3] – o en todo caso nosotros estaremos pendiente de que así sea – y que lo que no se pueda encontrar a partir de ahora será por voluntad del administrador (el Congreso de los Diputados) que pueda decidir dejar en la dark web una parte del contenido [conviene recordar que la tan temida dark web contiene, en su gran mayoría —mucho más que tráfico de armas o drogas—, contenido que las administraciones deciden que no se debe indexar (= encontrar con un buscador). Esta sería la definición más adecuada de dark web].    

Y porqué no Los Papeles de Bárcenas

Como hemos visto, aunque sí se apunta a mejoras sustanciales respecto a la interfaz de búsqueda, algunas bases de datos y elementos siguen gestionados por empresas externas. Una de ellas, por ejemplo, trabaja con un software propio de la gestión de datos de una biblioteca, lo que da acceso a un título o a otros parámetros, pero no al contenido. No queda claro que aquello que no esté comprendido en unos elementos preestablecidos y concretos esté a disposición del usuario.

Este es el caso de la empresa Baratz, la responsable del desarrollo de un software tipo BRS/Search que utiliza lenguaje propietario mediante el programa BRSCGI. Esta aplicación gestiona cuestiones tan relevantes como el acceso a la ficha de un diputado e información de sus intervenciones e iniciativas anteriores, las iniciativas de un grupo parlamentario y las mencionadas proposiciones de algún órgano gubernamental.   

En el pliego se pide que el nuevo portal controle las interacciones con este programa, lo que presupone que seguirá siendo la compañía en cuestión la encargada de organizar estas informaciones.

No es un dato menor que Baratz aparezca en los llamados “papeles de Bárcenas”. En el proceso judicial de la financiación en B del partido en el gobierno quedó constancia de que el ex-consejero de Mariano Rajoy, Pedro Arriola, percibió pagos a través de la mencionada tecnológica. La compañía que hoy gestiona parte de la información de la web del Congreso presuntamente facturó al Partido Popular, entre 1996 y 2001, casi 3 millones de euros, con parte de los pagos realizados en negro. Algo que la empresa quiso desmentir en 2013.

Así pues, parece que el buscador quizás se arregle, pero seguimos pagando mucho más de lo que deberíamos mientras seguimos sin poder acceder plenamente a lo que pagamos y a lo que mereceríamos si el Congreso fuera de verdad el centro de la Demo-cracia.  

Seguimos. 

Xnet
 (escrito por Simona Levi, Quique Badia, Sergio Salgado con la colaboración de Maadix)

– – – – – –

[0] El pasado 23 de noviembre se publicaba en el Diario Oficial de la Unión Europea, por un importe máximo de 1,5 millones de euros, el anuncio con el que llamar a presentar propuestas para mejorar la web del órgano de gobierno.  

[1] Los requerimientos incluyen el suministro, instalación y configuración del software propuesto, el diseño, desarrollo y puesta a punto de la página web, la migración de los contenidos actuales y la parametrización del buscador. Además de la provisión de formación a los usuarios gestores, la realización de una auditoría de seguridad, el mantenimiento y soporte de las licencias suministradas y el mantenimiento del portal durante los siguientes 12 meses.   

[2] A día de hoy, la web del Congreso recibe información de bases de datos corporativas y bases de datos documentales que utilizan un software privativo con el que almacenar, localizar y recuperar información no estructurada. Esta información de carácter estático está contenida en unas 5.000 páginas. 
Luego, la web da acceso a información dinámica de 8 bases de datos corporativas diferentes —unas 2.300 tablas—, a unos 300.000 ficheros en formato pdf, a datos abiertos en formato XML, a información audiovisual en formatos WMV, MP4 y MP3 e información dinámica contenida en 41 bases de datos documentales BRS/Search a través de otro software privativo.   

[3] En los pliegos se requiere que con el buscador deberían estar a disposición de los usuarios las páginas dinámicas generadas con las bases relacionales Oracle y documentales BRS/Search, las páginas estáticas mencionadas y los ficheros enlazados en la herramienta y los sistemas del Congreso.    

El buscador requerido por el Congreso debe permitir indexar páginas HTML, “metadatos de ficheros de vídeo, audio e imágenes, así como los formatos de fichero PDF, XML, ficheros de texto plano y formatos estándares como Microsoft Office (doc, xls, ppt)” —software propietario, otra vez que es el que se usa en el Congreso y así seguirá siendo ya que no se piden otros estandares. Además de rehacer desde cero el índice que el buscador construye, editar sus resultados, modificando o eliminando entradas y permitir “la indexación inmediata, bajo demanda, de una URL o patrón de URL especificados”. La herramienta ha de ofrecer, pues, “búsquedas avanzadas basándose en un conjunto de parámetros definidos por defecto y seleccionados por el administrador, así como la posibilidad de extender o seleccionar el conjunto de parámetros de búsqueda disponibles para el usuario”.  
Es interesante, también, que se valore en el pliego la incorporación de operadores booleanos AND, OR, NOT o NEAR y sus combinaciones, lo que permite afinar mucho mejor el resultado. 
En la nueva web del Congreso, se desprende del texto, habrá un microsite dedicado, en exclusiva, a un apartado open data que dará acceso a ficheros XML, CSV, XSL, entre otros, del catálogo disponible. Algo que ya se ofrecía en el web anterior y a lo que se añadiría lo que viene de Oracle y BRS/Search. Eso es, información de los diputados, los grupos parlamentarios y las iniciativas. Con el site de open data se habilitará una página que replicará el ya existente Portal de Transparencia, sin especificar si eso irá ligado a una simplificación del lenguaje hipertécnico de la documentación sólo apto para juristas y doctorandos en ciencia política, la posibilidad de entrar sin tener habilitado el DNI electrónico y el uso de formatos cerrados que solo permiten la lectura de los datos, y no trabajar con ellos mediante descarga.

Más información de interés:
https://diario.pr3ssh.net/7-prupuestas-para-la-nueva-web-del-congreso-de-los-diputados-77e782148b75