Bibliothèque de liens sur la transition écologique

Aperçu des possibilités:

La recherche de liens est possible sur l'ensemble de leurs [libellé +adresse web (URL)] et/ou sur les mots-clés qui leur ont éventuellement été affectés.
Il est possible de limiter la recherche des liens d'après leur date, en spécifiant une date de début de recherche et/ou une date de fin de recherche (d'où possibilité de recherche dans une période donnée).

Forme des requêtes:

Chaque requête est exprimée par un ou plusieurs mots (ou portions de mots) séparés par un espace. Le resultat est indépendant de l'ordre de ces mots et de la casse de leurs caracteres (minuscule, majuscule).
New 03/05/2021: Il est possible d'exiger la présence simultanée de plusieurs mots en insérant entre eux les 3 lettres AND (impérativement en majuscules, sinon des mots rencontrés comme grand et quand, qui contiennent aussi ces trois lettres, fausseraient le résultat). Exemple: une recherche sur Macron AND Hulot donne quatre résultats (alors que Macron Hulot en donne 630, Macron seul 441 et Hulot seul 204; à contrario Macron and Hulot - and en minuscules - en donnerait faussement 4369).
Il est possible de rechercher une expression exacte (portion de phrase) en l'entourant de guillements doubles ("). Exemple: la recherche de "Accord de Paris".
Attention: remplacez les caractères avec accent, cédille ou tréma par leur version simple (sans), faute de quoi vous n'obtiendrez pas le résultat escompté (le mot fautif sera ignoré). Exemple: rechercher ocean sans l'accent, et non pas océan avec l'accent.

Usage de mots-clé: (disponibilité effective lorsque des mots-clé auront été affectés aux liens)

Les mots-clés permis figurent dans une table de contrôle; ils commencent tous par le caractère dollar $; les liens auxquels un ou des mots-clé ont été explicitement affectés peuvent être recherchés par ceux-çi (attention: les liens n'ont pas systématiquement bénéficié d'affectation de mot-clé).
Le caractère $ en tête d'un mot-clé dans une requête garantit la recherche de ce mot-clé exclusivement parmi les mots-clé explicitement affectés aux liens.
En revanche, si vous omettez le caractère $ d'un mot-clé dans une requête, la recherche aura lieu sur la séquence de caractères restante parmi : le libellé du lien, son adresse web et le (ou les) mots-clé dont il a éventuellement été doté.

Filtrage par dates:

La date d'un lien prise en compte pour la limitation de recherche est la date qui lui est associée dans la base de données concernée par la recherche ("Référentiel" ou "Actualités").
Les liens du "Référentiel" comportent leur date d'introduction dans celui-ci et souvent l'année dans la zone bibliographique située entre crochets (celle d'introduction, ou celle du document lorsque celui-çi la mentionne); la date retenue pour ces liens est celle figurant éventuellement entre crochets si elle est antérieure à celle d'introduction, sinon c'est celle d'intoduction elle-même.
Par contre, pour Les liens "Actualités" capturés automatiquement "au fil de l'eau" sur des messageries Telegram (dites "boucles" ou "channels"), la date est celle d'édition du message qui les a diffusé sur cette messagerie. En cas de lien diffusé plusieurs fois sur les boucles, c'est le plus récent qui figure dans la base de données.

Affichage des résultats:

L'ordre des liens dans le résultat est le suivant: par nb. de "hits" décroissants (en cas de recherche avec plusieurs mots indépendants ou mots-clé), puis dans l'ordre d'âges croissants. Exception: la recherche de "http" (proposée par défaut) donne comme résultat tous les liens, dans l'ordre du plus récent au plus ancien (l'actualité fraîche est donc en tête).
Pour chaque lien trouvé, le résultat affiche: entre parenthèses le lien direct à sa rubrique dans le référentiel (en cas de recherche dans le "Référentiel"), le site hébergeant la page web ou le document, le mois et l'année où le lien a été diffusé en messagerie, et selon le mode d'affichage choisi: un résumé (si le site web fournit une "description" dans son code HTML) et l'image associée (lorsque le site l'a prévu), enfin le lien hypertexte lui-même (libellé ou titre, plus adresse web sous-jacente) au site web ou document sur internet.
Certains caractères spéciaux non directement affichables dans les résultats par le moteur et y sont remplacés par un caractère de substitution (parfois un icône en forme de losange).

Niveau de détail d'affichage des résultats:

Quatre niveaux sont disponibles en standard: titres seuls (1), ou titres plus résumé (2), ou titre plus résumé plus image (3), ou titre plus résumé plus image plus adresse web (URL) (4). il est à noter que le résumé et l'image sont fournis dans la mesure où le site cible les expose explicitement au moyen de balises HTML spécifiques. Il n'y en a jamais lorsque la cible du lien est directement un document (pdf ou autre). Il ne peut y en avoir que pour des pages web; c'est généralement le cas pour les pages web des sites des institutions et des grands médias.
Deux niveaux d'affichage supplémentaires sont disponibles pour l'inspection (développement et maintenance) 0: affichage minimal, 5: affichage maximal. Ils sont accessibles lorsque la case à cocher "inspection" est cochée. Ces affichages particuliers sont présentés sur fond distinctif rouge clair, avec une mention d'avertissement en rouge devant chaque résultat.

Remarques sur les mots-clé:

Le moteur de recherche sous-jacent a été conçu pour la recherche de liens dans la base de données "Référentiel", ainsi que pour la recherche de liens dans toute base de données "Actualités" de format approprié tenue à jour "au fil de l'eau" à partir d'historiques de messageries Telegram de type "boucles" ou "channels".
La possibilité de recherche par mots-clé concerne particulièrement la recherche dans des bases de données "Actualités" dépourvues de système de classement des liens. Elle peut aussi être utilisée pour la recherche de liens dans le "Référentiel", mais le système de classement détaillé de celui-çi (sur jusqu'à quatre niveaux de rubriques) rend cette possibilité moins attractive, aussi l'ajout de mots-clé à ses liens restera probablement rare et réservé à des cas particuliers.
Si la possibilité de recherche par mots-clé est effectivement disponible au niveau du logiciel du moteur de recherche, et a été testée OK, en revanche aucune filière opérationnelle n'a encore été mise en place (avril 2021) pour permettre la saisie des mots-clés à ajouter aux liens de la base de donées du moteur de recherche (plus d'informations à la rubrique "perspectives" ci-dessous.

Restriction sur les recherches nominatives:

Le moteur de recherche permet des recherches sur la messagerie d'origine ou sur les initiales de l'émetteur d'un lien. Afin de garantir l'anonymat des émetteurs contre toute recherche intrusive, les données correpondantes ne figurent pas dans la base de données en ligne du moteur sur le site de la "Bibli" (accessible à tout public).
Ces fonctions sont réservées à l'administrateur du site, qui les utilise en exécutant le logiciel sur un ordinateur hors ligne pour la maintenance et/ou le développement, notamment pour fournir individuellement (par e-mail ou par message privé Telegram) aux émetteurs qui en font la demande un fichier Excel des liens qu'ils ont émis, afin de leur permettre d'adjoindre des mots-clé à ces liens et de renvoyer le fichier renseigné à l'administrateur pour répercuter ces mots-clés dans la base de données du moteur.

Perspectives d'évolutions:

Il est envisagé (mars 2021) - mais non planifié - d'étendre les possibilités de recherche à des expressions logiques basées sur des combinaisons de critères (expressions avec opérateurs logiques "et", "ou", "non", éventuellement avec possibilité de sous-expressions mises entre parenthèses).
Il est également envisagé (mars 2021) - mais non planifié - de fournir un "aperçu rapide" (à la mode Telegram) d'extrait du texte de la page web accédée.
Des réflexions sont en cours (avril 2021) pour la mise en place effective des mots-clés. Deux voies sont pressenties, l'une classique, mais lourde à entretenir, reposerait sur une saisie des mots-clé par des opérateurs humains bénévoles. L'autre, plus ambitieuse, mais sans doute plus longue à mettre en place, reposerait sur l'utilisation de techniques d'I.A. pour ajouter automatiquement des mots-clés dont le thésaurus et la structure auraient été élaborés par apprentissage automatique guidé (s'appuyant sans doute sur l'analyse semi-automatique du contenu et de la structure du Référentiel de la "Bibli" pour propager une structure analogue (ou s'en inspirant) sur l'ensemble des liens issus des historiques de messageries Telegram). Cette seconde voie est vraisemblablement subordonnée à la possibilité technique (à vérifier) d'élaborer automatiquement "l'aperçu rapide" envisagé ci-dessus, ceci pour élargir l'assiette de la mesure de fréquence d'apparition des mots dans le texte de la page, afin d'accroître la fiabilité des corrélations établies entre "page web" et "rubrique".

BILAN DE LA PREMIERE CAMPAGNE D'EXTRACTION DE LIENS POUR LE MOTEUR DE RECHERCHE (avril 2021)

ETAPE 1 - Récupération des liens:

URL recensées = 16776
C'est le nombre de liens d'adresse commençant par http:// ou https:// extraits des historiques de 11 boucles Telegram thématiques sur la Transition Ecologique par un logiciel automatique ad-hoc le 13 avril 2021.

Liens ratés = 28
C'est le nombre de liens ratés lors de la vingtaine d'opérations de reprise +/- improvisées suite à arrêts imtempestifs du programme automatique de visite des 16776 pages web pour en extraire les informations utiles à la base de données du moteur de recherche (titre de la page, résumé et adresse web de l'image) au cours d'une interminable session d'une dizaine d'heures. Ces arrêts intempestifs sont probablement dûs à des blocages temporaires de la liaison internet, dont le contournement n'avaits pas été prévu dans l'élaboration du logiciel d'exploration automatique des pages web.

Liens obtenus = 16748
C'est le nombre de liens effectivement récupérés, avec parfois leur lot d'informations accidentellement tronqué lors des arrêts intempestifs ci-dessus.

Liens tronqués = 28
C'est, parmi les liens récupérés, le nombre de ceux dont le lot d'informations est brutalement tronqué, et de ce fait inutilisable directement dans la suite du processus. La reprise manuelle ultérieure de ces liens tronqués est envisageable un par un si l'enjeu paraissait suffisant.

ETAPE 2 - Liens bannis ou brisés:

Liens "t.me" = 213
Il s'agit des liens comportant dans leur URL (adresse web) la séquence de caractères "t.me" ainsi que "telegram:". Ces liens constituent tantôt le moyen de contact direct de membres des boucles Telegram, tantôt sont un lien d'invitation sur une boucle Telegram. Ils ont été retirés pour que l'accès aux boucles Telegram reste réservé à leurs membres respectifs (le site de la "Bibliothèque de liens" étant d'accès public).

Liens Twitter = 3342
Il s'agit de liens contenant dans leur URL "twitter.com" et qui correspondent à des tweets. Ces liens ont été retirés, car constituant une pollution gênante pour la consultation des autres liens. En effet, leur proportion n'est pas négligeable, leur contenu significatif intrinsèque est généralemeent faible et surtout peu durable et les tweets sont à l'occasion un vecteur de réactions polémiques tout à fait contraires à la règle d'objectivité de la "Bibliothèque de liens". Ceci dit, autant dans la section "Référentiel" de la bibliothèque, une grande vigilance est apportée sur ce point, autant cela n'est guère possible sur la totalité des milliers de liens collectés automatiquement. Ces derniers ne sont pas contrôlés, sauf lorsqu'un signalement permet d'établir une "trappe" technique pour les bloquer (par catégorie dans le meilleur des cas, sinon individuellement par leur URL).

Liens brisés = 231
Il s'agit de liens dont le libellé obtenu automatiquement fournit non pas un titre, mais un averissement - souvent la célèbre "erreur 404 - page not found"; ils ont été retirés pour ne pas polluer la liste des liens, après vérification manuelle que le lien était réellement brisé. la brisure se produit lorsqu'une page web n'existe plus ou a déménagé. Ce défaut est plus fréquent sur les liens anciens que sur ceux plus récents). Techniquement, on a recensé manuellement les libellés des liens brisés les plus fréquents sur un panel de quelques centaines de liens (obtenus par recherche du moteur avec le mot "biodiversite" - sans accent sur le é - ) et on les a placés dans une table constituant une "liste d'exclusion" automatique. Il résulte de ce procédé que le recensement des libellés trahissant des liens brisés n'est pas exhaustif et que la table d'exclusion sera à enrichir au fur et à mesure que des liens brisés seront constatés et signalés à l'administrateur du site de la "Bibliothèque de liens".

ETAPE 3 - Dédoublonnage d'URL (avant/après):

Liens après l'étape 2 = 12934
Ces liens sont l'ensemble de ceux qui ont pu être extraits des boucles, moins ceux des contacts personnels, d'invitations sur les boucles, les tweets et les liens brisés.

Liens à URL doublon = 4246
Ce sont les liens pour lesquels il y a au moins un autre lien ayant la même URL; cela arrive lorsqu'un lien est diffusé sur différentes boucles Telegram (ou parfois sur la même boucle). La répétition peut être une fois, deux fois, trois fois.... Dans tous les cas, c'est le lien diffusé le plus récemment qui est retenu, les plus anciens étant éliminés. Il est à noter que l'élimination des URL en double ne supprime pas tout risque qu'il subsiste pafois des doublons dans les résultats de recheche pour des liens à plusieurs exemplaires d'une même page web hébergés à des URL différentes.

Liens après dédoublonnage = 8688
Ces liens sont ceux finalement disponibles pour les recherches avec le moteur.

NOTE - Liens à libellé retoqué en "...?...":

Liens à libellé retoqué = 991
Il s'agit des liens qui présentaient un libellé d'information technique plus ou moins ésotérique et généralement non bloquant. Ceci aurait été gênant pour l'examen serein des résultats de recherche obtenus avec le moteur. A une étape ci-dessus, ces libellés ont été automatiquement remplacés par un libellé neutre: "...?..."). Ce remplacement automatique est contrôlé par une "liste de libellés à remplacer". Cette liste a été initialement établie en même temps que la "liste d'exclusion" mentionnée plus haut (dernier point de l'étape 2). Là aussi, il résulte de ce procédé que le recensement des libellés à remplacer n'est pas exhaustif et que cette liste sera à enrichir au fur et à mesure que des libellés +/- ésotériques seront constatés et signalés à l'administrateur du site de la "Bibliothèque de liens".

NOTE - Priorités d'améliorations à venir:

Corriger l'affichage des caractères accentués ou spéciaux provenant de sites utilisant un codage particulier des caractères. Une partie de ces caractères a été automatiquement et provisoirement remplacée par le _ (8 souligné), comme dans "Assemblée" remplacé par "Assembl_e". Une autre partie s'affiche spontanément comme dans cet exemple: "La ministre du Logement soutient la dÃ©finition d'une rÃ©novation performante adoptÃ©e dans le projet de loi climat par l'AssemblÃ©e."
Remplacer la mention "Image correspondante" s'affichant en cas d'échec de la connexion à l'adresse de l'image par une mention plus claire, comme: "Echec de connexion à l'adresse d'image fournie par la page web".
Remplacer le libellé "...?..." par un vrai titre lorsqu'il est techniquement possible de trouver automatiquement celui-ci dans la page web s'il y est présent et signalé comme tel.
Neutraliser (si c'est techniquement possible) le résumé lorsqu'il se borne à une information technique +/- ésotérique comme "Erreur HTTP 400" s'avérant inadaptée
Corriger l'ordre de sortie des résultats (les résultats devraient aller du plus récent au plus ancien, mais ce n'est respecté qu'en cas de recherche avec "http")
Améliorer le dimensionnement des panneaux pour qu'ils soient de largeur constante et automatiquement adaptée à la largeur d'écran si celle-ci est insuffisante
A compléter en fonction du retour d'expérience...