Aller au contenu

Statistiques pour portails : aller plus loin

Obtenir des données supplémentaires

L'administrateur peut créer lui-même ses requêtes dans Kibana à partir des données disponibles. Les tableaux de bord “-test” sont entièrement modifiables dans le but de mieux vous permettre d’appréhender l’outil et, éventuellement, de construire un exemple des modifications que vous souhaiteriez. Il vous est simplement demandé de préserver au maximum les tableaux de bord qui sont proposés par défaut (pas de gestion d'espace individuel) et de sauvegarder vos modifications sous un autre nom. Toutes les semaines, les données seront mis à jour et les tableaux de bords “-test” réinitialisés. Les tableaux de bord nommés “-X” ne sont, quant à eux, pas modifiables.

Cette page vise à présenter les principes d'utilisation, l'utilisateur est invité à consulter la documentation Kibana pour en savoir plus.

Afficher les données disponibles

Pour lister les données disponibles, cliquer sur Discover dans le menu Kibana à gauche de l'écran :

Liste des données disponibles dans le menu Kibana

Description des données

Note sur Kibana

Le logiciel Kibana propose une interface pour visualiser des données, il interroge une base de données Elasticsearch. La possibilité d'interroger la bdd dans une interface graphique simplifiée induit toutefois des limitations. En particulier, seuls les champs d'un certain type peuvent être représentés dans des graphiques ou utilisés dans les filtres.

Limitations

  1. Tous les champs ne peuvent pas être utilisés dans les filtres.
  2. Certains champs sont présents dans la base de données mais ne sont pas traités par Kibana.

NB: Les principales informations contenues dans ces champs non traités sont reprises dans des champs traités.

Plus précisément :

  • Certains champs ont une valeur, par exemple le champ "hal_identifiant" contient l'identifiant du document consulté. D'autres contiennent eux-même des champs qui sont dits "imbriqués". Par exemple le champ "firstname" est l'un des champs du champ "authors" et est affiché sous la forme "authors.firstname". Ces champs imbriqués s'affichent bien dans l'onglet Discover mais ne sont pas "cherchables". On ne peut pas faire de recherche ou créer de filtre sur les valeurs de ces champs.
  • Certains champs sont "doublés" et l'un de ces couples est suffixé par ".raw", par exemple : "structures_names" et "structures_names.raw". Il s'agit d'une différence de type lors de l'indexation. Lorsqu'un champs est doublé :
    • seul le champ ".raw" est utilisable dans les visualisations,
    • le champ ".raw" permet les "recherches exactes",
    • le champ sans suffixe permet de rechercher les termes du champ.
    • exemples de recherches (avec des résultats différents donc) :
      • structures_names.raw:"Université d'Orléans"
      • structures_names.raw:*Orléans
      • structures_names:Orléans
      • structures_names:"Université d'Orléans"

Liste des champs

  1. haldoc : données d'usage
    1. Principaux champs destinés à l'utilisation dans les filtres, dans les recherches et dans les visualisations
      • authors_fullname : nom complet des auteurs.
      • authors_idhal : idhal des auteurs.
      • authors_organism : organisme de rattachement principal d'un auteur.
      • authors_structures : structures d'affiliation des auteurs.
      • document_contributor : nom complet du contributeur du document.
      • document_country : pays de publication.
      • domain : domaine (url) du portail sur lequel a été réalisé le dépôt.
      • hal_docid : identifiant interne du document.
      • hal_domains : domaines scientifiques.
      • hal_identifiant : indentifiant public du docuement.
      • hal_tampons_names : acronyme de la (des) collection(s) du document.
      • keywords : tous les mots-clés associés au document.
      • publication_title : titre dans les différentes langues renseignés.
      • rtype : type de dépôt (avec ou sans fichier).
      • structures_country : code du pays de publication.
      • structures_names : nom de la (des) structure(s) d'affiliation des auteurs.
      • structures_sigles : sigle de la (des) structure(s) d'affiliation des auteurs.
    2. Champs imbriqués (non utilisables dans les filtres ou la recherche)
      • abstract.* : les résumés classés par langue.
      • anrProject.* ou europeanProject.* : les informations sur le projet ANR ou européen lié au document. NB: les principales informations sont reprises dans des champs cherchables.
      • authors.* : informations sur les auteurs (ex: authors.firstname ou authors.structures). NB: les principales informations sont reprises dans des champs cherchables.
      • contributor.* : informations sur les contributeurs (ex: contributor.firstname). Cf. aussi le champ document_contributor ci-dessus.
      • identifier.* : les autres identifiants (ex: doi) que possède le document.
      • journal.* : informations sur le journal dans lequel est paru le document. NB: les principales informations sont reprises dans des champs cherchables.
      • keyword.* : les mots-clés classés par langue. Cf. aussi le champ keywords ci-dessus.
      • related.* : relation du document avec un autre objet numérique.
      • structures.* : informations sur les structures d'affiliation des auteurs d'un document (ex: structures.STRUCTNAME). NB: les principales informations sont reprises dans des champs cherchables.
      • subTitle.* : le sous-titre dans les différentes langues renseignées.
      • title.* : le titre dans les différentes langues renseignées. Cf. aussi le champ publication_title ci-dessus.
    3. Cf. aussi la documentation de l'api : https://api.archives-ouvertes.fr/docs/search/?schema=fields#fields
  2. halec : évenements de consultation
    1. Champs principaux
      • datetime : date de la consultation.
      • domain : domaine de la page consultée.
      • geoip-country : code du pays d'origine des consultations.
      • geoip-location : géolocalisation (précision : ville) de l'origine des consultations.
      • hal_docid : identifiant interne du document.
      • hal_domains : domaine(s) scientifique(s).
      • hal_fulltext : fichier associé (vrai ou faux).
      • hal_identifiant : identifiant public du document.
      • hal_tampons : identifiant de la (des) collection(s).
      • hal_tampons_name : nom de la (des) collection(s).
      • isRobot : probable consultation par un robot (vrai ou faux).
      • mime : type du fichier téléchargé.
      • publication_title : titre du document consulté.
      • Referer : page web précédemment visitée (provenance de la consultation).
      • rtype : type de consultation.
      • size : taille du fichier téléchargé.
      • url : adresse relative de la page consultée.
    2. Champs à usage technique
      • ezpaarse_date
      • ezpaarse_version
      • halEc
      • hal_endpoint_portail
      • hal_endpoint_portail_sid
      • hal_redirect_portail
      • hal_redirect_start_portail
      • hal_redirection
      • host
      • log_id
      • Machine_Name
      • middlewares
      • middlewares_date
      • middlewares_version
      • on_campus
      • platforms_date
      • platforms_version
      • robotScore
      • status
      • trackcode
      • user-agent

Créer une visualisation

Sélectionner "Visualize"dans le menu à gauche de l'écran, puis sur le + pour ajouter une visualisation. Choisir ensuite le type de graphique :

Sélectionner une visualisation

Choisir ensuite le type de données à manipuler : usage (haldoc) ou événements de consultation (halec)

Construire ensuite son graphique en choisissant les données pour les axes : voir la documentation Kibana