Un moteur de recherche de documents d’entreprise

A presentation at Devoxx France 2023 in in Paris, France by David Pilato

Lors de cet atelier, nous allons expliquer comment mettre en place un moteur de recherche pour les données de notre entreprise.

Afin d’éviter le côté trop “magique” parfois des solutions sur étagère, nous verrons d’abord :

  • les bases du moteur de recherche Elasticsearch
  • l’indexation de contenu JSON
  • la transformation à la volée du contenu JSON via les pipelines ingest
  • l’extraction de texte et de meta-données depuis un document binaire avec le processor attachment
  • l’utilisation du tout nouveau processeur d’inférence pour déterminer des entités nommées de nos documents ainsi qu’une analyse de sentiments
  • l’utilisation du projet FSCrawler open-source pour réaliser plus simplement ces étapes

Nous verrons ensuite comment chercher dans les données ainsi indexées.

Enfin, nous mettrons en place une interface de recherche sur étagère, portée par la solution gratuite Workplace Search qui nous permettra de chercher dans différentes sources documentaires avec assez peu d’efforts.

Resources

The following resources were mentioned during the presentation or are useful additional information.

Buzz and feedback

Here’s what was said about this presentation on social media.