KIT DE DÉVELOPPEMENT LOGICIEL WORDSTAT (SDK)

Processus de quantification de texte dans WordStat

Le text mining, tel qu’il est réalisé par WordStat, implique une certaine forme de quantification des données textuelles. Cette quantification est obtenue en appliquant des techniques de traitement du langage naturel (racinisation, lemmatisation, suppression des mots vides, etc.), des critères de sélection statistiques, ainsi que le groupement de mots et de phrases en concepts en utilisant des taxonomies ou des dictionnaires de contenu personnalisés. Toutes ces procédures peuvent être combinées pour extraire des chiffres représentant la présence ou la fréquence de mots-clés importants, ou de concepts clés.Nous appelons cela le processus de catégorisation. WordStat prend également en charge une autre forme de quantification : la classification automatique des documents, qui consiste à classer les documents dans l’une de plusieurs classes mutuellement exclusives en utilisant une forme d’apprentissage automatique.

Quel est l’intérêt d’un kit de développement logiciel ?

Les processus de catégorisation et de classification sont exécutés par WordStat, lequel offre une interface utilisateur graphique qui permet à l’utilisateur de créer, de valider et d’affiner ces processus, de les appliquer à diverses corpus de textes, d’effectuer des comparaisons, d’explorer, de mettre en relation et de créer des rapports graphiques et tabulaires. Bien que les modèles de catégorisation et de classification puissent être sauvegardés sur disque et réappliqués sur un autre ensemble de documents, un opérateur humain est toujours nécessaire pour effectuer ces analyses. Ce qui restreint la possibilité de réaliser une automatisation totale des opérations d’analyse de texte et de création de rapports.

Le kit de développement logiciel (SDK) de WordStat fournit une solution permettant aux modèles développés avec le logiciel WordStat d’être utilisés dans d’autres types d’applications écrites dans d’autres langages informatiques, tels que C++, Delphi, C#, VB.Net, etc.

Un exemple typique d’une telle intégration serait l’application d’un modèle de catégorisation sur un système de collecte de données d’une entreprise concernant les retours clients afin de mesurer automatiquement les références à des sujets spécifiques et de classer ces retours comme positifs, négatifs ou neutres.

Mise en application du SDK

Tous les paramètres d’analyse et de transformation de texte définis dans WordStat sont stockés sur le disque dans les fichiers modèles (racinisation, lemmatisation, règles de catégorisation, critères de sélection, etc.) Cela facilite considérablement l’intégration de ce type de traitement de texte dans d’autres applications en ramenant à quatre étapes simples l’application de ces processus d’analyse de texte :

Chargement du fichier du modèle de catégorisation ou de classification
Extraction du texte à catégoriser ou à classifier
Application du modèle au texte
Récupération des informations pertinentes (fréquences, probabilités, classes prédites, etc.)

Un modèle ne doit être chargé qu’une seule fois, tandis que les étapes n°2 à n°4 peuvent être répétées aussi souvent que nécessaire.

Il n’y a actuellement aucune fonction de rapport ou de graphique disponible dans la DLL, c’est donc au programmeur qu’il incombe de traiter les informations obtenues. En général, les valeurs numériques sont soit stockées dans une base de données, soit agrégées pour créer des rapports, des tableaux de bord, etc.

Détails techniques

Le SDK consiste en une DLL Windows disponible en version 32 bits et 64 bits. La DLL est sécurisée par un système multi-thread, permettant la quantification de texte de plusieurs documents simultanément. Elle supporte également l’application simultanée de plusieurs modèles de catégorisation et de classification, ce qui vous permet d’effectuer plusieurs quantifications des mêmes documents.

Le SDK est accompagné d’un exemple de projet avec des fichiers sources illustrant comment l’intégration peut être réalisée. Cet exemple est pour l’instant disponible en Delphi, C# et VB.NET. Veuillez nous contacter si vous avez besoin d’aide sur la façon d’utiliser le SDK avec d’autres langages informatiques.

Cela vous intéresse ?

Si vous souhaitez obtenir de plus amples informations sur le SDK, obtenir une version d’essai (avec documentation et exemples d’applications) ou acquérir le SDK, veuillez vous adresser à developpers@provalisresearch.com.