Les nouvelles fonctionnalités du logiciel de Text Mining WordStat

Quoi de neuf dans la version 8.0?

Plus performante et plus flexible que jamais! La nouvelle version 8.0 offre de nombreuses nouvelles fonctionnalités et s’ajuste à votre niveau d’expertise en « text mining ».

Nous savons que vous êtes inondé de plus en plus de données textuelles et cherchez des moyens de les analyser et de les catégoriser. Vous recherchez des outils pour vous aider à trouver rapidement des thèmes, du contexte, des concepts importants et du sens dans de grandes quantités de données textuelles. Nous savons que c’est un défi pour les scientifiques de données et les chercheurs et analystes moins expérimentés. L’objectif de WordStat 8 était de trouver un moyen de soutenir ces groupes. Nous voulions améliorer la convivialité et la flexibilité tout en bonifiant les performances et la précision.

Nous sommes convaincus que la nouvelle approche de WordStat 8 permet d’atteindre ces objectifs. Vous pouvez traiter d’énormes quantités de données non structurées en quelques secondes avec une expérience minimale ou créer facilement vos propres dictionnaires de catégorisation complets pour effectuer une mesure plus précise des concepts.

1. Plateforme autonome de « text mining »

Miner, to set up their project. WordStat 8 is now a standalone product. This cuts down on the complexity and learning curve as users can now create their projects directly in WordStat. However, it may still be run as a content analysis add-on of QDA Miner, STATA or SimStat.

You can now create a project in WordStat itself from different sources:

  • Documents: MS Word, RTF, PDF, HTML, etc.
  • Data files: Excel, CSV, Stata, etc.
  • Web survey platforms: SurveyMonkey, Qualtrics, SurveyGizmo, etc.
  • Reference management tools: Endnote, Zotero, Mendeley
  • Social media services: Twitter, Facebook, Reddit, RSS Feeds, Youtube
  • Email platforms: Outlook, Gmail, Hotmail, Mbox and EML format
  • Many other sources…

 

2. Nouveau mode Explorer

Un nouveau mode Explorateur a été implanté pour permettre aux utilisateurs avec peu d’expérience en text mining d’effectuer une extraction sémantique simple et rapide de grandes quantités de données textuelles. Vous pouvez identifier les mots et les phrases les plus fréquents et extraire les sujets les plus saillants de vos documents avec l’outil amélioré de modélisation thématique « topic modeling » de WordStat 8. Vous pouvez à tout moment passer en mode expert, qui vous donne accès à toutes les fonctionnalités de WordStat, y compris les dictionnaires d’analyse de contenu, les analyses croisées et les analyses de cooccurrence.

3. Modélisation thématique améliorée

La routine existante de la modélisation thématique ou « topic modeling » bénéficie de nombreuses améliorations telles qu’un algorithme d’extraction supplémentaire (NNMF) ainsi qu’un processus innovant d’enrichissement de thèmes. Cette technique permet d’aller au-delà du concept de type « bag-of-word » typique de l’extraction de thèmes classique. Elle permet de sélectionner automatiquement les expressions connexes et fournit des suggestions d’expressions supplémentaires et d’exceptions potentielles tout en corrigeant les fautes d’orthographes. Cette approche innovatrice permet une mesure plus précise et plus complète pour l’extraction des thèmes.

4. Affichages graphiques nouveaux et améliorés

WordStat 8 dispose de plusieurs nouveaux affichages graphiques pour vous aider à mieux comprendre les résultats de votre analyse de données. Nous avons amélioré les nuages ​​de mots interactifs, les graphiques en anneau et en radar.

5. Table de déviation

Ceci est une toute nouvelle fonctionnalité incluse dans WordStat 8. Elle a été ajoutée après la publication et vous devez avoir téléchargé WordStat 8.0.7 ou une version ultérieure pour pouvoir y accéder. La table de déviation vous permet de voir les mots / phrases utilisés plus ou moins par rapport à d’autres variables. Vous devez d’abord activer le bouton Analyse croisée pour voir l’icône. Vous pouvez cliquer avec le bouton droit de la souris pour rechercher KWIC, Supprimer et enregistrer dans un onglet délimité, HTML ou bitmap. Pour en savoir plus sur cette fonctionnalité spécifique de WordStat 8, cliquez sur le lien suivant: WordStat 8 new Deviation Table

6. Résultats d’exportation vers le logiciel Tableau

D’un simple clic, vous pouvez également exporter vos résultats vers Tableau Software pour utiliser ses outils avancés de visualisation de données interactives.

7. Amélioration de la construction de dictionnaires pour l’analyse de contenu

Plusieurs nouvelles fonctionnalités et améliorations ont été apportées à la section des dictionnaires de catégorisation afin de vous aider à être plus précis dans votre recherche de texte et à obtenir des résultats plus précis.

Entrées sensibles à la casse: les dictionnaires de catégorisation et la liste d’exclusion prennent désormais en charge les entrées sensibles à la casse afin de lever toute ambiguïté entre des mots tels que « Bill » et « bill », « Buck » et « buck » ou « us » et « US ».

Recherches d’expressions régulières (Regex): nous avons créé un éditeur d’expressions régulières dans lequel vous pouvez créer vos propres formules de regex pour extraire rapidement des informations spécifiques à partir de vos données textuelles, telles que des adresses électroniques ou des codes postaux.

 

Nouveau processus de substitution: nous avons amélioré le processus de substitution en le scindant en deux. En le séparant de notre processus de lemmatisation, vous pouvez repérer facilement les substitutions et garder votre dictionnaire de contenu exempt de fautes d’orthographe.

Les listes d’exclusions et de substitutions, de même que votre dictionnaire de catégorisation, peuvent désormais être sauvegardés dans un fichier de modèle de catégorisation. Ce fichier peut être utilisé pour d’autres projets WordStat ainsi que dans QDA Miner, WordStat Document Explorer ou dans notre SDK.

 

WordStat 7

WordStat 8

9. TRANSFORM TEXT USING PYTHON SCRIPTS

WordStat 8 opens the possibility of NLP data scientists to use Python script and its full range of open-source libraries to preprocess or transform text documents for analysis in WordStat. This new feature increases the flexibility of WordStat and allows users to use their Python programming skills.

10. NUMERICAL TRANSFORMATION

A new numerical transformation dialog box allows you to compute numerical variables from other variables with up to 50 transformation functions including trigonometric, statistical, random number functions. Conditional transformation can also be performed using an IF-THEN-ELSE logical structure.

11. BINNING

A binning feature can now be used to transform continuous values into a smaller number of distinct categories. It may be used to reduce the effect of numerical outliers, abnormal distributions, or convert a continuous numerical variable into an ordinal one. It is especially useful for creating graphical displays of comparisons when the number of distinct values in the numerical variable is too

12. ANALYSIS OF EMOJIS

Emojis have become ubiquitous in social media, text messaging, emails and other electronic communications and are often used to represent an object, express an idea or sentiment, or add a nuance to a written message. They are often an integral part of the message and can hardly be ignored. WordStat 8.0 can transform emojis into their text representation, allowing you to analyze them either on their own or as part of the whole message.

13. EXPLORE YOUR DOCUMENTS FROM WINDOWS EXPLORER

The new Document Explorer tool allows users to quickly explore the content of their documents from Windows Explorer without the need to import documents or create a project. You just have to select the documents you would like to explore or the folder containing them, right-click and select Explore to quickly identify the most frequent words and phrases and where they are in your documents. With a simple right-click, you can also perform a semantic search on your documents using an existing categorization dictionary or classify documents using a prediction model in WordStat. Watch the WordStat Document Explorer Video Demo