Analyse de données textuelles sous R

318 pages - janvier 2016

ISBN papier : 9781784051075

ISBN ebook : 9781784061074

– Papier (Collections classiques, Encyclopédie SCIENCES) :
Délai de livraison : environ deux semaines
Envois uniquement vers : France métropolitaine, Belgique, Suisse et Luxembourg
Impression en couleur
Un ebook de l’ouvrage (à l’exception des titres de l’Encyclopédie SCIENCES) est offert pour tout achat
de sa version papier sur notre site, il vous sera envoyé après la finalisation de votre commande
Offre non applicable aux librairies

– Ebook (Collections classiques, Encyclopédie SCIENCES, Abrégés) :
Prix réservé aux particuliers
Pour les institutions : nous contacter
Nos ebooks sont au format PDF (compatible sur tout support)

Description
Sommaire
Auteur(s)

Cet ouvrage est un guide complet pour l’analyse de données textuelles. Il s’appuie sur un ensemble de bibliothèques géré par le langage R, logiciel libre de traitement des données et d’analyse statistiques.

Didactique, Analyse de données textuelles sous R présente les étapes préalables d’opérations de base comme le chargement des données, le découpage en tokens ou la conversion en matrice terme-document. Il détaille également les tâches plus complexes comme l’association des segments de discours à des locuteurs d’un entretien, l’extraction et la visualisation des thèmes, la classification des mots, l’indexation et la recherche des documents ou l’extraction des relations entre entités nommées. Cet ensemble d’opérations doit pouvoir s’intégrer dans un écosystème de plateformes d’analyse comme un système de recommandation, d’aide à la traduction ou d’analyse des médias sociaux.

1. R, généralités et installation
2. Charger des données : entrées/sorties sous R
3. Ressources statiques : dictionnaires et collections
4. Ressources dynamiques : récupération de données
5. Analyse des distributions de mots
6. Analyse de questions ouvertes
7. Analyse généraliste : matrice et associations
8. Analyse généraliste : termes et analyse des correspondances
9. Analyse de la lisibilité
10. Détection d’entités nommées
11. Extraction de relations entre entités
12. Modèles de partitionnement de données
13. Analyse d’opinion
14. Recherche de documents
15. Modèles pour la catégorisation
16. Visualisation sémantique

Nicolas Turenne

Docteur en informatique, Nicolas Turenne est chercheur à l’INRA au sein du Laboratoire Interdisciplinaire Sciences Innovation Sociétés à l’université de Paris-Est. Il est spécialiste en extraction et gestion de connaissances à partir de textes en utilisant des modèles stochastiques et relationnels.

Chapitre 1 Table des matières