Intégration de données biologiques

288 pages - juillet 2022

ISBN papier : 9781789480306

ISBN ebook : 9781789490305

Code ERC :

LS2_12 Bioinformatics
LS2_13 Computational biology
LS2_14 Biostatistics
LS2_15 Systems biology

Ouvrage anglais

Biological Data Integration

Christine Froidevaux, Marie-Laure Martin Magniette, Guillem Rigaill

Voir l'ouvrage

– Papier (Collections classiques, Encyclopédie SCIENCES) :
Délai de livraison : environ deux semaines
Envois uniquement vers : France métropolitaine, Belgique, Suisse et Luxembourg
Impression en couleur
Un ebook de l’ouvrage (à l’exception des titres de l’Encyclopédie SCIENCES) est offert pour tout achat
de sa version papier sur notre site, il vous sera envoyé après la finalisation de votre commande
Offre non applicable aux librairies

– Ebook (Collections classiques, Encyclopédie SCIENCES, Abrégés) :
Prix réservé aux particuliers
Pour les institutions : nous contacter
Nos ebooks sont au format PDF (compatible sur tout support)

Description
Sommaire
Coordonnateur(s)

L’étude des données biologiques connaît constamment de profonds changements. Le volume des données a d’abord considérablement augmenté en raison des nouvelles techniques haut débit pour les expériences. Puis, les progrès remarquables tant des méthodes d’analyses informatiques et statistiques que des infrastructures ont rendu possible le traitement de ces données volumineuses. L’enjeu qui en résulte est de pouvoir intégrer ces données, c’est-à-dire d’en exploiter la complémentarité dans l’espoir de faire avancer les connaissances. L’intégration des données pour une analyse la plus exhaustive possible constitue ainsi un des défis majeurs de la biologie.

Intégration de données biologiques traite de façon pédagogique des travaux de recherche dans la science des données biologiques, il examine les approches informatiques pour l’intégration des données puis les approches statistiques pour l’intégration des données omiques.

1. Entrepôts de données cliniques
2. Méthodes du Web sémantique pour l’intégration de données en sciences de la vie
3. Workflows d’intégration de données bioinformatiques
4. Sélection de variables dans le modèle linéaire général : application à des approches multiomiques pour étudier la qualité des graines
5. Compression structurée de l’information génétique et étude d’association pangénomique par modèles additifs
6. Des noyaux pour les omiques
7. Modèles multivariés pour l’intégration de données et la sélection de biomarqueurs dans les données omiques

Christine Froidevaux

Christine Froidevaux est professeure d’informatique émérite à l’Université Paris-Saclay et effectue des recherches en intégration des données pour les systèmes biologiques.

Marie-Laure Martin Magniette

Marie-Laure Martin-Magniette est directrice de recherche à l’INRAE et développe des méthodologies statistiques pour l’analyse et l’intégration des données omiques.

Guillem Rigaill

Guillem Rigaill est directeur de recherche à l’INRAE et développe des méthodologies statistiques pour les analyses (multi)omiques.

Avant-propos Table des matières

Chapitre 1

Entrepôts de données cliniques (pages : 9-31)

La prise en charge des patients dans les hôpitaux, les cabinets de ville et toutes les structures de soins produit une grande quantité d’informations. Ces données, générées pour le soin, peuvent être réutilisées pour la recherche et l’amélioration des soins dans des entrepôts de données cliniques. Ce chapitre explore les différentes architectures, la construction des entrepôts et leur utilisation pour la recherche.

Chapitre 2

Méthodes du Web sémantique pour l’intégration de données en sciences de la vie (pages : 33-61)

Les données en sciences de la vie sont massives, hétérogènes, compliquées et complexes. L'enjeu est d'en automatiser le traitement afin de le rendre systématique, ce qui nécessite à la fois intégration (data engineering) et méthodes d'analyse (data science). Ce chapitre montre comment le Web Sémantique offre une solution générique adoptée à large échelle par la communauté bioinformatique.

Chapitre 3

Workflows d’intégration de données bioinformatiques (pages : 63-97)

Les traitements de données sont au cœur de nombreux domaines de la Bioinformatique. Ils consistent en l’enchaînement d’un grand nombre d’outils bioinformatiques et manipulent des données massives et diverses. Ce chapitre décrit les difficultés d’implémentation et d’exécution de ces traitements, introduit les systèmes de gestion de workflows comme élément de solution et souligne les problèmes de recherche encore ouverts.

Chapitre 4

Sélection de variables dans le modèle linéaire général : application à des approches multiomiques pour étudier la qualité des graines (pages : 101-128)

Nous proposons dans ce chapitre une nouvelle méthode de sélection de variables dans le modèle linéaire général tenant compte de la dépendance pouvant exister entre les colonnes de la matrice d’observations afin de l’appliquer à des données “-omiques” qui sont caractérisées par la présence d’une forte structure de dépendance. L’implémentation de la méthode est disponible dans le package R MultiVarSel.

Chapitre 5

Compression structurée de l’information génétique et étude d’association pangénomique par modèles additifs (pages : 129-163)

Ce chapitre présente un modèle de compression de données adapté aux études d’associations pangénomiques (GWAS pour Genome-Wide association Study). La méthode présentée exploite la structure de déséquilibre de liaison du génome pour améliorer la puissance statistique des tests utilisés dans les études d’associations pangénomiques. Une étude de cas concret sur la spondylarthrite ankylosante illustre l’approche.

Chapitre 6

Des noyaux pour les omiques (pages : 165-210)

En biologie des systèmes, de nombreuses méthodes ont été développées pour intégrer les données -omiques et, parmi elles, les noyaux sont une approche couramment utilisée. Dans ce chapitre, nous présentons le cadre général des approches à noyau et leur utilité pour l'analyse de divers types de données biologiques avec un focus particulier sur les approches exploratoires.

Chapitre 7

Modèles multivariés pour l’intégration de données et la sélection de biomarqueurs dans les données omiques (pages : 211-269)

Les méthodes multivariées linéaires présentées permettent : l’exploration d’un seul jeu de données (ACP), la discrimination (PLS-DA), l’intégration de plusieurs jeux de données (PLS, multi-block PLS). Les aspects mathématiques de chaque méthode sont présentés, ensuite leur mise en œuvre sur des exemples fictifs et réels permet d’en illustrer l’intérêt pour répondre à des questions biologiques.