Passionné(e) de lecture ? Inscrivez-vous gratuitement ou connectez-vous pour rejoindre la communauté et bénéficier de toutes les fonctionnalités du site !  

Apache Spark : développez en Python pour le big data

Couverture du livre « Apache Spark : développez en Python pour le big data » de Nastasia Saby aux éditions Eni
  • Date de parution :
  • Editeur : Eni
  • EAN : 9782409033780
  • Série : (-)
  • Support : Papier
Résumé:

Ce livre est destiné aux développeurs et développeuses qui souhaitent découvrir l'enrichissement de données, le big data et l'apprentissage automatique avec Apache Spark.

Après avoir donné quelques définitions du domaine de la data, l'autrice présente les fondements de Spark. Elle explique... Voir plus

Ce livre est destiné aux développeurs et développeuses qui souhaitent découvrir l'enrichissement de données, le big data et l'apprentissage automatique avec Apache Spark.

Après avoir donné quelques définitions du domaine de la data, l'autrice présente les fondements de Spark. Elle explique l'architecture logicielle du framework, les composants et les différents langages avec lesquels il est possible de développer.

Elle présente ensuite la transformation de données. Fonctions numériques, alphanumériques, ajouts d'information, suppressions, agrégations de premier ordre et plus complexes sont à l'honneur. Les lecteurs et lectrices pénétreront dans des fonctionnalités plus avancées telles que les fonctions de fenêtrage et celles définies par les utilisateurs et utilisatrices. Les nombreuses API de Spark sont parcourues. Cet apport théorique est appuyé par des exemples de code.

Dans un autre temps, l'apprentissage machine est dévoilé. Apprentissage supervisé, non supervisé, profond et moteurs de recommandation sont autant de paramètres étudiés. Les lecteurs et lectrices découvriront les différents algorithmes présents dans l'outil, les manières de préparer des données à l'entraînement ainsi que les possibilités d'évaluation d'un système prédictif. Des mises en pratique sont disponibles. Les arbres de décision, forêts aléatoires, réseaux de neurones, régressions linéaires et factorisations de matrices sont enseignés.
Dans le domaine de la préparation de données, le traitement des informations numériques ainsi que la vectorisation de textes sont présentés.

Dans le dernier chapitre, c'est l'industrialisation de Spark qui est mise en avant. Déployer, déboguer et tester son application sont autant d'éléments cruciaux qui sont balayés. Les lecteurs et lectrices apprendront les subtilités de l'outil pour une performance optimale.

Donner votre avis

Récemment sur lecteurs.com