Shopping cart
Your cart empty!
Approfondissez Spark pour gérer et analyser de grands volumes de données. Optimisez vos traitements, utilisez les API RDD, DataFrame et Dataset. Maîtrisez les techniques avancées de performance. Idéal pour data scientists et ingénieurs cherchant à améliorer leurs compétences Spark.
Réponse sous 24h ouvré
Exploiter pleinement les API DataFrame et Dataset pour manipuler et transformer des données structurées. Écrire des requêtes Spark SQL optimisées pour l'analyse et la gestion de grands volumes de données.
Diagnostiquer et résoudre les problèmes de performance (shuffle, skew, mémoire). Appliquer des techniques avancées (Broadcast Joins, Caching, Partitioning) pour accélérer significativement les traitements distribués.
Utiliser Spark UI et les logs pour le débogage. Maîtriser le déploiement de jobs Spark sur différents gestionnaires de clusters (YARN, K8s) et configurer les applications.
Concevoir et implémenter des applications de traitement de flux en temps quasi réel à l'aide de Spark Structured Streaming, intégrant des sources comme Kafka et gérant les états et les fenêtrages. ```
Approfondissez vos compétences Spark pour analyser et traiter de grands volumes de données. Maîtrisez les API avancées et l'optimisation pour des analyses performantes.
Optimisez vos traitements Big Data avec Spark. Apprenez les techniques avancées de performance et gérez efficacement l'architecture distribuée.
Passez au niveau supérieur en Spark. Maîtrisez les API RDD, DataFrame, Dataset et les méthodes d'optimisation pour des applications robustes et scalables.
Comprenez en profondeur les capacités de Spark pour concevoir des architectures Big Data performantes. Intégrez les meilleures pratiques d'optimisation.
- Architecture distribuée Spark : Driver, Executors, Cluster Managers
- Rappels fondamentaux sur les RDD (Resilient Distributed Datasets)
- Fonctionnement du Job, Stage, Task
- Persistance et Caching (MEMORY_ONLY, DISK_ONLY)
- Concepts de DAG (Directed Acyclic Graph) Scheduling
- Comprendre les DataFrames : StructType, Column
- Création de DataFrames depuis diverses sources (CSV, JSON, Parquet)
- Opérations de sélection, renommage et réordonnancement de colonnes
- Fonctions d'agrégation et groupements avancés
- Jointures (inner, outer, left, right) et leur optimisation
- Le concept de Dataset : Avantages du typage fort sur DataFrame
- Création de Datasets à partir de RDD et de DataFrames
- Encoder implicites et explicites (RowEncoder, ProductEncoder)
- Opérations de transformation et d'action sur les Datasets
- Comparaison DataFrame vs Dataset : Quand utiliser quoi ?
- Catalyseur Optimizer : Fonctions Rule-Based et Cost-Based
- Exécution de requêtes SQL : Plan physique et logique
- Broadcast Joins et Shuffle Joins : Définition, cas d'usage
- Stratégies de partitionnement et de co-localisation des données
- Utilisation des Vues et des Tables temporaires
- Manipulation des dates et heures avec Spark SQL
- Fonctions de fenêtrage (Window Functions) : Agrégation, Ranking
- Over clause et partitionnement de fenêtre
- Analyse de séries temporelles : Gaps, Lags, Leads
- Techniques avancées pour les données événementielles
- Deep dive sur le Shuffle : Phases, impact performance
- Identification et gestion du Skew (déséquilibre de données)
- Salting des clés : Stratégies pour réduire le skew
- Cache et Persistance avancée pour réduire le shuffle
- Monitoring du Shuffle via Spark UI
- Connecteurs Big Data : HDFS, S3, ADLS
- Intégration avec Apache Kafka (Spark Streaming, Structured Streaming)
- Connexion aux bases de données relationnelles (JDBC)
- Utilisation de Delta Lake : ACID transactions sur Data Lake
- Interopérabilité avec Parquet, ORC, Avro
- Rappels DStreams : Modèle par micro-batch
- Introduction à Structured Streaming : Modèle de requêtes continues
- Sources de données (files, Kafka, socket) et Sinks (console, HDFS)
- Traitement d'événements : watermark, agrégations temporelles
- Tolérance aux fautes et modes de déploiement
- Utilisation avancée de l'interface utilisateur Spark UI
- Comprendre les onglets : Jobs, Stages, Tasks, Storage, Environment, Executors
- Analyse des logs et gestion des erreurs
- Profiling des performances et identification des goulots d'étranglement
- Outils de monitoring externes (Grafana, Prometheus)
- Développement d'applications Spark en Scala et Python (PySpark)
- Packaging des JARs Spark et des dépendances (sbt, Maven, poetry)
- Modes de déploiement : Client, Cluster (YARN, Mesos, Kubernetes)
- Soumission de jobs Spark (spark-submit)
- Gestion des configurations et des propriétés d'exécution
- Conception d'architectures de données robustes avec Spark
- Stratégies de repartitionnement et de ré-partitionnement
- Gestion de la mémoire et Garbage Collection (GC)
- Techniques d'optimisation pour de grands datasets (skew, OOM)
- Test unitaire et fonctionnel de code Spark
- Analyse et optimisation d'un pipeline de données complexe
- Utilisation d'Adaptive Query Execution (AQE)
- Implémentation de jointures avancées (Bucketing, Co-Grouping)
- Techniques de gestion des données semi-structurées
- Résolution de problèmes réels de performance Spark
Nous pouvons adapter le programme de la formation Maîtriser Spark Avancé : Optimisation et Performances Big Data à vos besoins. Contactez un conseiller en formation
Vous avez des interrogations ? Nous avons les réponses. Consultez notre FAQ pour découvrir les questions que d’autres se posent souvent avant de se lancer dans une formation.
Vous avez encore des questions ?- Connaissances fondamentales de Spark (RDD, DataFrame, Spark SQL). - Notions de programmation en Python ou Scala. - Familiarité avec les concepts de bases de données et de traitement de données.
- Un ordinateur portable avec minimum 8 Go de RAM. - Accès internet stable. - Un environnement de développement (IDE) compatible Python ou Scala (ex: IntelliJ IDEA, VS Code). - Optionnel : Un compte cloud (AWS, Azure, GCP) pour expérimenter les déploiements.
5 tests d'évaluation sont proposés à l'apprenant en fin de formation pour connaître son niveau sur chaque compétences visées.
Plateforme et contenus e-learning à disposition. Test de positionnement Quizz & Evaluations
Nous vous recevons lors d’un rendez-vous d’information préalable gratuit et confidentiel en visioconférence pour analyser vos besoins et co-construire votre parcours personnalisé. Chaque demande s’accompagne de la remise d’une convention ou d’un contrat précisant l’ensemble des informations relatives à la formation (Tarifs, calendrier, durée, lieu…). Ce contrat/convention sera transmis électroniquement par email.
A partir de l’accord de prise en charge par le financeur sollicité, le bénéficiaire peut démarrer sous un délai de 11 jours ouvrés. Si vous financez votre parcours de formation par vos propres moyens, alors le délai d'accès est immédiat. Vous pouvez entrer en formation tout au long de l’année.
♿️ Nous accueillons les personnes en situation de handicap. Les conditions d’accessibilité aux personnes handicapées sont inscrites sur le site imi-education.fr, rubrique Accessibilité.
Jaylan Nikolovski Pour tout renseignement : 06 72 09 69 52 / jaylan.n@imi-executive-solutions.com
25 juin 2025
Pourquoi choisir imi executive solutions ? ¯\_(ツ)_/¯
Les meilleures formations réunies en une seule. Apprenez tous ce qu'il y a à savoir.
Inter ou intra, apprenez au côté de professionnels en activité.
Pédagogie active où l’apprenant est acteur de son propre apprentissage : construisez, créez, expérimentez !
Notre expertise au service de l'optimisation de vos budgets de formation.(OPCO, FSE+, FNE, FAF, CPF, EDEF)
Accès illimité à tous les contenus (supports, cours, vidéos, exercices, templates)
Nous adaptons le programme de la formation en fonction des besoins de votre entreprise
Des formations sur-mesure qui répondent à vos ambitions stratégiques.
Pour les formations intraentreprise, nos tarifs ne dépendent pas du nombre de stagiaires. Notre organisme de formation est certifié Qualiopi
En inter ou en intra, en présentiel ou à distance, bénéficiez de l’accompagnement d’experts à la fois formateurs et professionnels de terrain.
Des formations e-learning flexibles, accessibles à tout moment, pour monter en compétences à votre rythme.
Les entreprises peuvent abonner leurs collaborateurs un accès illimité à l’ensemble de nos formations.
Le champ de la formation est exonéré de TVA.
Notre métier est aussi de vous accompagner dans l'activation des différents financeurs pour vous éviter le moins de reste à charge possible.

Formations financées via votre opérateur de compétences
Les OPCO (Opérateurs de Compétences) peuvent prendre en charge tout ou partie des frais de formation de vos salariés, dans le cadre du plan de développement des compétences ou de l’alternance. Renseignez-vous auprès de votre OPCO de rattachement.
En savoir +
Aide à la formation pour les indépendants
Les Fonds d’Assurance Formation (FAF) financent les formations des travailleurs indépendants, auto-entrepreneurs, professions libérales et chefs d’entreprise. Le financement dépend de votre code NAF/APE et de l’organisme auquel vous cotisez (FAFCEA, AGEFICE, FIFPL…).
En savoir +
Des aides pour les demandeurs d’emploi
France Travail (ex-Pôle emploi) peut financer vos formations via des dispositifs comme l’AIF (Aide Individuelle à la Formation) ou des achats directs. Parlez-en à votre conseiller pour valider votre projet et vérifier votre éligibilité.
En savoir +
Utilisez vos droits formation en toute autonomie
Le Compte Personnel de Formation (CPF) permet à chaque actif d’utiliser les droits accumulés pour financer des formations éligibles. Accessible directement via l’application Mon Compte Formation, sans accord de l’employeur.
En savoir +
Aides régionales pour la formation professionnelle
Les conseils régionaux proposent des aides financières pour favoriser l’accès à la formation, en particulier pour les jeunes, les demandeurs d’emploi ou les personnes en reconversion. Ces aides varient selon les régions.
En savoir +
Un soutien pour les entreprises en transformation
Le FNE-Formation accompagne les entreprises confrontées à des mutations économiques (transformation digitale, écologique, etc.). Il permet de financer les parcours de formation de leurs salariés, souvent à hauteur de 50 à 100 %, selon les cas.
En savoir +A la fin de cette formation, ajoutez sur votre CV :
Obtenez la certification Maîtriser Spark Avancé : Optimisation et Performances Big Data délivrée par i.m.i. executive solutions.

Découvrez l'impact concret de notre programme sur vos problématiques quotidiennes
Réponse sous 48h
Join 10k+ people to get notified about new posts, news and updates.
Do not worry we don't spam!