ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.)



MÉTHODES NUMÉRIQUES

1. Complexité

1.1. NP-Complétude

2. Partie entière

3. Algorithme d'Héron

4. Algorithme d'Archimède

5. Calcul du nombre d'Euler

6. Systèmes d'équations linéaires

6.1. Une équation à une inconnue

6.2. Deux équations à deux inconnues

6.3. Trois équations à trois inconnues

6.4. N équations à n inconnues

7. Polynômes

8. Régressions et interpolations

8.1. Régression linéaire à une variable explicative

8.1.1. Droite de régression

8.1.2. Méthodes des moindres carrés

8.1.3. Analyse de la variance de la régression

8.2. Régression logistique

8.3. Interpolation polynômiale

8.3.1. Courbes de Bézier

8.3.2. Méthodes d'Euler

8.3.3. Polynôme de collocation

9. Recherche de racines

9.1. Méthodes des parties proportionnelles

9.2. Méthode de la bissection

9.3. Méthode de la sécante (Regula Falsi)

9.4. Méthode de Newton

10. Aires et sommes de riemann

10.1. Méthode des rectangles

10.2. Méthode des trapèzes

11. Programmation linéaire

11.1. Algorithme du simplexe

12. Méthode de Monte-Carlo

12.1. Calcul d'une intégrale

12.2. Calcul de PI

12.3. Dichotomie

13. Analyse en composantes principales (A.C.P.)

14. Analyse factorielle des correspondances (A.F.C.)

15. Khi-2

16. Méthode des différences finies

17. Réseaux de neurones formels

17.1. Modèle de neurone

17.2. Fonctions de transfert

17.3. Architecture de réseau

18. Algorithmes génétiques

18.1. Codage et population initiale

18.2. Les opérateurs

18.2.1. Opérateur de sélection

18.2.2. Opérateur de croisement

18.2.3. Opérateur de mutation

L'analyse en composantes principales (A.C.P.) est une méthode mathématique d'analyse graphique de données qui consiste à rechercher les directions de l'espace qui représentent le mieux les corrélations entre n variables aléatoires (relation linéaire entre elles).

Simplement dit, une A.C.P. permet de trouver des similitudes de comportement d'achat entre les classes des données observées.

Même si l'A.C.P. est majoritairement utilisée pour visualiser des données, il ne faut pas oublier que c'est aussi un moyen :

- De décorréler ces données. Dans la nouvelle base, constituée des nouveaux axes, les points ont une corrélation nulle (nous le démontrerons).

- De classifier ces données en amas (clusters) corrélés (dans l'industrie c'est surtout cette possibilité qui est intéressante!).

Remarque: L'A.C.P. est aussi connue sous le nom de "transformée de Karhunen-Loève" ou de "transformée de Hotelling" et peut aussi bien être appliquée sans programmation V.B.A. dans MS Excel que dans des logiciels spécialisés (ou le temps de calcul sera par contre plus bref... et plus précis aussi...).

Lorsque nous ne considérons que deux effets, il est usuel de caractériser leurs effets conjoints via le coefficient de corrélation. Lorsque l'on se place en dimension deux, les points disponibles (l'échantillon de points tirés suivant la loi conjointe) peuvent être représentés sur un plan. Le résultat d'une A.C.P. sur ce plan est de déterminer les deux axes qui expliquent le mieux la dispersion des points disponibles.

Lorsqu'il y a plus de deux effets, par exemple trois effets, il y a trois coefficients de corrélations à prendre en compte. La question qui a donné naissance à l'A.C.P. est : comment avoir une intuition rapide des effets conjoints?

En dimension plus grande que deux, une A.C.P. va toujours déterminer les axes qui expliquent le mieux la dispersion du nuage des points disponibles..

L'objectif de l'A.C.P. est de décrire graphiquement un tableau de données d'individus avec leurs variables quantitatives de grande taille :

individus/variables

equation

equation

equation

Tableau: 57.1  - Représentation type d'un tableau A.C.P.

Afin de ne pas alourdir l'exposé de cette méthode et de permettre au lecteur de refaire complètement les calculs, nous travaillerons sur un exemple.

Considérons pour l'exemple une étude d'un botaniste qui a mesuré les dimensions de 15 fleurs d'iris. Les trois variables equation mesurées sont :

- equation : longueur du sépale

- equation : largeur du sépale

- equation : longueur du pétale

Les données sont les suivantes :

Fleur n°

equation

equation

equation

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

5.1
4.9
4.7
4.6
5.0
7.0
6.4
6.9
5.5
6.5
6.3
5.8
7.1
6.3
6.5

3.5
3.0
3.2
3.1
3.6
3.2
3.2
3.1
2.3
2.8
3.3
2.7
3.0
2.9
3.0

1.4
1.4
1.3
1.5
1.4
4.7
4.5
4.9
4.0
4.6
6.0
5.1
5.9
5.6
5.8

Tableau: 57.2  - Exemple pratique de données tabulaires A.C.P.

Pour nous un tel tableau de données sera tout simplement une matricée réelle à n lignes (les individus) et à p colonnes (les variables) :

equation   (57.1)

Par suite l'indice i correspondra à l'indice ligne et donc aux individus. Nous identifierons donc l'individu i avec le point ligne equation qui sera considéré comme un point dans un espace affine (cf. chapitre de Calcul Vectoriel) de dimension p. L'indice j correspondra à l'indice colonne donc aux variables. Nous identifierons la variable j avec le vecteur colonne :

equation   (57.2)

c'est donc un vecteur dans l'espace vectoriel de dimension n dans equation.

Nous nous placerons dans la suite suivant deux points de vue : Soit nous prendrons le tableau de données comme n points dans un espace affine de dimension p, soit nous prendrons ce tableau comme p points d'un espace vectoriel de dimension n. Nous verrons qu'il y a des dualités entre ces deux points de vue.

L'outil mathématique que nous allons utiliser ici est l'algèbre linéaire (cf. chapitre d'Algèbre Linéaire), avec les notions de produit scalaire, de norme euclidienne et de distance euclidienne.

Afin de simplifier la présentation, nous allons dans un premier temps considérer que chaque individu, comme chaque variable, a la même importance, le même poids. Nous ne considérerons aussi, que le cas de la distance euclidienne.

Nous allons commencer en centrant les données, c'est-à-dire mettre l'origine du système d'axes au centre de gravité du nuage de points. Ceci ne modifie pas l'aspect du nuage, mais permet d'avoir les coordonnées du point M égales aux coordonnées du vecteur equation et donc de ce placer dans l'espace vectoriel pour pouvoir y faire les calculs! Comme nous supposons dans toute la suite que le poids des individus sont identiques, nous prendrons donc equation avec equation.

Nous considérons le repère orthonormé equation dans la bas canonique equation de equation. Soit donc G le centre de gravité du nuage de point, Comme nous considérons ici chaque variable, comme chaque individu, ayant le même poids, G a alors pour coordonnées dans le repère equation :

equation   (57.3)

avec :

equation   (57.4)

Nous avons alors pour l'instant sous forme graphique :

equation
  (57.5)

Nous appelons "matrice centrée" la matrice :

equation   (57.6)

Remarque: La matrice des données centrées contient les coordonnées centrées (que nous noterons equation) des individus dans le repère equation. Nous nous placerons dans la suite toujours dans ce repère pour le nuage de points des individus et nous prendrons equation.

Pour notre exemple, nous avons :

equation   (57.7)

et pour la matrice centrée :

equation   (57.8)

et sous forme graphique :

equation
  (57.9)

Pour donner une importance identique à chaque variable afin que le type d'unités des mesures n'influence pas l'analyse, nous travaillerons avec les données centrées réduites (cf. chapitre de Statistiques). Pour cela, nous noterons d'abord:

equation   (57.10)

la variance d'échantillon de la variable equation est donc égale à un facteur 1/n près à la norme de cette même variable mais centrée. La matrice des données centrées réduites (sans dimensions) est alors :

equation   (57.11)

Si nous notons equation la matrice diagonale suivante :

equation   (57.12)

Nous avons alors :

equation   (57.13)

Remarque: La moyenne de la variable equation est nulle et donc sa variance est alors 1 (ce qui revient à dire que la norme de la variable centrée réduite est de norme unitaire comme nous allons de suite le démontrer).

Nous définissons la "matrice des données centrées normées" par :

equation   (57.14)

Soit encore (il s'agit simplement de l'erreur quadratique moyenne que nous avions introduit dans le chapitre de Statistiques) :

equation   (57.15)

La terminologie vient bien évidemment du fait que la variable (vecteur) equation est de norme unitaire. En effet :

equation   (57.16)

Ce qui donne:

equation   (57.17)

Nous avons graphiquement :

equation
  (57.18)

Représenter le nuage de points des données centrées réduites ou centrées normées ne modifie rien à la forme de celui-ci. En effet, la différence entre les deux n'est qu'un changement d'échelle.

L'information intéressante pour les individus est la distance entre les points! En effet plus cette distance sera grande entre deux individus equation et equation plus les deux individus seront différents et mieux on pourra les caractériser. Mais il faut d'abord choisir une distance. Nous prendrons la distance euclidienne (cf. chapitre de Topologie) :

equation   (57.19)

Les figures suivantes montrent les projections orthogonales dans l'espace de ce nuage de points respectivement dans les plans equation et enfin dans equation qui est la meilleure projection, appelé "plan factoriel" (ou parfois "diagramme des scores"), dans le sens où elle respecte le mieux les distances entre les individus (in extenso, elle déforme moins le nuage de points dans l'espace). L'objectif de l'A.C.P. est de déterminer ce meilleur plan et nous démontrerons comment.

equation
  (57.20)

equation
  (57.21)

equation
  (57.22)

Et la vue plane de chacune des projections :

equation
  (57.23)

Avant de déterminer le plan factoriel, nous allons maintenant chercher à détecter les liens possibles entre les variables.

Nous rappelons (cf. chapitre de Statistiques) que la covariance entre deux variables equation et equation est donnée par :

equation   (57.24)

et que le coefficient de corrélation linéaire (cf. chapitre de Statistiques) est :

equation   (57.25)

Nous noterons par la suite:

equation et equationequation   (57.26)

les matrices des covariances et de corrélations carrées (toutes deux étant pour rappel des matrices carrées et symétriques) avec equation.

Nous voyons facilement que la matrices des covariances et au coefficient 1/n près, la matrice des produit scalaires canoniques des vecteurs de la matrice des données centrées equation (en d'autres termes, chaque composante de la matrice des covariances est égale au produit scalaire des variables centrées). Nous en déduisons la relation suivante :

equation   (57.27)

La matrice des covariances-variances (puisque comme nous l'avons vu dans le chapitre de Statistiques, la diagonale contient les variances) est un outil connu d'interprétation sur ce site. Par contre ce qui est nouveau et va nous être très utile pour déterminer le plan factoriel est la matrice de corrélation linéaire qui peut aussi être écrite sous la forme suivante :

equation   (57.28)

Ce qui donne pour notre exemple où nous avons trois variables, la matrice carrée suivante (que les données soient centrées ou non les composantes de la matrice sont identiques):

equation   (57.29)

Pour continuer, toujours dans le but de déterminer le plan factoriel, définissons le concept d'inertie de nuage de point.

Définition: Nous appelons "inertie d'un nuage de points" la quantité :

equation   (57.30)

G est le centre de gravité du nuage de point et equation le point de equation de coordonnées equation.

Remarque: Le carré de la distance est pris par anticipation des développements qui vont suivre.

Ensuite, démontrons que nous avons la relation suivante :

equation   (57.31)

Démonstration:

equation   (57.32)

equationC.Q.F.D

Nous allons dans toute la suite travailler avec les données centrées normées, in extenso avec la matrice Z. Les points equation auront donc ici comme coordonnées equation.

Le problème est maintenant de trouver le meilleur espace affine de dimension p dans le sens où il respecte au mieux les distances entre les points. Pour cela, nous allons rechercher la meilleure droite vectorielle equation qui est parfaitement déterminée par le vecteur equation. Appelons equation la projection orthogonale de equation sur la droite equation. Alors notre problème est de trouver la droite (in extenso le vecteur u) qui fasse que la somme des carrés des distances entres les points equation soit maximale. Nous écrirons le problème sous la forme d'un problème de programmation quadratique :

equation   (57.33)

Or ici, nous avons :

equation   (57.34)

En effet, le centre de gravité du nuage de point projeté est aussi l'origine. Par suite, notre problème peut s'écrire :

equation   (57.35)

Lui même équivalent donc à :

equation   (57.36)

Résolvons donc ce problème :

Tout d'abord, puisque equation est la projection orthogonale du point equation sur equation nous avons equation pour tout i avec equation. Par suite les coordonnées des points equation sur la droite equation sont :

equation   (57.37)

Par suite, nous avons :

equation   (57.38)

Ici nous cherchons le vecteur unitaire equation. La matrice Z nous est parfaitement connue. Or, nous avons :

equation   (57.39)

La matrice de corrélation R est symétrique donc, selon le théorème spectral vu dans le chapitre d'Algèbre Linéaire, elle est diagonalisable dans une base orthonormée de vecteurs propres. Ainsi, nous avions démontré dans le théorème spectral que :

equation   (57.40)

est diagonale si R est symétrique et S orthogonale (qui donc une matrice carrée equation dans notre exemple!). Donc :

equation   (57.41)

et comme S avait été démontrée comme orthogonale, nous avons (cf. chapitre d'Algèbre Linéaire) :

equation   (57.42)

Donc :

equation   (57.43)

où nous choisissons pour equation la matrice diagonale des valeurs propres mises en ordre décroissant : equation.

Nous avons donc :

equation   (57.44)

Mais U étant orthogonale nous avons par conséquent :

equation   (57.45)

et ceci provient du fait que la matrice orthogonales est comme nous l'avions démontré dans le chapitre d'algèbre linéaire une isométrie (elle conserve donc la norme!).

Comme les valeurs propres sont dans l'ordre croissant nous avons :

equation   (57.46)

Or le terme entre parenthèses est strictement inférieur ou égal à1. Donc :

equation   (57.47)

Soit :

equation   (57.48)

Or rappelons que notre objectif est de maximiser cette inégalité. En d'autres termes de chercher equation tel que l'égalité soit respectée. Or nous voyons immédiatement que cela est faire si equation. Ainsi, une solution de notre problème de maximisation est donc :

equation   (57.49)

soit puisque equation qui est alors le premier vecteur propre de R (puisque R se diagonalise dans cette base) associé à la plus grande valeur propre equation. D'où le fait que cette solution soit notée souvent sous la forme equation avec equation (il est donc relativement aisé de déterminer S avec des logiciels lorsque R et equation sont connus).

Une fois que l'on a trouvée la première droite vectorielle, nous cherchons une deuxième droite dans le sous-espace vectoriel orthogonal à la droite vectorielle qui maximise l'inertie du nuage de point projeté. Nous démontrons, et devinons, que la solution est donnée par la droite vectorielle dirigée par le vecteur propre associé à la deuxième valeur propre de la matrice de corrélation est ainsi de suite...

Ainsi, nous obtenons une nouvelle base equation dont un des plans constitue le plan factoriel. Cependant il nous faut connaître les composantes de Z dans cette base. Comme cette base a été construite sous la condition que R y est diagonalisable via la matrice S alors cette dernière matrice est l'application linéaire qui va nous permettre d'exprimer Z dans la base equation via la relation :

equation   (57.50)

Ainsi, dans notre exemple les trois valeurs propres sont (cf. chapitre d'Algèbre Linéaire) :

equation   (57.51)

Remarque: Certains logiciels indiquent les poids en % respectifs et cumulés pour chacune des valeurs propres. Ainsi, nous avons dans le cas présent respectivement les poides suivants en % du total:

equation   (57.52)

Nous avons alors comme cordonnées des points equation dans la base equation :

equation   (57.53)

Les coordonnées des projections du nuage de points dans le meilleur plan défini par les vecteurs equation sont donc les deux premières colonnes de la matrice précédente (correspondant donc à la longueur du sépale et la largeur du sépale).

Effectivement nous voyons immédiatement que ce sont ces deux colonnes qui maximiseront la somme des normes dans le plan donné:

equation
  (57.54)

Un logiciel comme Minitab 15.1 (référence dans l'industrie de la gestion de la qualité) donne les informations suivantes pour les valeurs propres (info pas très utile sous forme graphique... à mon avis):

equation
equation
  (57.55)

et le plan factoriel suivant (resterait à savoir comment les valeurs sont calculées car elles ne sont pas identiques à celles que nous avons obtenues ici... mais la forme graphique est bien juste et c'est le principal!):

equation
  (57.56)

ANALYSE FACTORIELLE DES CORRESPONDANCES (A.F.C.)

L'analyse factorielle des correspondances, en abrégée AFC, est une méthode statistique d'analyse des données. La technique de l'AFC est essentiellement utilisée pour de grands tableaux de données toutes comparables entre elles (si possible exprimées toutes dans la même unité, comme une monnaie, une dimension, une fréquence ou toute autre grandeur mesurable). Elle peut en particulier permettre d'étudier des tableaux de contingence (ou tableau croisé de co-occurrence). Elle sert à déterminer et à hiérarchiser toutes les dépendances entre les lignes et les colonnes du tableau.

Voyons directement un exemple:

Considérons le tableau suivant des superficies des types de peuplements d'arbres en Picardie en 1984 en hectares:

 

Feuillus

Résineux

Mixtes

Total par dép.

L'Aisne (A)

106'500

3'380

1'470

111'350

L'Oise (O)

101'700

10'000

0

111'700

La Somme (S)

45'200

4'350

50

49'600

Total

253'400

17'730

1'520

272'650

Tableau: 57.3  - Tableau de contingence (tableau croisé) de l'A.F.C.

Nous souhaitons analyser s'il existe les degrés de ressemblance et de différence entre les variables. Remarquons, que nous ne cherchons pas à comparer l'égalité des moyennes ou des variances donc les outils statistiques vus dans le chapitre du même nom ne sont pas adaptés à ce genre d'analyse.

Si nous choisissons la distance euclidienne:

equation   (57.57)

sur les données brutes pour mesurer ces différences entre départements, nous obtenons les écarts suivants :

equation   (57.58)

et ainsi de suite pour les autres régions. Nous obtenons alors:

equation   (57.59)

Nous voyons en regardant le tableau et avant tout calcul que les départements de l'Aisne et l'Oise se ressemblent alors que le département de la Somme se diffère nettement. Les distances obtenues mettent en évidence cette observation.

Mais! Pourtant, sur dans le tableau ci-dessus les profils de l'Oise et de la Somme, avec une forêt mixte très faible, sont pourtant très proches en proportion.

Dans ce contexte, nous voyons que la distance euclidienne transcrit les différences de masse entre les départements. En d'autres termes, l'Aisne et l'Oise se ressemblent car leurs superficies sont proches. Pour éliminer l'artefact lié aux ordres de grandeur, il nous faut transformer les données en pourcentage. Nous obtenons alors:

 

Feuillus

Résineux

Mixtes

%Région

Aisne

95.6

3.0

1.3

40.8

Oise

91.0

9.0

0.0

41.0

Somme

91.1

8.8

0.1

18.2

Tableau: 57.4  - Transformation du tableau de contingence en pourcents

Si nous choisissons la distance euclidienne sur les proportions (données relatives), nous obtenons:

equation   (57.60)

soit:

equation   (57.61)

Cette fois, l'Oise et la Somme apparaissent bien comme se ressemblant le plus avec leurs forêts. Nous voyons que travailler avec les données relatives semblent donc plus pertinent dans ce cas!

Maintenant, nous allons emprunter une idée des économistes qui lorsqu'ils ont des tableaux du même genre que le précédent calculent ce qu'ils appellent "l'index" ou "élasticité" et qui est donné par:

equation   (57.62)

Voici un exemple obtenu avec les tableaux croisés dynamiques de MS Excel qui inclut la fonction Index:

equation
  (57.63)

et en activant la fonction Index:

equation
  (57.64)

Pour voir d'où viennent ces valeurs, regardons par exemple l'article Desk dans la région Alberta a un rendement de:

equation   (57.65)

par rapport à toutes les régions ce qui est au-dessus de la valeur de 33.33% qu'aurait comme rendement cette article dans toutes les régions confondues s'il n'y avait pas de préférences de région!

La région Alberta a elle un rendement de:

equation   (57.66)

par rapport à toutes les régions ce qui est en-dessous des 33.33% de rendement qu'elle aurait s'il n'y avait de préférences de région. Ainsi, ce tableau d'index permet de savoir si les différences sont significatives!!

Le rapport donne donc:

equation   (57.67)

ce qui montre un fort décalage entre la valeur obtenue et la valeur que nous aurions si les proportions étaient respectées.

C'est donc une sorte de calcul de conformité: si le rapport valait 1, c'est que le rendement régional des ventes de cet article particulier serait conforme au rapport de toutes les ventes de cette région relativement à un marché national. Il n'y aurait alors pas d'anomalies Voyons cela par exemple pour nos arbres où nous avions les effectifs observés:

 

Feuillus

Résineux

Mixtes

Total par dép.

L'Aisne (A)

106'500

3'380

1'470

111'350

L'Oise (O)

101'700

10'000

0

111'700

La Somme (S)

45'200

4'350

50

49'600

Total

253'400

17'730

1'520

272'650

Tableau: 57.5  - Tableau de contingence (tableau croisé) de l'A.F.C.

et pour lequel nous obtenons le tableau des index effectifs observés suivant dans MS Excel:

equation
  (57.68)

et nous voyons encore clairement à l'aide de ce tableau que ce sont l'Oise et la Somme qui se ressemblent le plus!

Avant de continuer, nous pourrions nous poser la question extrêmement importante suivante: Quels seraient les effectifs théoriques qui auraient été obtenus si les proportions des arbres dans les régions étaient rigoureusement équivalentes à la proportion d'ensemble (soit de telle manière à ce que les index soient tous unitaires)?

Eh bien simplement en faisant le calcul suivant:

 

Feuillus

Résineux

Mixtes

Aisne

=(253'400/272'650)*111'350
=103'488

=(17'730/272'650)*111'350
=7'240

=(1'470/272'650)*111'350
=620

Oise

=(253'400/272'650)*111'700
=103'813

=(17'730/272'650)*111'700
=7'263

=(1'470/272'650)*111'700
=622

Somme

=(253'400/272'650)*49'600
=46'098

=(17'730/272'650)*49'600
=3'225

=(1'470/272'650)*49'600
=276

Tableau: 57.6  - Respect des proportions de l'A.F.C.

Et nous obtenons avec ces nouvelles valeurs le tableau des index des effectifs théoriques suivant dans MS Excel:

equation
  (57.69)

ce qui montre que les proportions sont maintenant respectées! Paranthèse fermée (mais sur laquelle nous reviendrons un peu plus loin)!

Eh bien quand nous voulons faire de l'analyse factorielle de correspondance, notre relation:

equation   (57.70)

devient alors:

equation   (57.71)

soit:

equation   (57.72)

Cette fois encore, l'Oise et la Somme apparaissent bien comme se ressemblant le plus.

La distance ci-dessus se nomme la "métrique du Khi-2" car elle ressemble (mais c'est tout!) à la distance utilisée dans le test d'ajustement du même nom (cf. chapitre de Statistiques) mais ici, elle permet seulement de mettre en place une hiérarchie dans le cadre d'un tableau de contingences et d'observer les variables similaires de manière plus aisée!!


page suivante : 15. Khi-2