KHI-2



Pendant l'introduction de la méthode précédente permettant de comparer des effectifs (valeurs) et détecter lesquels étaient les plus proches, nous avons donné le tableau des effectifs observés:

 

Feuillus

Résineux

Mixtes

Total par dép.

L'Aisne (A)

106'500

3'380

1'470

111'350

L'Oise (O)

101'700

10'000

0

111'700

La Somme (S)

45'200

4'350

50

49'600

Total

253'400

17'730

1'520

272'650

Tableau: 57.7  - Tableau de contingence de l'A.F.C.

et nous avons montré comment trouver le tableau des effectifs théoriques (arrondis à l'entier le plus proche) dans les cas où les proportions auraient dû éventuellement être respectées:

 

Feuillus

Résineux

Mixtes

Total par dép.

L'Aisne (A)

103'488

7'240

620

111'350

L'Oise (O)

103'813

7'263

622

111'700

La Somme (S)

46'098

3'225

276

49'600

Total

253'400

17'730

1'520

272'650

Tableau: 57.8  - Tableau de contingence avec effectifs théoriques

MÉTHODES NUMÉRIQUES

1. Complexité

1.1. NP-Complétude

2. Partie entière

3. Algorithme d'Héron

4. Algorithme d'Archimède

5. Calcul du nombre d'Euler

6. Systèmes d'équations linéaires

6.1. Une équation à une inconnue

6.2. Deux équations à deux inconnues

6.3. Trois équations à trois inconnues

6.4. N équations à n inconnues

7. Polynômes

8. Régressions et interpolations

8.1. Régression linéaire à une variable explicative

8.1.1. Droite de régression

8.1.2. Méthodes des moindres carrés

8.1.3. Analyse de la variance de la régression

8.2. Régression logistique

8.3. Interpolation polynômiale

8.3.1. Courbes de Bézier

8.3.2. Méthodes d'Euler

8.3.3. Polynôme de collocation

9. Recherche de racines

9.1. Méthodes des parties proportionnelles

9.2. Méthode de la bissection

9.3. Méthode de la sécante (Regula Falsi)

9.4. Méthode de Newton

10. Aires et sommes de riemann

10.1. Méthode des rectangles

10.2. Méthode des trapèzes

11. Programmation linéaire

11.1. Algorithme du simplexe

12. Méthode de Monte-Carlo

12.1. Calcul d'une intégrale

12.2. Calcul de PI

12.3. Dichotomie

13. Analyse en composantes principales (A.C.P.)

14. Analyse factorielle des correspondances (A.F.C.)

15. Khi-2

16. Méthode des différences finies

17. Réseaux de neurones formels

17.1. Modèle de neurone

17.2. Fonctions de transfert

17.3. Architecture de réseau

18. Algorithmes génétiques

18.1. Codage et population initiale

18.2. Les opérateurs

18.2.1. Opérateur de sélection

18.2.2. Opérateur de croisement

18.2.3. Opérateur de mutation

La construction du dernier tableau ci-dessus présuppose par exemple que les trois régions sont dans des conditions identiques pour tout ce qui concerne la croissance et la multiplication des arbres et que le nombre d'arbres est en relation de cause à effet directe!!!! avec les régions et qu'il n'y a pas d'autres causes intermédiaires.... ce qui est une hypothèse forte!

Mais sous cette hypothèse, supposons que nous souhaiterions savoir si les différences observées entre le nombre d'arbres et les régions sont significatives ou purement aléatoires à cause de l'échantillon expérimental? Entre d'autres termes, nous voulons savoir si le nombre d'arbre dépend réellement des régions dans lesquelles ils poussent où si ces valeurs que ne sont que dues au hasard de l'échantillon?

Pour répondre à cette question il faut d'abord une référence. Et cette référence est justement l'hypothèse de lien causal direct (proportions respectées) que nous avons donné juste précédemment.

Si nous considérons que chaque case du tableau des effectifs observés correspond à l'issue d'une variable aléatoire de loi inconnue et que chaque cas du tableau théorique (du moins la classe d'effectifs) est considéré comme issu d'une variable aléatoire suivant une loi binomiale alors nous pouvons utiliser le test d'ajustement du Khi-2:

equation   (57.73)

(cf. chapitre de Statistiques) pour avoir une bonne idée (mais qui reste quand même approximative!) si les différences entre les valeurs des effectifs observés est dû au hasard ou sont réels. Or, si D est petit, la probabilité que ce soit dû au hasard est grande mais si D est grand alors nous avons une différence réelle (donc nous utilisons le test d'ajustement du Khi-2 mais dans le sens inverse!).

Reste à déterminer le nombre de dégrées de liberté de loi equation que suit cette somme dans ce type de configuration!

Dans le cas particulier (mais facilement généralisable par récurrence) d'une table à deux entrées avec deux variables catégorisées X avec l niveaux et Y avec c niveaux aura respectivement l lignes et c colonnes.

Ainsi, la table aura bien évidemment equation cellules. La table des effectifs théoriques (dont chaque cellule est considérée comme une variable aléatoire) aura chaque cellule entièrement déterminée par la somme des autres tel que les degrés de liberté s'écriront alors en toute logique comme nous l'avons vu dans le chapitre de Statistiques:

equation   (57.74)

Par exemple, en prenant notre exemple des forêts, c'est le total de totaux de 272'650 qui nous permet d'écrire cette dernière relation et ainsi de déterminer la valeur d'une cellule éventuellement vide, toutes les autres étant données!

Un test du khi-2 sur ce type de table teste l'hypothèse d'indépendance contre l'hypothèse alternative de dépendance. Sous l'hypothèse d'indépendance nous estimons qu'il ya besoin de seulement:

equation   (57.75)

valeurs sur les N pour pouvoir en déterminer la totalité (en supposant implicitement connues les sommes par ligne et par colonne).

Ainsi, si vous avec une table de 2 lignes par 2 colonnes, il vous suffit si vous connaissez les totaux des lignes et des colonnes, d'avoir 2 valeurs (soit (2-1)+(2-1)) pour déterminer les 2 manquantes. Le raisonnement s'applique aussi pour une table de 3 lignes par 3 colonnes où il vous suffit d'avoir au moins 4 valeurs (soit (3-1)+(3-1)) pour déterminer les 5 manquantes.

Les degrés de liberté pour le khi-2 sont alors:

equation   (57.76)

C'est cette relation qui nous dit (trivialement!) que si dans un tableau de 2 lignes par 2 colonnes comprenant donc 4 cellules (totaux des lignes et colonnes étant aussi connus!) que étant donnée une seule des valeurs (ddl valant 1), nous pouvons déterminer les 3 autres valeurs manquantes.

Voici donc une définition possible du nombre de degrés de libertés: C'est le nombre maximum de valeurs du modèle telles qu'aucune d'entre elle n'est calculable à partir des autres.

De même, pour un tableau de 3 lignes par 3 colonnes comprenant 9 cellules comme c'est le cas de notre exemple dans ce chapitre avec les forêts, la connaissance de 4 cellules seules permet grâce aux totaux en ligne et colonnes de déterminer les 5 autres qui seraient éventuellement non connues.

D'où la relation dans le cadre de l'application du khi-2 de la relation finale:

equation   (57.77)

en faisant usage des notations utilisées dans l'industrie.

Dans le cadre de notre exemple nous avons:

equation   (57.78)

et la p-value de cette valeur avec la loi du khi-2 à quatre degrés de liberté:

equation   (57.79)

est tellement proche de zéro (non significatif) que nous avons aucune chance de nous tromper en affirmant que les différences observées dans le tableau sont significatives entre les 3 forêts.

Nous obtenons un résultat similaire entre l'Oise et la Somme alors qu'avec l'AFC nous avons vu que ces deux forêts se ressemblaient beaucoup.

Remarque: Dans la pratique il est souvent d'usage de prendre le p-value à 5% pour considérer la probabilité attachée aux écarts observés comme significative ou non significative.

MÉTHODE DES DIFFÉRENCES FINIES

Dans le domaine des méthodes numériques, nous pouvons être amenés à rechercher la solution d'une équation aux dérivées partielles. Parmi les méthodes de résolutions couramment pratiquées, la méthode des différences finies ou M.D.F. est la plus facile d'accès, puisqu'elle repose sur deux notions : la discrétisation des opérateurs de dérivation/différentiation (assez intuitive) d'une part, et la convergence du schéma numérique ainsi obtenu d'autre part.

Prenons un exemple fameux (car très scolaire) qui n'est qu'un cas particulier et simpliste d'application de la M.D.F.

Rappelons que nous avons démontré dans le chapitre de Thermodynamique l'équation de la chaleur suivante (nous présentons ici cette équation réduite à une dimension spatiale):

equation   (57.80)

et remarquons que cette équation n'est pas très générale... (elle n'est pas relativiste et ne prend pas en compte la chaleur dégagée sous forme de rayonnement par le matériau considéré ni plein d'autres facteurs....).

Nous pouvons considérer (cf. chapitre de Calcul Différentiel Et Intégral) que:

equation   (57.81)

et:

equation   (57.82)

De même:

equation   (57.83)

L'équation de la chaleur devient alors:

equation   (57.84)

Après réarrangement nous avons:

equation   (57.85)

Si nous regardons cette relation de plus près, nous observons qu'il s'agit d'une simple récursivité. Il suffit de connaître la distribution equation pour déterminer ensuite toutes les autres valeurs puisque:

equation   (57.86)

et :

equation   (57.87)

etc. Il est possible de mettre en oeuvre une telle simulation rien qu'avec un petit tableau et un peu de temps... h est appelé alors le "pas de maillage" du modèle.

Pour le lecteur souhaitant s'entraîner.... une barre de Fer longitudinale de 1 kilogramme a une capacité calorifique massique de equation, une densité de equation et sa conductivité thermique est de equation.


page suivante : 17. Réseaux de neurones formels