Analyse des données

Analyse des données: L’analyse des données est un domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données. On peut également chercher à classer les données en différents sous groupes plus homogènes: un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique des spams. En résumé, l'Analyse des données relève de la représentation graphique, et de la classification .

Comme aperçu d'un type d'analyse des données, ou comme elle est appelée parfois de data profiling, on peut présenter celui de l'analyse simultanée de l’âge, du sexe et de la catégorie socioprofessionnelle des joueurs de golf. La bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur « facteur d'impact ».

Sommaire

1 Définition

2 Histoire

3 Domaines d'application

4 Représentation graphique

4.1 ACP

4.2 AFC

4.3 ACM

4.4 Analyse canonique

5 Classification

5.1 Classification automatique

5.2 Analyse discriminante

6 Logiciels

7 Notes et références

7.1 Notes

7.2 Références

7.2.1 Ouvrages spécialisés

7.2.2 Articles publiés sur internet

8 Voir aussi

8.1 Bibliographie

8.2 Articles connexes

8.2.1 Liens internes

8.2.2 Liens externes

Définition

Dans l'acception française, la terminologie analyse des données désigne un sous-ensemble de ce qui est appelé plus généralement la statistique multivariée.

Elle comprend principalement l’analyse en composantes principales (ACP), utilisée pour des données quantitatives, et ses méthodes dérivées : l'analyse factorielle des correspondances (AFC) utilisée sur des données qualitatives (tableau d’association) et l'analyse factorielle des correspondances multiples (AFCM ou ACM) généralisant la précédente.

L'Analyse canonique et l'analyse canonique généralisée, méthodes plus théoriques, généralisent plusieurs de ces méthodes et vont au-delà des méthodes de description^{[i 1]}.

La classification automatique, l’analyse factorielle discriminante (AFD) ou analyse discriminante utilisent un autre type de représentation des individus permettant d’identifier des groupes homogènes au sein de la population du point de vue des variables étudiées.

L'analyse en composantes indépendantes (ACI), plus récente, issue de la physique du signal et connue initialement comme Méthode de séparation aveugle de source, est plus proche intuitivement des méthodes de classification non supervisée. L'iconographie des corrélations pour des données qualitatives et quantitatives, organise les corrélations entre variables sous la forme de graphes.

En dehors de l'école française, l'analyse des données multivariée est complétée par la méthode de Poursuite de projection de John Tukey, et les méthodes de Quantification de Chikio Hayashi, dont la Quantification de type III est équivalente à l'AFC^{[i 2]}^,^{[i 3]}^,^{[Note 1]}. L'analyse factorielle anglo-saxone, ou « Factor Analysis », est proche de l'ACP, sans être équivalente, car elle utilise les techniques de régression pour découvrir les variables latentes.

Ces méthodes permettent notamment de manipuler et de synthétiser l’information provenant de tableaux de données de grande taille. Pour cela, il est très important de bien estimer les corrélations entre les variables que l’on étudie. On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables.

Histoire

On pourrait dire que les pères de l’analyse des données sont Jean-Paul Benzécri, John Tukey (sous le terme de « Exploratory Data Analysis » ou EDA) et Chikio Hayashi (sous le terme de « Data Sciences »). Mais, bien avant eux, Karl Pearson en 1901 établit les prémisses de l’analyse en composantes principales^{[i 4]} développée en 1933 par Harold Hotelling qui définit en 1936 l'Analyse canonique.

Richardson et Kuder en 1933, cherchant à améliorer la qualité des vendeurs de « Procter & Gamble » utilisèrent ce qu'on appellera plus tard l'algorithme « Reciprocal averaging » bien connu en ACP^{[i 5]}. H. O. Hirschfeld, dans sa publication « A connection between correlation and contingency » découvrit les équations de l'analyse des correspondances^{[i 6]}.

Charles Spearman inventa l'analyse factorielle en 1904, que completa Louis Leon Thurstone dans son ouvrage sur l'analyse multi factorielle en 1931^{[i 7]}.
Jean-Paul Benzécri et Brigitte Escofier-Cordier proposèrent l'Analyse factorielle des correspondances en 1962-65, mais en 1954 Chikio Hayashi avait déjà établi les fondations de cette méthode sous le nom Quantification de type III^{[i 2]}.

L'analyse des correspondances multiples fut initiée par L.Guttman en 1941, C.Burt en 1950 et à C.Hayashi en 1956^{[i 5]}. Cette technique a été développée au Japon en 1952 par Shizuhiko Nishisato sous la dénomination « Dual Scaling »^{[i 5]}^,^{[i 8]} et aux Pays-bas en 1990 sous le nom de « Homogeneity analysis »^{[i 9]} par Albert Gifi^{[i 5]}.

Et vint l'ordinateur! Celui-ci permit les calculs complexes, les diagonalisations, les recherches de valeurs propres....

La classification trouva son maître, entre 1735 et 1758, en la personne de Carl von Linné qui mit en place à cette époque les fondements de la nomenclature binomiale et la taxinomie moderne^{[b 1]}. R. Sokal et P Sneath présentèrent en 1963 des méthodes quantitatives appliquées à la taxinomie^{[b 2]}.

Les tableaux de contingences sont présents bien plus tôt dans l'histoire : l'invincible armada est décrite par Paz Salas et Alvarez dans un libre publié en 1588 sous la forme d'un tableau où les lignes représentent les flottes de navires et les colonnes les caractéristiques telles que le tonnage, le nombre de gens d'armes,...Nicolas de Lamoignon de Basville, intendant du roi Louis XIV, comptait et caractérisait les couvents et le monastères de la région du Languedoc en 1696^{[i 10]}.

L'analyse des données est donc une technique issue du XX^e siècle, avec des racines remontant parfois bien loin dans le passé, et dont les foyers d'apparition et d'expansion se répartissent tout autour du globe.

Domaines d'application

Bien sûr, l'analyse des données est utilisée pour cerner les résultats des enquêtes d'opinion par exemple avec l'ACM ou l'AFC^{[i 11]}.

Mais J-P Benzécri nous donne aussi des exemples de l'utilisation de l'analyse des correspondances dans le cadre de l'apprentissage ^{[b 3]}, de l'hydrologie^{[b 4]}, de la biochimie^{[b 5]}.

Les linguistes utilisent l'analyse de texte et les méthodes d'analyse des données pour par exemple situer un député sur l'échiquier politique en analysant la fréquence d'usage de certains mots^{[b 6]}. Brigitte Escofier-Cordier a analysé quelques éléments du vocabulaire utilisé dans la pièce de Racine, Phèdre, pour montrer comment l'auteur se sert du vocabulaire pour ancrer ses personnages dans la hiérarchie sociale^{[i 12]}.

L'analyse des données est intéressante pour comprendre la structure d'une ville et son urbanisme^{[i 13]}, pour analyser certaines caractéristiques du génome^{[b 7]} ; certains chercheurs utilisent l'ACP pour la reconnaissance des visages^{[i 14]}

En épidémiologie, l'inserm met à disposition ses données qu'ont exploitées Husson et al. via l'AFC pour caractériser les tranches d'ages en France par leurs causes de mortalité^{[b 8]}.

Le domaine du sport est très friand de statistiques : le sport s'intéresse à son image^{[b 9]}, le sociologue cherche à savoir si la sociabilité des adeptes d'un sport est influencée par sa pratique^{[i 15]}, la biométrie humaine caractérise la morphologie du sportif selon le sport qu'il pratique et dans le cas de sports collectifs le poste qu'il occupe dans l'équipe^{[i 16]}, etc.

La sociologie elle aussi utilise beaucoup l'analyse des données pour comprendre la vie et le développement de certaines populations comme celles du Liban, de la Colombie ou de la Tunisie dont les études sont présentées par J.P. Benzécri^{[b 10]}.

La Microfinance s'est aussi emparée de l'analyse des données pour évaluer les risques et caractériser les populations ^{[i 17]}.

L'industrie de l'assurance, forte consommatrice de données depuis longtemps, se sert de l'analyse des données pour l'évaluation des risques et la tarification à priori^{[i 18]}.

Représentation graphique

La représentation des données est le domaine des analyses factorielles AFC, ACP, ACM^{[i 19]}. Ces méthodes permettent de représenter le nuage de points à analyser dans un plan ou dans un espace à trois dimensions, sans trop de perte d'information, et sans hypothèse statistique préalable^{[i 20]}. En mathématiques, elles exploitent le calcul matriciel et l'analyse des vecteurs et des valeurs propres.

ACP

Article principal : Analyse en composantes principales.

ACP : contribution des variables aux deux premières composantes principales d'après une présentation effectuée par FG Carpentier sur sa page "Analyse en composantes principales avec R"^{[i 21]} à l'aide du logiciel R sur les données Budgets-Temps de l'ONU, étude effectuée en 1967

ACP : contribution des individus aux deux premières composantes principales d'après une présentation effectuée par FG Carpentier sur sa page "Analyse en composantes principales avec R"^{[i 21]} à l'aide du logiciel R sur les données Budgets-Temps de l'ONU, étude effectuée en 1967

L'Analyse en composantes principales est utilisée pour réduire p variables corrélées en un nombre q de variables non corrélées de telles manières que les q variables soient des combinaisons linéaires des p variables initiales, que leur variance soit maximale et que les nouvelles variables soient orthogonales entre elles suivant une distance particulière^{[i 22]}^,^{[i 23]}^,^{[i 24]}. En ACP, les variables sont quantitatives.

Les composantes, les nouvelles variables, définissent un sous-espace à q dimensions sur lequel sont projetés les individus avec un minimum de pertes d'information. Dans cet espace le nuage de points est plus faclement représentable et l'analyse est plus aisée^{[b 11]}. En Analyse des correspondances, la représentation des individus et des variables ne se fait pas dans le même espace.

La mesure de la qualité de représentation des données peut être effectuée à l'aide du calcul de la contribution de l'inertie de chaque composante à l'inertie totale. Dans l'exemple donnée sur les deux images ci-contre la première composante participe à hauteur de 45,89% à l'inerte totale , la seconde à 21,2%.

Plus les variables sont proches des composantes et plus elles sont corrélées avec elles. L'analyste se sert de cette propriété pour l'interprétation des axes^{[b 12]}. Dans l'exemple ci-contre les deux composantes principales représentent l'activité principale et la principale activité secondaire dans lesquelles les Femmes (F) et les Hommes (H) mariés (M) ou célibataires (C) aux Usa (U) ou en Europe de l'ouest (W) partagent leur journée. A droite est illustré le cercle des corrélations où les variables sont représentées en fonctions de leur projection sur le plan des deux premières composantes. Plus les variables sont bien représentées et plus elles sont proche du cercle. Le cosinus de l'angle formé par deux variables est égal au coefficient de corrélation entre ces deux variables^{[i 25]}.

AFC

Article principal : Analyse factorielle des correspondances.

Analyse factorielle des correspondances (plan factoriel F2-F3) des données des élections régionales de 2004 en Ile de France - fichier FG Carpentier - Université de Brest - France

Analyse factorielle des correspondances (plan factoriel F1-F2) des données des élections régionales de 2004 en Ile de France - fichier FG Carpentier - Université de Brest - France

L'AFC traite les tableaux de contingence de deux variables nominales - variables qualitatives dont les valeurs n'ont pas de lien entre elles. Le principe de l'AFC est identique à celui de l'ACP. On cherche les axes explicatifs qui sous-tendent le tableau de fréquences de deux variables qualitatives. En fait, une AFC est une ACP sur des tableaux dérivés du tableau initial^{[Note 2]}. Ceux-ci sont les tableaux des profils-lignes et des profils-colonnes. Si le tableau initial possède p lignes et q colonnes, et si $n i j$ est son élément générique, le tableau des profils-lignes a pour élément générique $\frac {n_{ij}}{n_{i.}}$ , celui des profils-colonnes $\frac {n_{ij}}{n_{.j}}$ . Les profils-lignes forment un nuage de p points dans $\mathbb{R}^q$ qu'on munit de la métrique $d_{\chi^2}^2(i,i^{'})=\sum_{j=1}^q\frac{n}{n_{.j}}(\frac{n_{ij}}{n_{i.}} - \frac{n_{i^{'}j}}{n_{i^{'}.}} )^2$ . On a une métrique équivalente sur $\mathbb{R}^p$ pour les profils-colonnes^{[b 13]}.

Il y a au moins deux différences entre une ACP et une AFC : la première est qu'on peut représenter les individus et les variables dans un même graphique, la seconde concerne la similarité^{[b 14]}. Deux points-lignes sont proches dans la représentation graphique, si les profils-colonnes sont similaires. Par exemple sur le graphique de gauche ci-contre PARIS et les YVELINES ont votés d'une manière similaire, ce qui n'est pas évident quand on regarde le tableaux de contingence initial puisque le nombre de votants est assez différent dans les deux départements. De même deux points-colonnes (dans l'exemple ci-contre ce sont les candidats) sont proches graphiquement si les profils-lignes sont similaires. Dans l'exemple, les départements ont votés pour BAYROU et LEPEN de la même manière. On ne peut pas comparer simplement les points-lignes et les points-colonnes^{[Note 3]}^,^{[i 26]}.

La qualité de la représentation graphique peut être évaluée globalement par la part du $χ 2$ expliquée par chaque axe (mesure de la qualité globale), par l'inertie d'un point projetée sur un axe divisé par l'inertie totale du point (mesure de la qualité pour chaque modalité), la contribution d'un axe à l'inertie totale ou le rapport entre l'inertie d'un nuage (profils_lignes ou profils_colonnes) projeté sur un axe par l'inertie totale du même nuage^{[i 27]}^,^{[b 15]}.

ACM

Article principal : Analyse des correspondances multiples.

Analyse des correspondances Multiples : contributions des modalités aux deux premiers axes (plan factoriel F1-F2) des données d'une enquêtes sur les ogm effectuée en 2008 par Agrocampus - Université de Rennes - France auprès de 135 personnes - voir ^{[b 16]}

Analyse des correspondances Multiples : contributions des individus aux deux premiers axes (plan factoriel F1-F2) des données d'une enquêtes sur les ogm effectuée en 2008 par Agrocampus - Université de Rennes - France auprès de 135 personnes - voir F.Husson et al.^{[b 16]}

L'analyse factorielle des correspondances multiples est une extension de l'AFC^{[i 28]}^,^{[Note 4]}. L'ACM se propose d'analyser p variables qualitatives d'observations sur n individus. Comme il s'agit d'une analyse factorielle elle aboutit à la représentation des données dans un espace à dimensions réduites engendré par les facteurs. On peut dire que l'ACM est l'équivalent de l'ACP pour les variables qualitatives et qu'elle se réduit à l'AFC lorsque le nombre de variables qualitatives est égal à 2^{[b 17]}. Formellement, une ACM est une AFC appliquée sur le tableau disjonctif complet, ou bien une AFC appliquée sur le tableau de Burt, ces deux tableaux étant issus du tableau initial. Un tableau disjonctif complet est un tableau où les variables sont remplacées par leurs modalités et les éléments par 1 si la modalité est remplie 0 sinon pour chaque individu. Un tableau de Burt est le tableau de contingence des p variables prises deux à deux.

L'interprétation se fait au niveau des modalités dont on examine les proximités. Les valeurs propres ne servent qu'à déterminer le nombre d'axes soit par la méthode du coude soit en ne prenant que les valeurs propres supérieures à $\frac{1}{p}$ . La contribution de l'inertie des modalités à celle des différents axes est analysée comme en AFC^{[i 28]}. L'inertie totale du nuage de points est égale à $(\frac{1}{p}\sum_{i=1}^p m_{i}) - 1$ , l'inertie de la variable $X i$ possédant $m i$ modalités est donnée par $(\frac{m_{i} - 1}{p})$ et l'inertie de la modalité j a pour formule $\frac{1}{p}(1 - \frac{n_{j}}{n})$ ^{[i 29]}.

Analyse canonique

Article principal : Analyse canonique des corrélations.

Analyse Canonique des Correlations : matrices des corrélations sur les données nutrimouse du package CCA de R d'après l'article d'Ignacio et al. dans « Journal of Statistical Software (volume 23, issue 12, January 2008) »^{[i 30]}

Analyse Canonique des Correlations : représentation des variables et des individus dans le plan des deux premières variables canoniques sur les données nutrimouse du package CCA de R d'après l'article d'Ignacio et al. dans « Journal of Statistical Software (volume 23, issue 12, January 2008) »^{[i 30]}

L'analyse canonique^{[i 31]} permet de comparer deux groupes de variables quantitatives appliqués tous deux sur les mêmes individus. Le but de l'analyse canonique est de comparer ces deux groupes de variables pour savoir si ils décrivent un même phénomène, auquel cas on pourra se passer d'un des deux groupes de variables.

Un exemple parlant est celui des analyses médicales effectuées sur les mêmes échantillons par deux laboratoires différents^{[b 18]}. L'analyse canonique généralise des méthodes aussi diverses que la régression linéaire multiple, l'analyse discriminante et l'analyse factorielle des correspondances^{[b 18]}.

Plus formellement, si $X 1$ et $X 2$ sont deux groupes de variables, l'analyse canonique cherche des couples de vecteurs $(ξ 1 i,η 2 i)$ , combinaisons linéaires des variables de $X 1$ et $X 2$ respectivement, le plus corrélées possibles. Ces variables sont dénommées variables canoniques. Dans l'espace ce sont les vecteurs propres des projections $P 1$ et $P 2$ respectivement sur les sous espace de $\mathbb{R}^p$ et $\mathbb{R}^q$ , où p et q representent le nombre de variables des deux groupes, engendrés par les deux ensembles de variables. $cos 2 (ξ 1,η 2)$ mesure la corrélation entre les deux groupes. Plus cette mesure est élevée, plus les deux groupes de variables sont corrélés et plus ils expriment le même phénomène sur les individus. Dans l'illustration de droite, les corrélations entre les variables à l'intérieur des deux groupes sont représentées par les corrélogrammes du haut, la corrélation entre les deux groupes est expliquée au-dessous. Si la couleur dominante était vert clair aucune corrélation n'aurait été détectée. A gauche les deux groupes de variables sont rassemblés dans le cercle des corrélations rapportés aux deux premières variables canoniques.

Enfin l'Analyse canonique généralisée au sens de Caroll (d'après J.D.Caroll) étend l'Analyse canonique ordinaire à l'étude de p Groupes de variables (p > 2) appliquées sur le même espace des individus. Elle admet comme cas particuliers l'ACP, l'AFC et l'ACM, l'Analyse canonique simple, mais aussi la régression simple, et multiple, l'analyse de la variance , l'analyse de la covariance et l'analyse discriminante^{[i 32]}.

Classification

La classification des individus est le domaine de la classification automatique et de l'analyse discriminante. Classifier consiste à définir des classes, classer est l'opération permettant de mettre un objet dans une classe définie au préalable^{[b 19]}. La classification automatique est ce qu'on appelle en exploration de données (« data mining ») la classification non supervisée, l'analyse discriminante est l'ensemble des techniques statistiques connues sous le nom de classification supervisée en exploration de données^{[b 19]}.

Classification automatique

Le but de la classification automatique est de découper l'ensemble des données étudiées en une ou plusieurs partitions, chaque sous-ensemble devant être le plus homogène possible. On distingue deux types de classification : d'une part le partitionnement "à plat" et d'autre part le partitionnement hiérarchique. l'agrégation autour des centres mobiles ( les nuées dynamiques ), la méthode de Condorcet, la méthode des inerties intra-classe et inter-classes font partie de la première catégorie. La classification ascendante hiérarchique, descendante hiérarchique sont des méthodes de la deuxième catégorie^{[b 20]}.

Analyse discriminante

Article principal : Analyse discriminante.

Cette section est vide, insuffisamment détaillée ou incomplète. Votre aide est la bienvenue !

Ce qui nous intéresse ici c'est la partie descriptive de l'analyse discriminante connue sous le nom d'Analyse Factorielle discriminante. Cette technique projette les classes sur des plans factoriels discriminants.

Logiciels

De nombreux logiciels permettent d'effectuer de l'analyse des données directe ou indirecte.

Notes et références

Notes

↑ Dans ce dernier document on voit Chikio Hayashi et Jean-Paul Benzécri en pleine discussion

↑ L'AFC peut aussi être vue comme une Analyse canonique particulière. Voir Saporta 2006, p. 212.

↑ pour plus d'information sur l'exemple ci-contre voir l'analyse de FG Carpentier de l'université de Brest [PDF]FG Carpentier, « Analyse Factorielle des correspondances », 2004. Consulté le 12 Novembre 2011

↑ pour appréhender l'apport spécifique de l'ACM, voir G.Saporta Saporta 2006, p. 227

Références

Ouvrages spécialisés

↑ Benzécri 1976, p. 91 et suiv. (Tome I)

↑ Benzécri 1976, p. 63 et suiv. (Tome I)

↑ Benzécri 1976, p. 29 (Tome I)

↑ Benzécri 1976, p. 31 (Tome I)

↑ Benzécri 1976, p. 37 (Tome I)

↑ Benzécri 1976, p. 329 (Tome II)

↑ Husson 2009, p. 58

↑ Husson 2009, p. 110

↑ Benzécri 1976, p. 55 (Tome I)

↑ Benzécri 1976, p. 372-397 et 461 (Tome II)

↑ Saporta 2006, p. 162

↑ Saporta 2006, p. 178

↑ Saporta 2006, p. 201-204

↑ Husson 2009, p. 70

↑ Husson 2009, p. 81-83

↑ ^{a et b} Husson 2009, p. 155

↑ Saporta 2006, p. 220

↑ ^{a et b} Saporta 2006, p. 189-190

↑ ^{a et b} Husson 2009, p. 172

↑ Saporta 2006, p. 243

Articles publiés sur internet

↑ [PDF]Philippe Besse, « Analyse canonique des corrélations », 2010. Consulté le 6 Novembre 2011

↑ ^{a et b} (en)Noboru Ohsumi, Charles-Albert Lehalle, « Benzecri, Tukey and Hayashi (maths) », 2006. Consulté le 6 Novembre 2011

↑ [PDF](en)Noboru Ohsumi, « « Memories of Chikio Hayashi and His Great Achievement » », 2008. Consulté le 6 Novembre 2011

↑ [PDF]Samuel AMBAPOUR, « Introduction à l’analyse des données », 2003. Consulté le 1 Novembre 2011

↑ ^{a, b, c et d} [PDF]Ludovic Lebart, « L’analyse des données des origines à 1980 : quelques éléments », 2008. Consulté le 6 Novembre 2011

↑ [PDF]Gilbert Saporta, « Données supplémentaires sur l'analyse des données », 1975. Consulté le 6 Novembre 2011

↑ (en) Louis Léon Thurstone, Multiple factor analysis. Psychological Review, 38, 1931

↑ [PDF](en)Shizuhiko Nishisato, « « Elements of Dual Scaling : An Introduction to Practical Data Analysis » », 1994. Consulté le 11 Novembre 2011

↑ [PDF](en)Willem J. Heiser, Jaqueline J. Meulman, « « Homogeneity Analysis : Exploring the distribution of variables and their nonlinear relashionships » », 1992. Consulté le 11 Novembre 2011

↑ [PDF](en)Antoine de Falguerolles, « « L’analyse des données : before and around » », 2008. Consulté le 20 Novembre 2011

↑ [PDF]Samuel AMBAPOUR, « Applications de l’analyse des données au traitement d’enquêtes Mesure de satisfaction de clientèle pour les grands services publics : le cas de la Société Nationale d’Electricité », 2003. Consulté le 7 Novembre 2011

↑ [PDF]E. Boukherissa, « Les Cahiers de l'Analyse des données : Contribution à l'étude de la structure des pièces de théatre : Analyse de la matrice de présence des personnages sur la scène », 1995. Consulté le 10 Novembre 2011

↑ [PDF]Benoît Chaumeret, Emmanuel Tomi, « Une Application des Techniques d’Analyse de Données et de Statistique Descriptive à l’Etude Comparative des Quartiers Parisiens », 2008. Consulté le 8 Novembre 2011

↑ [PDF](en)Kyungnam Kim, « « Face Recognition using Principle Component Analysis » ». Consulté le 9 Novembre 2011

↑ [PDF]Renaud Laporte, « Pratiques Sportives et Sociabilité », 2005. Consulté le 11 Novembre 2011

↑ [PDF]Anne-Béatrice Dufour, Jacques Pontier, Annie Rouard, « Morphologie et Performance chez les Sportifs de Haut Niveau: Cas du Handball et de la Natation », 1988. Consulté le 11 Novembre 2011

↑ [PDF]Carla Henry, Manohar Sharma,Cecile Lapenu,Manfred Zeller, « Outil d’évaluation de la pauvreté en microfinance », 2003. Consulté le 20 Novembre 2011

↑ [PDF]Arthur Charpentier, Michel Denuit, « Mathématiques de l'assurance non-vie ». Consulté le 20 Novembre 2011

↑ [PDF]Olivier Godechot, « Introduction à l'Analyse des données ». Consulté le 2 Novembre 2011

↑ [PDF]Alain Baccini, Philippe Besse, « Exploration Statistique ». Consulté le 6 Novembre 2011

↑ ^{a et b} FG Carpentier, « Analyse en composantes principales avec R », 2006. Consulté le 19 Novembre 2011

↑ [PDF]C. Duby, S. Robin, « Analyse en Composantes Principales », 2006. Consulté le 3 Novembre 2011

↑ [PDF]Christine Decaestecker, Marco Saerens, « Analyse en composantes principales ». Consulté le 3 Novembre 2011

↑ (en)Hossein Arsham, « « Topics in Statistical Data Analysis: Revealing Facts From Data » ». Consulté le 3 Novembre 2011

↑ Arthur Charpentier, « Le "cercle des corrélations" en ACP »

↑ R. Ramousse, M. Le Berre,L. Le Guelte, « Introduction aux Statistiques », 1996. Consulté le 12 Novembre 2011

↑ [PDF]Philippe Besse, « Analyse factorielle des correspondances », 2010. Consulté le 12 Novembre 2011

↑ ^{a et b} [PDF]Philippe Besse, « Analyse des correspondances multiples », 2010. Consulté le 12 Novembre 2011

↑ Université Pierre et Marie Curie, Paris, « Analyse factorielle des correspondances multiples : 4.3 Formulaire ». Consulté le 13 Novembre 2011

↑ ^{a et b} [PDF](en)Ignacio Gonzalez, Sébastien Déjean, Pascal G. P. Martin, Alain Baccini, « « CCA: An R Package to Extend Canonical Correlation Analysis » », 2008. Consulté le 19 Novembre 2011

↑ [PDF]Frédéric Bertran, « Analyse canonique », 2005. Consulté le 15 Novembre 2011

↑ [PDF]Ph. Casin, J.C. Turlot, « Une présentation de l'analyse canonique généralisée dans l'espace des individus », 1986. Consulté le 18 Novembre 2011

Voir aussi

Bibliographie

(fr)Gilbert Saporta, Probabilités, Analyse des données et Statistiques, Paris, Editions Technip, 2006, 622 p. (ISBN 978-2-7108-0814-5) .

(fr)Jean-Paul Benzécri et al., L'Analyse des Données: 1 La Taxinomie, Paris, Dunod, 1976, 631 p. (ISBN 2-04-003316-5) .

(fr)Jean-Paul Benzécri et al., L'Analyse des Données: 2 L'Analyse des correspondances, Paris, Dunod, 1976, 616 p. (ISBN 2-04-004255-5) .

(fr)François Husson, Sébastien Lé et Jérome Pagès, Analyse de données avec R, Rennes, Presses Universitaires de Rennes, 2009, 224 p. (ISBN 978-2-7535-0938-2) .

(en) Lyle V. Jones, The Collected Works of John W. Tukey T.IV, Monterey, California, Chapman and Hall/CRC, 1987, 675 p. (ISBN 978-0534051013) .

(en) Lyle V. Jones, The Collected Works of John W. Tukey T.I, Monterey, California, Wadsworth Pub Co, 1984, 680 p. (ISBN 978-0534033033) .

(en) J W Tukey et K.E. Basford, Graphical Analysis of Multiresponse Data, Londres, Chapman & Hall (CRC Press), 1999, 587 p. (ISBN 0849303842) .

(fr) Michel Volle, Analyse des données, 4^e édition, Economica, 1997, 323 p. (ISBN 978-2717832129) .

(fr) Jean-Marie Bouroche et Gilbert Saporta, L'Analyse des données, 9^e édition, Paris, Presses Universitaires de France - PUF, 2006, 125 p. (ISBN 978-2130554448) .

Articles connexes

Liens internes

Exploration de données

Statistique multivariée

Analyse factorielle

Liens externes

FactoMineR, une bibliothèque de fonctions R dédiée à l'analyse des données

Cours d'Analyse des données donné à l'Institut d'études politiques de Paris

v · Probabilités et statistiques

Théorie des probabilités Axiomes des probabilités • Espace probabilisable • Probabilité • Événement • Tribu • Indépendance

Probabilités élémentaires Moyenne • Espérance • Médiane • Variance • Écart type

Loi de probabilité Variable aléatoire • Loi de Bernoulli • Loi de Poisson • Loi uniforme • Loi normale • Loi de Student • Loi de Fisher • Variables iid

Convergence de lois Théorème central limite • Loi des grands nombres • Théorème de Borel-Cantelli

Calcul stochastique Marche aléatoire • Chaîne de Markov • Processus stochastique • Processus de Markov • Martingale • Mouvement brownien • Équation différentielle stochastique

Statistiques

Statistique descriptive Échantillon • Quantile • Intervalle de confiance • Représentations de données • Histogramme • Diagramme circulaire • Boîte à moustaches • Régression linéaire • Méthode des moindres carrés

Statistique mathématique Fonction de répartition empirique • Théorème de Glivenko-Cantelli • Inférence bayésienne

Tests statistiques Test d’hypothèse • Hypothèse statistique • Estimateur • Test du χ² • Test t • Test de Fisher

Applications Économétrie • Mécanique statistique • Jeu de hasard • Biomathématique • Mathématiques financières

Portail des probabilités et des statistiques

Portail de l’informatique

Catégorie :
Analyse des données

Contenu soumis à la licence CC-BY-SA. Source : Article Analyse des données de Wikipédia en français (auteurs)

Игры ⚽ Поможем сделать НИР

Regardez d'autres dictionnaires:

Analyse des données — ● Analyse des données ensemble des méthodes permettant la description de tableaux d observations statistiques sans faire intervenir aucune hypothèse sur l origine de ces observations … Encyclopédie Universelle
Analyse des données (statistiques) — Analyse des données L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer… … Wikipédia en Français
Analyse de données — Analyse des données L’analyse des données est un sous domaine des statistiques qui se préoccupe de la description de données conjointes. On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer… … Wikipédia en Français
Analyse des correspondantes multiples — Analyse factorielle des correspondances Pour les articles homonymes, voir AFC. L analyse factorielle des correspondances, en abrégée AFC, est une méthode statistique d analyse des données mise au point par Jean Paul Benzecri à l Université Pierre … Wikipédia en Français
Analyse De Données Textuelles — L analyse de données textuelles (ou ADT) est une approche méthodologique des sciences humaines qui envisage les textes comme des données qui peuvent être analysées par un ensemble de manipulations informatiques. Ces analyses, inspirées par la… … Wikipédia en Français
Analyse de donnees textuelles — Analyse de données textuelles L analyse de données textuelles (ou ADT) est une approche méthodologique des sciences humaines qui envisage les textes comme des données qui peuvent être analysées par un ensemble de manipulations informatiques. Ces… … Wikipédia en Français
Analyse de données textuelles — L analyse de données textuelles (ou ADT) est une approche méthodologique des sciences humaines qui envisage les textes comme des données qui peuvent être analysées par un ensemble de manipulations informatiques. Ces analyses, inspirées par la… … Wikipédia en Français
Analyse des correspondances multiples — Pour les articles homonymes, voir ACM. L Analyse des correspondances multiples, en abrégée ACM, est une méthode statistique d analyse des données ; il s agit d une extension de l analyse factorielle des correspondances. L ACM peut être menée … Wikipédia en Français
Analyse Des Réseaux Sociaux — Ne doit pas être confondu avec Théorie de l acteur réseau. L analyse des réseaux sociaux est une approche sociologique qui a actuellement près de 70 ans d histoire. Elle peut être divisée en trois grandes périodes: 1. les fondements de l… … Wikipédia en Français
Analyse des reseaux sociaux — Analyse des réseaux sociaux Ne doit pas être confondu avec Théorie de l acteur réseau. L analyse des réseaux sociaux est une approche sociologique qui a actuellement près de 70 ans d histoire. Elle peut être divisée en trois grandes… … Wikipédia en Français

Mark and share
Search through all dictionaries
Translate…
Search Internet

Share the article and excerpts