Manuel sur la collecte de données / Phase Sept: Analyser et visualiser les données

From Akvopedia
Jump to: navigation, search
English Français

Tout projet de collecte de données doit comprendre une phase d’analyse de données afin d’en extraire les enseignements. En substance, l’analyse des données vise à inspecter, nettoyer, transformer et visualiser les données dans le but d’obtenir certaines solutions à un problème donné. Avec l’analyse des données, vous cherchez à décrire et à résumer les données, à recenser les relations, et à trouver des similarités et des différences entre les variables. Vous cherchez à obtenir des connaissances que vous pourrez utiliser et partager avec d’autres au moyen d’un format accessible et visuel. Cela vous permettra de prendre de meilleures décisions fondées sur la compréhension des données en votre possession.

Préparation

Première étape : Que voulez-vous savoir ?

Avant de commencer à résoudre un problème, vous devez connaître ce problème et le comprendre. « Concentrez-vous sur le problème, pas la solution », comme on dit. Cela peut paraître trivial, mais il faut se poser les bonnes questions pour tirer les bons enseignements des données. S’appuyant sur les phases précédentes, en particulier la conception du projet, cette étape doit être simple et indiquer les mesures à prendre au cours du processus d’analyse des données.


Analyser et visualiser les données en six étapes

L’analyse des données peut être divisée en deux étapes : la préparation et l’exécution. Chacune de ces phases est composée de trois étapes.

Préparation

Première étape : Que voulez-vous savoir ?
Deuxième étape : Quelles sources de données prévoyez-vous d’utiliser/de combiner ?
Troisième étape : Vos données sont-elles nettoyées et prêtes à être utilisées ?

Exécution

Quatrième étape : Assimilez vos données..
Cinquième étape : Explorez vos données et identifiez les relations.
Sixième étape : Que devez-vous communiquer ? À qui ? Pourquoi ?


Deuxième étape : Quelles sources de données prévoyez-vous d’utiliser/de combiner ?

Vous savez désormais quel est le problème. Mais pour obtenir une solution, il vous faut des données. Après une phase de collecte réussie, vous envisagez peut-être de compléter les informations réunies à l’aide de sources externes. Il existe de très nombreuses sources de données (vous trouverez des informations sur les différents moyens de partager des données dans la phase huit), mais associer différents ensembles de données dans un format adéquat peut se révéler compliqué et nécessite une attention particulière. Il faut trouver les bonnes données. Imaginons que vous souhaitez relier des données provenant des ménages sur les installations d’eau et d’assainissement avec des données sur les dépenses publiques en matière d’eau, d’assainissement et d’hygiène. Ces deux ensembles de données sont collectés à des niveaux différents : auprès des ménages, et à l’échelle du district, de la région et du pays. Pouvez-vous associer ces ensembles, et si oui, comment le faire ? Quelles sont les difficultés ? Vous trouverez d’autres informations sur le processus de collecte de données dans les phases cinq et six.

Il est également important de réfléchir au type de données dont vous avez besoin pour votre analyse. Parfois des données sont disponibles, mais dans un format qui rend difficile l’analyse que vous souhaitez réaliser. Voyez alors si vous pouvez convertir les données dans un autre format, ou modifier le type d’analyse pour l’adapter au format des données.

Troisième étape : Vos données sont-elles nettoyées et prêtes à être utilisées ?

Vous pourriez croire qu’une fois que vous disposez de toutes les informations nécessaires, vous pouvez directement passer à des activités moins fastidieuses, comme des visualisations ou des régressions. Le fait est que quelle que soit l’origine de vos données, il vous faudra toujours les nettoyer. Le nettoyage des données constitue très souvent une part importante des projets d’analyse de données. Lorsque vous nettoyez les données, vous essayez de comprendre chaque colonne de votre ensemble de données, vous identifiez les valeurs manquantes, corrompues ou aberrantes, et vous vous assurez que les données sont cohérentes, en relevant par exemple les variantes orthographiques pour un même élément.

Exécution

Quatrième étape : Assimilez vos données Maintenant que vos données sont nettoyées, il est temps de les étudier et de découvrir ce que comprend cet ensemble de données et les caractéristiques des données. Ces caractéristiques peuvent être la taille ou la quantité, l’exhaustivité des données, ou leur exactitude. Lors du premier examen d’un ensemble de données nettoyées, vous devez chercher à comprendre toutes les différentes variables dont vous disposez. Il est plus facile d’appréhender l’information lorsque vous la visualisez et la résumez dans des tableaux.

Cinquième étape : Explorez vos données et identifiez les relations

Vous pouvez passer beaucoup de temps à simplement observer les données, mais ce que vous voulez, c’est trouver rapidement des schémas pertinents qui vous mènent vers la réponse que vous cherchez. Lorsque vous devez rendre compte du projet, vous vous référerez le plus souvent à des indicateurs qui ont été choisis lors de la phase de conception, et indiquerez les valeurs qu’ils affichent. C’est indéniablement nécessaire, mais l’analyse de données doit aller plus loin que ce relevé de chiffres. Lorsque vous examinez les données, vous devez essayer de comparer et de confronter différentes variables. De cette façon, vous pouvez relever des relations qui n’apparaissent pas de manière évidente. Ce processus de vérification des différentes caractéristiques des ensembles de données deviendra plus facile et plus intuitif à mesure que vous le pratiquez, alors allez-y et amusez-vous bien.

Dans certains projets, vous voulez parfois aller encore plusloin et souhaitez exploiter la mine d’informations à portée de main en appliquant des techniques scientifiques plus poussées. Vous pouvez chercher des tendances cachées, trouver des explications et tenter de prédire les résultats de ces indicateurs.

Sixième étape : Que devez-vous communiquer ? À qui ? Pourquoi ?

Pour que ce processus d’analyse de données soit utile, vous devez communiquer les connaissances acquises de manière convaincante et assimilable. Il ne sert à rien de produire des informations que personne ne peut comprendre. C’est en outre un gaspillage des ressources investies dans la collecte et l’analyse de données. Vous devez élaborer un exposé qui combine les informations que vous avez obtenues et la connaissance du secteur de votre organisation pour répondre à la question que vous vous êtes posée. La communication des résultats de l’analyse des données constitue le coeur du projet. La façon dont vous le ferez est toutefois essentielle. Si le message n’est pas clair, le risque est que votre analyse reste sans suite. Vous devez vous assurer que le message communiqué est clair et adapté au public ciblé. Si vous présentez des graphiques compliqués qui nécessitent de nombreuses explications, vous risquez de perdre l’attention de votre public et de ne pas faire passer votre message.

Comprendre le message que vous essayez de faire passer

Pour ce qui est de la visualisation des données, il s’agit de présenter des relations entre points de données, des comparaisons de points de données, la composition des données, ou leur distribution.

Lorsque vous souhaitez mettre en lumière une relation, vous mettez l’accent sur les liens ou les corrélations entre deux variables ou plus. Vous pouvez par exemple vouloir montrer dans quelle mesure la fonctionnalité d’un point d’eau est liée à son âge.

Lorsque vous comparez des points de données, vous essayez de montrer ce qui distingue un ensemble de variables d’un autre. Vous voulez démontrer comment les deux variables sont interdépendantes, comme le nombre de points d’eau dans les cinq plus grands districts du pays.

Lorsque vous voulez montrer la composition des données, vous collectez différents types d’informations qui constituent un tout et les présentez ensemble. Par exemple, vous pouvez souhaiter indiquer les différents fondateurs des points d’eau dans l’ensemble du pays.

Lorsque vous voulez montrer la distribution, vous essayez de présenter un ensemble d’informations liées ou indépendantes simplement pour voir comment elles se corrèlent. Vous présentez par exemple le nombre de défaillances des points d’eau notifiés sur une longue période et voyez si des tendances saisonnières peuvent être détectées.

Conclusion

Après la collecte des données, il est essentiel d’effectuer un nettoyage et d’éliminer les données aberrantes et non fiables pour obtenir des enseignements utiles. Pour transformer les données en connaissances, la personne chargée d’analyser les données doit prendre le temps de comprendre l’ensemble de données, ce qui l’aidera à déceler des constantes dans les données, et des relations entre elles. Toutefois, rappelezvous que pour que les données soient utiles à la prise de décisions, la dernière étape, à savoir la communication des données à votre public cible, est aussi importante que l’analyse des données elle-même. Vous trouverez d’autres informations à ce sujet dans la prochaine phase : partager les données et transmettre les connaissances.

Lectures suggérées

Remerciements

Auteurs: Annabelle Poelert (Akvo.org), Karolina Sarna (Akvo.org)
Contributeurs: Bettina Genthe (Council for Scientific and Industrial Research, CSIR), Camille Clerx (Akvo.org), Lars Heemskerk (Akvo.org), Marten Schoonman (Akvo.org), Nikki Sloan (Akvo.org), Stefan Kraus (Akvo.org)

AfriAlliance

L’Alliance de l’innovation sur l’eau et le climat entre l’Afrique et l’Europe (AfriAlliance) est un projet d’une durée de 5 ans, financé par le Programme européen pour la recherche et l’innovation H2020. Le projet vise à mieux préparer l’Afrique pour faire face aux défis futurs liés au changement climatique en stimulant le partage des connaissances et la collaboration entre les parties prenantes africaines et européennes. Dans ce projet, plutôt que de créer de nouveaux réseaux, les 16 partenaires d’Afrique et de l’Union Européenne consolideront les réseaux existants. Ces réseaux, constitués de chercheurs, de décideurs, de professionnels de terrain, de citoyens et d’autres intervenants clés, seront consolidés pour développer un mécanisme de partage des connaissances efficace et dédié à la résolution des problèmes. Ce processus sera coordonné par une plateforme d’innovation : l’Alliance Afrique-UE d’innovation pour l’Eau et le Climat.
Afrialliance-logo-RGB.png
AfriAlliance est dirigée par l’IHE Delft Institute for Water Education (Directeur de projet : Dr. Uta Wehn) et sa mise en oeuvre court de 2016 à 2021. Le projet a reçu un financement du programme de recherche et d’innovation Horizon 2020 de l’Union Européenne dans le cadre de l’accord de subvention n ° 689162.
EU flag RGB.jpg