Instructions sur les fichiers de données
La base de données CIS travaille en permanence à la préparation de la documentation d'étude en vue de sa diffusion.
Les études nouvellement créées sont disponibles sur le site Web institutionnel (www.cis.es) avec une documentation complète une fois les tâches techniques pertinentes de codage, de nettoyage, de validation et d'anonymisation des données, en plus du catalogage des informations, terminées.
Dans le cas des études plus anciennes , celles disponibles dans les archives de l'Institution avant l'an 2000, leurs fichiers de données sont examinés et préparés par ordre chronologique décroissant par année d'étude, ou par collections thématiques, afin que leur documentation soit également entièrement disponible sur le Web.
Le CIS travaille également en permanence à moderniser et à élargir les formats de ses fichiers de données, en faisant progresser le principe de neutralité technologique et en les rendant plus faciles à gérer et à comprendre par la communauté de recherche et par d’autres personnes qui souhaitent travailler avec eux.
Accès aux fichiers de données
Pour télécharger les fichiers de données du CIS, vous devez d'abord remplir un formulaire. Les informations recueillies sont uniquement destinées au traitement statistique par l'établissement ou à la notification, le cas échéant, de toute modification apportée aux données de l'étude demandée.
Les fichiers ne peuvent être téléchargés qu'individuellement, étude par étude ; les téléchargements en masse ne sont pas possibles.
Format du fichier de données
Les fichiers de microdonnées (matrices de données) des enquêtes du CIS, ainsi que leur documentation technique, sont téléchargés au format compressé ( MDxxxx.zip ), ils doivent donc être extraits avant de travailler avec eux.
Ce dossier contient les fichiers suivants, nécessaires à l'exploitation de l'étude :
- Documentation:
- Questionnaire ( questionnairesxxxx ). Au format PDF.
- Fiche technique ( Ftxxxx ). Au format PDF.
- Livre de codes ( codexxxx ). Au format PDF.
- Cartes ( cardsxxxx ). Au format PDF (uniquement pour les enquêtes menées en personne).
- Fichier de microdonnées anonymisé ( DAxxxx ) Au format ASCII . (Lire la section 'Format du fichier de données - ASCII' et ' Annexe ').
- Programme de lecture de fichiers de microdonnées pour SPSS ( ESxxxx ). Format ASCII . (Lire la section « Format de fichier de syntaxe SPSS » et « Annexe »).
- Autres types de fichiers pouvant également contenir :
- Fichier de microdonnées au format SAV , à partir de SPSS ( xxxx.sav ). Disponible pour les études dont les données ont été préparées depuis 2018 (inclut les études de n'importe quelle date).
- Fichier de microdonnées au format CSV , avec et sans étiquettes ( xxxx_etiq.csv , xxxx_num.csv ). Disponible pour les études dont les données ont été préparées depuis 2023 (inclut les études de toute date).
- Programme de lecture de fichiers de microdonnées pour travailler avec SAS ( Sasxxxx ). Au format ASCII. Disponible uniquement pour certaines études menées entre janvier 2009 et novembre 2013. (Voir la section « Format de fichier de syntaxe SAS »).
Lorsque l'étude comporte plusieurs documents du même type (par exemple, plusieurs questionnaires, plusieurs fiches d'information, etc.), ceux-ci sont généralement inclus dans un fichier compressé. Les microdonnées, selon leur taille en octets, peuvent également être présentées sous forme compressée.
Questions générales importantes
- Les microdonnées sont anonymisées afin d'empêcher l'identification individuelle des personnes interrogées. Les variables concernées par ce processus dépendent de l'étude, mais sont généralement : l'enquêteur, la section de recensement, le district et les municipalités de 100 000 habitants ou moins (à l'exception des capitales de province ou de communauté autonome). Pour plus d'informations, consultez la section « Systèmes d'anonymisation ».
-
Certaines études nécessitent un rééquilibrage ou une pondération des données en fonction du plan d'échantillonnage. Cela concerne généralement uniquement l'échantillon principal, mais parfois également d'autres niveaux de traitement. Cette information sera reflétée dans la fiche de données, bien que les coefficients de pondération puissent n'être détaillés que dans le fichier de microdonnées.
IMPORTANT Pour exploiter correctement les données, il est nécessaire d'appliquer les coefficients de pondération correspondants indiqués dans la fiche technique.
Les variables de pondération ont généralement un nom normalisé commençant par les lettres « WEIGHT » (PESO, PESOCCAA, PESOPROV, etc.) et sont généralement situées à la fin du fichier de microdonnées.
Les coefficients de pondération sont séparés par une virgule (,). Ceci est important lorsque vous travaillez sur des ordinateurs dont les paramètres régionaux ne sont pas l'espagnol.
-
Un fichier de microdonnées se présente sous la forme d'une matrice de nombres, où les lignes ou enregistrements correspondent aux personnes interrogées et les colonnes aux réponses données à chaque variable. Les colonnes attribuées à chaque variable se trouvent dans le livre de codes, ou dans le questionnaire s'il a été mis en œuvre sur papier (PAPI), où elles sont indiquées par un numéro entre parenthèses à droite des catégories de réponses.
Auparavant, le nombre de colonnes dans les matrices de données était limité à 80 ; on utilisait donc autant de lignes que nécessaire pour compléter les informations de chaque personne interrogée. Chaque ligne de 80 colonnes correspond à une FICHE D'ENREGISTREMENT. Le passage d'une fiche à l'autre est indiqué sur le questionnaire (T1, T2, etc.).
À partir de l'étude n° 2083 (février 1994), les questionnaires CIS n'étaient plus structurés par fiches et les informations de chaque entretien étaient enregistrées sur une seule ligne.
Les deux formats (avec/sans ENREGISTREMENTS) coexistent dans les fichiers de microdonnées fournis par le CIS.
Format de fichier de données - ASCII
Les fichiers de données CIS sont fournis au format ASCII (format texte ouvert) et peuvent être utilisés avec n'importe quel logiciel statistique : SPSS, SAS, R, etc.
IMPORTANT Lorsque les données de l'étude nécessitent une pondération , veuillez noter que dans ce format de fichier les données ne sont pas fournies pondérées , donc pour les exploiter il est nécessaire d'appliquer les coefficients.
Pour utiliser ce format de fichier, veuillez lire les instructions en annexe.
Format de fichier de données - SAV
L'extension de fichier .sav correspond au fichier de données du programme d'analyse statistique IBM SPSS. Les données sont déjà traitées et prêtes à être exploitées directement depuis l'application.
Dans les études plus anciennes, les étiquettes des variables et des catégories de réponses peuvent ne pas être incluses. Des étiquettes peuvent parfois apparaître, mais uniquement pour les variables multicomposantes (VM multivariée, RM multiréponse et MD multidichotomique). Les études plus récentes, ou celles traitées récemment, contiennent les étiquettes complètes.
IMPORTANT : Si les données d'une étude nécessitent un équilibrage, elles seront fournies pondérées . S'il existe plusieurs variables de pondération, celle qui apparaîtra activée sera celle affectant l' échantillon principal , généralement appelée POIDS.
Format de fichier de données - CSV
CSV signifie « Comma Separated Values ». C'est un format ouvert.
Ces fichiers ressemblent à des tableaux où les lignes correspondent aux personnes interrogées et les colonnes correspondent aux variables.
La manière la plus courante de lire ces fichiers est d’utiliser le programme Excel.
Ils sont proposés en 2 versions :
- avec des étiquettes de noms variables et des catégories de réponses ( xxxx_etiq.csv )
- sans étiquette, c'est-à-dire numérique ( xxxx_num.csv )
IMPORTANT Lorsque les données de l'étude nécessitent une pondération , veuillez noter que dans ce format de fichier les données ne sont pas fournies pondérées , donc pour les exploiter il est nécessaire d'appliquer les coefficients.
Format de fichier de syntaxe - SPSS
Le fichier de syntaxe est présenté au format ASCII, mais est conçu pour fonctionner avec le programme de traitement statistique SPSS.
Il contient, au moins, les commandes minimales nécessaires pour lire correctement les microdonnées : la définition des variables (DATA LIST) et la pondération (WEIGHT) lorsque le plan d'échantillonnage l'exige.
D'autres commandes SPSS peuvent ne pas être incluses, telles que les étiquettes de variables (ÉTIQUETTES DE VARIABLES) et les catégories de réponses (ÉTIQUETTES DE VALEURS), ainsi que des commandes telles que RECODER, VALEURS MANQUANTES, FRÉQUENCES, etc. Des étiquettes de variables (ÉTIQUETTES DE VARIABLES) peuvent parfois apparaître, mais uniquement pour les variables multicomposantes (VM multivariée, MR multiréponse et MD multidichotomique). Les études plus récentes, ou celles traitées récemment, contiennent la syntaxe complète.
IMPORTANT Si une étude nécessite plus d'une variable de pondération (par exemple, PESO et PESOCCAA), seule la principale ou celle qui affecte l'échantillon le plus global est laissée activée (WEIGHT BY PESO), les autres peuvent ne pas apparaître dans la syntaxe ou peuvent être commentées (texte défini par /* et */).
Pour les enquêtes menées entre 1992 et 1997, le programme syntaxique peut avoir été écrit dans d'anciennes versions de SPSS, notamment UNIX, qui gère la syntaxe différemment des versions plus récentes. Dans ce cas, les instructions situées au-dessus de la LISTE DE DONNÉES doivent être supprimées, ou du moins non exécutées, et des terminateurs de commande, qui peuvent être un point (.) ou une ligne vide, doivent être ajoutés pour séparer les instructions.
Pour utiliser ce format de fichier, veuillez lire les instructions en annexe.
Format de fichier de syntaxe - SAS
Le fichier de syntaxe est présenté au format ASCII, mais est conçu pour fonctionner avec le programme de traitement statistique SAS.
Il contient au minimum les instructions nécessaires à la lecture correcte des microdonnées. Le programme contient également des instructions qui identifient les variables et les catégories de réponses.
Ce formulaire n'est plus disponible et n'est disponible que pour certaines études menées de janvier 2009 à novembre 2013.