Instruccions sobre els fitxers de dades

Al Banc de Dades del CIS es treballa de manera continuada en la preparació de la documentació dels estudis per a la seva difusió.

Els estudis de nova creació queden disponibles a la web institucional (www.cis.es) amb la documentació completa una vegada que finalitzen les tasques tècniques pertinents de codificació, depuració, validació i anonimització de les dades, a més de la catalogació de la informació.

En el cas dels estudis antics , aquells disponibles a l'arxiu de la Institució anteriors a l'any 2000, es van revisant i preparant els seus fitxers de dades de forma cronològica descendent per any de l'estudi, o per col·leccions temàtiques, de manera que la seva documentació també quedi disponible de manera completa a la web.

El CIS, a més, treballa constantment en la modernització i ampliació dels formats dels seus fitxers de dades, avançant en el principi de neutralitat tecnològica i facilitant-ne el maneig i comprensió al col·lectiu investigador i altres persones que vulguin operar-hi.

Accés als fitxers de dades

Per descarregar-se els fitxers de dades del CIS, prèviament cal emplenar un formulari. La informació recollida només és a efectes de tractament estadístic per part de la Institució o de comunicació a l'usuari, si escau, de possibles modificacions realitzades en les dades de l'estudi sol·licitat.

La descàrrega dels fitxers només es pot fer individualment, estudi per estudi, i no és possible la descàrrega en bloc.

Format del fitxer de dades

Els fitxers de microdades (matrius de dades) de les enquestes del CIS, juntament amb la seva documentació tècnica, es descarreguen en format comprimit ( MDxxxx.zip ), per la qual cosa cal extreure'ls abans d'operar-hi.

En aquest arxiu es troben els fitxers següents, necessaris per a l'explotació de l'estudi:

  • Documentació:
    • Qüestionari ( cuesxxxx ). En format PDF.
    • Fitxa tècnica ( Ftxxxx ). En format PDF.
    • Llibre de codis ( codigoxxxx ). En format PDF.
    • Targetes ( targetes xxxx). En format PDF (només per a enquestes realitzades mitjançant entrevista presencial).
  • Fitxer de microdades anonimitzades ( DAxxxx ) En format ASCII . (Llegiu l'apartat 'Format del fitxer de dades-ASCII' i ' Annex ').
  • Programa de sintaxi de lectura del fitxer de microdades per treballar amb SPSS ( ESxxxx ). En format ASCII . (Llegiu l'apartat 'Format del fitxer de sintaxi-SPSS i ' Annex ').
  • Altres tipus de fitxers que també poden contenir:
    • Fitxer de microdades en format SAV , de SPSS   ( xxxx.sav ). Disponibles per als estudis les dades dels quals han estat preparats des del 2018 (inclou estudis de qualsevol data).
    • Fitxer de microdades en format CSV , amb etiquetes i sense ( xxxx_etiq.csv , xxxx_num.csv ). Disponibles per als estudis les dades dels quals han estat preparats des de 2023 (inclou estudis de qualsevol data).
    • Programa de sintaxi de lectura del fitxer de microdades per treballar amb SAS ( Sasxxxx ). En format ASCII. Només disponible per a alguns estudis realitzats des del gener del 2009 al novembre del 2013. (Llegir l'apartat 'Format del fitxer de sintaxi-SAS').

Quan lestudi té diversos documents del mateix tipus (per exemple, més dun qüestionari, més duna fitxa tècnica, etc.) se solen incloure aquests, al seu torn, en un fitxer comprimit. També les microdades, segons la seva mida en bytes, es poden presentar comprimides.

Qüestions generals importants

  • Les microdades estan anonimitzades per impossibilitar la identificació individual de les persones entrevistades. Les variables que es veuen afectades en aquest procés depenen de lestudi en concret, però en general són: entrevistador(a), secció censal, districte i els municipis menors o iguals a 100.000 habitants (excepte capitals de província o de comunitat autònoma). Per a més informació consulteu l'apartat ' Sistemes d'anonimització '.

  • Alguns estudis necessiten un reequilibrat de les dades o ponderació d'acord amb el disseny mostral. Generalment, sol afectar només la mostra principal però de vegades també altres nivells de tractament. Aquesta informació estarà reflectida a la fitxa tècnica, encara que els coeficients de ponderació podrien estar detallats únicament al fitxer de microdades.

    IMPORTANT Per explotar les dades correctament, cal aplicar els coeficients de ponderació corresponents que s'indiquin a la fitxa tècnica.

    Les variables de ponderació solen tenir un nom estandarditzat que comença amb les lletres 'PES' (PES, PESOCCAA, PESOPROV, etc.), i habitualment estan ubicades a la part final del fitxer de microdades.

    Els coeficients de ponderació tenen com a separador decimal la coma (,). Tingueu en compte quan es treballi en equips amb configuracions regionals diferents de l'espanyola.

  • L'aparença d'un fitxer de microdades és la d'una matriu de números on les files o els registres es corresponen amb les persones entrevistades i les columnes amb les respostes donades a cadascuna de les variables. Les columnes assignades a cada variable es poden consultar al llibre de codis, o al qüestionari si aquest ha estat implementat en paper (PAPI) on vénen especificades per un nombre entre parèntesis al costat dret de les categories de resposta.

    Antigament, el nombre de columnes de les matrius de dades estava limitat a 80, per la qual cosa s'utilitzaven tantes files com fos necessari per completar la informació de cada persona entrevistada. Cada línia de 80 columnes es correspon amb una TARGETA (RECORD). El pas d'una targeta a una altra s'indica al qüestionari (T1, T2, etc.).

    A partir de l'estudi núm. 2083 (febrer 1994), els qüestionaris del CIS deixen d'estar estructurats per targetes i es passa a gravar la informació de cada entrevista en una única línia.

    Ambdós formats (amb/sense RECORDS) coexisteixen als fitxers de microdades que facilita el CIS.

Format del fitxer de dades - ASCII

Els fitxers de dades del CIS es proporcionen en format ASCII (format obert de text), podent ser explotats amb qualsevol programa de tractament estadístic: SPSS, SAS, R, etc.

IMPORTANT Quan les dades de l'estudi requereixin ponderació , tingueu en compte que en aquest format de fitxer les dades no es faciliten ponderades , per la qual cosa per explotar-les cal aplicar-los els coeficients.

Per a manejar aquest format de fitxer llegiu les instruccions de l' Annex.

Format del fitxer de dades - SAV

El fitxer amb extensió .sav és el fitxer de dades propi del programa danàlisi estadístic IBM SPSS. Les dades ja estan processades i llestes per treballar amb ells directament des d'aquesta aplicació.

Als estudis més antics podrien no estar incloses les etiquetes de les variables (VARIABLE LABELS) i de les categories de resposta (VALUE LABELS). De vegades, sí que podrien aparèixer les etiquetes de les variables però només d'aquelles que són multicomponent (MV multivariables, MR multirespostes i MD multidicotòmiques). Els estudis més moderns, o els que s'han processat recentment, contenen les etiquetes completes.

IMPORTANT En cas que les dades d'un estudi requereixin equilibrat, es proporcionaran ponderades . Si hi ha més d'una variable de ponderació, la que apareix activada serà la que afecti la mostra principal , habitualment anomenada PES.

Format del fitxer de dades - CSV

Les sigles CSV vénen de l'anglès "Comma Separated Values" que significa valors separats per comes. És un format obert.

L‟aspecte d‟aquests fitxers és el d‟una taula on les files es corresponen amb les persones entrevistades i les columnes amb les variables.

El més comú per a la lectura daquests fitxers és utilitzar el programa Excel.

Es proporcionen en 2 versions:

  • amb etiquetes de noms de variables i categories de resposta ( xxxx_etiq.csv )
  • sense etiquetes, és a dir, numèric ( xxxx_num.csv )

IMPORTANT Quan les dades de l'estudi requereixin ponderació , tingueu en compte que en aquest format de fitxer les dades no es faciliten ponderades , per la qual cosa per explotar-les cal aplicar-los els coeficients.

Format del fitxer de sintaxi - SPSS

El fitxer de sintaxi es presenta en format ASCII, però està dissenyat per treballar amb el programa de tractament estadístic SPSS.

Conté, almenys, les ordres mínimes necessàries per llegir correctament les microdades: la definició de variables (DATA LIST) i la ponderació (WEIGHT) quan el disseny mostral així ho requereixi.

Altres ordres de SPSS poden no estar incloses, és el cas de les etiquetes de les variables (VARIABLE LABELS) i de les categories de resposta (VALUE LABELS), i ordres com RECODE, MISSING VALUES, FREQUENCIES, etc. De vegades, poden aparèixer les etiquetes de les variables (VARIABLE LABELS) però només d'aquelles que són multicomponent (MV multivariables, MR multirespostes i MD multidicotòmiques). Els estudis més moderns, o els que s'han processat recentment, contenen la sintaxi completa.

IMPORTANT Si un estudi requereix més d'una variable de ponderació (per exemple, PES i PESOCCAA), únicament la principal o la que afecta la mostra més global es deixa activada (WEIGHT BY PES), les altres podrien no aparèixer a la sintaxi o venir comentades (text definit per /* i */).

Per a les enquestes realitzades en el període 1992-1997, el programa de sintaxi pot estar escrit d'acord amb versions antigues de SPSS, en concret d'UNIX, el tractament del qual és diferent del de versions més modernes. En aquests casos caldrà eliminar o, si més no, no executar, les instruccions que apareixen per sobre del DATA LIST i posar els finalitzadors de comandament, que poden ser un punt (.) o una línia en blanc, separant les diferents instruccions.

Per a manejar aquest format de fitxer llegiu les instruccions de l' Annex.

Format del fitxer de sintaxi - SAS

El fitxer de sintaxi es presenta en format ASCII, però està dissenyat per treballar amb el programa de tractament estadístic SAS.

Com a mínim conté les sentències necessàries per a la correcta lectura de les microdades. Altres que apareixen al programa són les que etiqueten les variables i les categories de resposta.

Aquest format ja no es proporciona i només està disponible per a alguns dels estudis realitzats des del gener del 2009 fins al novembre del 2013.