Instrucións sobre ficheiros de datos

A base de datos do CIS traballa continuamente na preparación de documentación do estudo para a súa difusión.

Os estudos de nova creación están dispoñibles na páxina web institucional (www.cis.es) coa documentación completa unha vez que se completen as tarefas técnicas pertinentes de codificación, limpeza, validación e anonimización de datos, ademais da catalogación da información.

No caso de estudos máis antigos , aqueles dispoñibles no arquivo da Institución con anterioridade ao ano 2000, os seus ficheiros de datos revísanse e elabóranse en orde cronolóxica descendente por ano do estudo ou por coleccións temáticas, de xeito que a súa documentación tamén estea totalmente dispoñible na web.

O CIS tamén traballa arreo para modernizar e ampliar os formatos dos seus ficheiros de datos, avanzando no principio de neutralidade tecnolóxica e facilitándolles a xestión e a comprensión pola comunidade investigadora e por outras persoas que desexen traballar con eles.

Acceso a ficheiros de datos

Para descargar os ficheiros de datos do CIS, primeiro debes completar un formulario. A información recollida é unicamente para o seu tratamento estatístico por parte da Institución ou para notificar ao usuario, se é o caso, calquera cambio realizado nos datos do estudo solicitado.

Os ficheiros só se poden descargar individualmente, estudo por estudo; non é posible realizar descargas masivas.

Formato de ficheiro de datos

Os ficheiros de microdatos (matrices de datos) das enquisas do CIS, xunto coa súa documentación técnica, descárganse en formato comprimido ( MDxxxx.zip ), polo que deben extraerse antes de traballar con eles.

Este ficheiro contén os seguintes ficheiros, que son necesarios para a explotación do estudo:

  • Documentación:
    • Cuestionario ( cuestionariosxxxx ). En formato PDF.
    • Ficha técnica ( Ftxxxx ). En formato PDF.
    • Libro de códigos ( codexxxx ). En formato PDF.
    • Tarxetas ( tarxetasxxxx ). En formato PDF (só para enquisas realizadas mediante entrevista presencial).
  • Ficheiro de microdatos anonimizado ( DAxxxx ) en formato ASCII . (Lea a sección "Formato de ficheiro de datos - ASCII" e " Anexo ").
  • Programa de sintaxe de lectura de ficheiros de microdatos para traballar con SPSS ( ESxxxx ). En formato ASCII . (Lea as seccións "Formato de ficheiro de sintaxe de SPSS" e " Apéndice ").
  • Outros tipos de ficheiros que tamén poden conter:
    • Ficheiro de microdatos en formato SAV , de SPSS   ( xxxx.sav ). Dispoñible para estudos cuxos datos foron preparados desde 2018 (inclúe estudos de calquera data).
    • Ficheiro de microdatos en formato CSV , con e sen etiquetas ( xxxx_etiq.csv , xxxx_num.csv ). Dispoñible para estudos cuxos datos foron preparados desde 2023 (inclúe estudos de calquera data).
    • Programa de sintaxe de lectura de ficheiros de microdatos para traballar con SAS ( Sasxxxx ). En formato ASCII. Só dispoñible para certos estudos realizados entre xaneiro de 2009 e novembro de 2013. (Vexa a sección "Formato de ficheiro de sintaxe SAS").

Cando o estudo ten varios documentos do mesmo tipo (por exemplo, máis dun cuestionario, máis dunha ficha informativa, etc.), estes adoitan incluírse nun ficheiro comprimido. Os microdatos, dependendo do seu tamaño en bytes, tamén se poden presentar comprimidos.

Cuestións xerais importantes

  • Os microdatos son anonimizados para evitar a identificación individual dos entrevistados. As variables afectadas neste proceso dependen do estudo específico, pero xeralmente son: entrevistador, sección censual, distrito e concellos con 100.000 habitantes ou menos (agás capitais de provincia ou comunidade autónoma). Para máis información, consulte a sección " Sistemas de anonimización ".

  • Algúns estudos requiren reequilibrio ou ponderación de datos segundo o deseño da mostra. Isto xeralmente só afecta á mostra principal, pero ás veces tamén a outros niveis de tratamento. Esta información reflectirase na folla de datos, aínda que os coeficientes de ponderación só poden estar detallados no ficheiro de microdatos.

    IMPORTANTE Para explotar os datos correctamente, é necesario aplicar os coeficientes de ponderación correspondentes indicados na ficha técnica.

    As variables de ponderación adoitan ter un nome estandarizado que comeza coas letras "WEIGHT" (PESO, PESOCCAA, PESOPROV, etc.) e adoitan estar situadas ao final do ficheiro de microdatos.

    Os coeficientes de ponderación sepáranse cunha coma (,). Isto é importante cando se traballa en ordenadores con configuracións rexionais distintas do español.

  • Un ficheiro de microdatos aparece como unha matriz de números, onde as filas ou rexistros corresponden aos entrevistados e as columnas ás respostas dadas a cada variable. As columnas asignadas a cada variable pódense atopar no libro de códigos ou no cuestionario se se implementou en papel (PAPI), onde se indican cun número entre parénteses á dereita das categorías de resposta.

    Anteriormente, o número de columnas nas matrices de datos limitábase a 80, polo que se usaban tantas filas como fosen necesarias para completar a información de cada entrevistado. Cada fila de 80 columnas corresponde a unha TARXETA DE REXISTRO. A transición dunha tarxeta a outra indícase no cuestionario (T1, T2, etc.).

    A partir do estudo n.º 2083 (febreiro de 1994), os cuestionarios do CIS deixaron de estar estruturados mediante fichas e a información de cada entrevista rexistrouse nunha única liña.

    Ambos os formatos (con/sen REXISTROS) coexisten nos ficheiros de microdatos proporcionados polo CIS.

Formato de ficheiro de datos - ASCII

Os ficheiros de datos do CIS ofrécense en formato ASCII (formato de texto aberto) e pódense usar con calquera software estatístico: SPSS, SAS, R, etc.

IMPORTANTE Cando os datos do estudo requiran ponderación , teña en conta que neste formato de ficheiro os datos non se proporcionan ponderados , polo que para explotalos é necesario aplicar os coeficientes.

Para usar este formato de ficheiro, lea as instrucións do Apéndice.

Formato de ficheiro de datos - SAV

A extensión de ficheiro .sav é o ficheiro de datos para o programa de análise estatística IBM SPSS. Os datos xa están procesados e listos para traballar con eles directamente desde a aplicación.

En estudos máis antigos, pode que non se inclúan as etiquetas das variables nin as etiquetas das categorías de resposta. Ocasionalmente, poden aparecer etiquetas das variables, pero só para variables multicompoñentes (MV multivariante, MR multiresposta e MD multidicotómica). Os estudos máis recentes, ou os que foron procesados recentemente, conteñen as etiquetas completas.

IMPORTANTE: Se os datos dun estudo requiren axuste, proporcionaranse ponderados . Se hai máis dunha variable de ponderación, a que aparecerá activada será a que afecte á mostra principal , normalmente denominada PESO.

Formato de ficheiro de datos - CSV

CSV significa "valores separados por comas". É un formato aberto.

Estes ficheiros teñen o aspecto de táboas onde as filas corresponden ás persoas entrevistadas e as columnas ás variables.

A forma máis común de ler estes ficheiros é usar o programa Excel.

Ofrécense en 2 versións:

  • con etiquetas de nomes de variables e categorías de resposta ( xxxx_etiq.csv )
  • sen etiqueta, é dicir, numérico ( xxxx_num.csv )

IMPORTANTE Cando os datos do estudo requiran ponderación , teña en conta que neste formato de ficheiro os datos non se proporcionan ponderados , polo que para explotalos é necesario aplicar os coeficientes.

Formato de ficheiro de sintaxe - SPSS

O ficheiro de sintaxe preséntase en formato ASCII, pero está deseñado para funcionar co programa de procesamento estatístico SPSS.

Contén, como mínimo, os comandos mínimos necesarios para ler correctamente os microdatos: a definición de variables (DATA LIST) e a ponderación (WEIGHT) cando o deseño da mostra o require.

Pode que non se inclúan outros comandos de SPSS, como as etiquetas de variables (ETIQUETAS DE VARIABLES) e as categorías de resposta (ETIQUETAS DE VALORES), e comandos como RECODE, MISSING VALUES, FREQUENCIES, etc. Ocasionalmente, poden aparecer etiquetas de variables (ETIQUETAS DE VARIABLES), pero só para variables multicompoñentes (VM multivariante, RM multiresposta e MD multidicotómica). Os estudos máis recentes, ou os que foron procesados recentemente, conteñen a sintaxe completa.

IMPORTANTE Se un estudo require máis dunha variable de ponderación (por exemplo, PESO e PESOCCAA), só se deixa activada a principal ou a que afecta á mostra máis global (WEIGHT BY PESO), as outras poden non aparecer na sintaxe ou poden estar comentadas (texto definido por /* e */).

Para as enquisas realizadas entre 1992 e 1997, o programa de sintaxe pode estar escrito en versións antigas de SPSS, concretamente en UNIX, que manexa a sintaxe de forma algo diferente ás versións máis recentes. Nestes casos, as instrucións que se atopan enriba da LISTA DE DATOS deberían eliminarse ou, polo menos, non executarse, e deberían engadirse terminadores de comando, que poden ser un punto (.) ou unha liña en branco, para separar as instrucións.

Para usar este formato de ficheiro, lea as instrucións do Apéndice.

Formato de ficheiro de sintaxe - SAS

O ficheiro de sintaxe preséntase en formato ASCII, pero está deseñado para funcionar co programa de procesamento estatístico SAS.

Como mínimo, contén as instrucións necesarias para a lectura correcta dos microdatos. Outras instrucións que aparecen no programa son as que etiquetan as variables e as categorías de resposta.

Este formulario xa non está dispoñible e só o está para algúns estudos realizados entre xaneiro de 2009 e novembro de 2013.