Syllabus

Detalles del curso

  • Clases: Martes 16.00-17.10
  • Práctico: Martes 17.20-18:30
  • A31
  • Slack

Contacto

El canal de contacto de preferencia es Slack, y en segunda instancia, email.

Presentación

R es uno de los lenguajes de programación estadística más populares y demandados del último tiempo. Una de las razones principales es que tanto el software como la comunidad que hace uso de este se maneja en un marco de la ciencia abierta (r Open Science Tools o rOpensci), permitiendo el desarrollo constante de una serie de herramientas que permiten mejorar nuestras investigaciones, de manera libre, gratis y colaborativa.

Para las ciencias sociales estos elementos no son triviales. Es frecuente encontrarse con personas de nuestro campo que se están iniciando en R y desisten de este intento dada la frustración y pensamientos de incapacidad. Aprender R puede ser difícil al iniciar – es como aprender cualquier otro lenguaje o idioma -, y poco se ha pensado en cómo implementar enseñanza a grupos más expuestos a estos prejuicios, como en las ciencias sociales y humanidades.

Se propone que un curso de introducción de R para análisis de datos sociales puede abordar estos desafíos basado en enseñar herramientas concretas que faciliten y potencien las investigaciones sociales. Basada en la experiencia de enseñanza de R en contextos similares, esto implica introducir prácticas del rOpensci como la colaboración y reproducibilidad, que facilitan sin duda el aprendizaje colectivo y la calidad de los productos desarrollados durante el curso.

¡Iniciemos este desafío juntas/os!

Descripción

Este curso busca introducir a estudiante en el uso de R y RStudio para el análisis de datos sociales. En ese sentido, será una introducción al entorno R y a la interfaz de RStudio para su uso en contextos académicos. Al mismo tiempo, el curso profundiza en temas específicos para las ciencias sociales como el análisis estadístico y la presentación de resultados (visualización de datos).

Objetivos

Objetivo general

Aprender las principales herramientas para el análisis de datos sociales en RStudio, con el fin de lograr un uso autónomo del software

Objetivos específicos

El curso no es un curso de programación en R , sino que una aplicación concreta del uso de R para ciencias sociales. Por ello, el curso tiene como propósito específico que los estudiantes sean capaces de

  1. Manejar R y herramientas asociadas a su utilización (rOpensci), utilizando prácticas que les permitan avanzar en su aprendizaje de manera autónoma (Unidad 1)

  2. Manipular, procesar y limpiar datos sociales utilizando R (Unidad 2)

  3. Aplicar herramientas para análisis estadísticos descriptivos en R (Unidad 3)

  4. Aplicar herramientas para análisis estadísticos inferenciales en R (Unidad 4)

  5. Presentar de resultados, a partir de la visualización de datos y construcción de documentos (transversal a todas las unidades)

I. Contenidos

Unidad 1. Elementos y herramientas básicos de R

1.1 R enviroment: interfaz de RStudio, elementos de script, workspace

1.2 Prácticas y herramientas de consulta: CRAN, stackoverflow, Rcommunity

1.3 Herramientas para la colaboración y comunicación: Rprojects, GitHub y Slack

1.4 Librerías y funciones para las ciencias sociales: tidyverse y sj (sjmisc y sjPlot)

1.5 Construcción de reportes reproducibles e integrados con código: RMarkdown

Unidad 2. Manipulación y limpieza de datos

2.1 Importar y exportar datos en diferentes formatos

2.2 Validación y limpieza de variables (missing values)

2.3 Transformación y selección de variables

2.4 Transformación de datos en tidydata con tidyr

Unidad 3. Análisis estadístico descriptivo en R

3.1 Análisis descriptivos univariados: medidas de tendencia central, dispersión y frecuencias

3.2 Análisis descriptivo bivariado: tablas de contingencia, correlaciones y ANOVA

3.3 Representación gráfica con sjPlot: Likert, proporciones agrupadas y distribuciones

Unidad 4. Análisis estadístico inferencial en R

4.1 Muestras complejas y precisión de inferencia estadística con survey y srvyr

4.2 Pruebas de hipótesis y representación gráfica

4.3 Regresiones lineales, predictores categóricos y representación gráfica

4.4 Regresiones logísticas, exponenciación y representación gráfica

4.5 Ajuste de modelos (performance) y otras representaciones gráficas (predicción, efectos marginales e interacciones)

II. Metodología del curso

Dado el contexto de pandemia se tendrán tres espacios principales de aprendizaje:

  1. Sesiones de clases lectivas (), donde se presentarán los aspectos centrales de los contenidos correspondientes a la semana vía Zoom. Tanto el documento de presentación como el video de la clase se encontrará disponible en la pestaña de Clases de este sitio web del curso.

  2. Prácticas guiadas (): cada tema de las sesiones se acompaña de una guía práctica de aplicación de contenidos, y que estarán disponibles en la pestaña Prácticos. Estas guías están diseñadas para ser desarrolladas de manera autónoma por cada estudiante semana a semana. También serán desarrolladas y revisadas cada semana en grupos pequeños con supervisión de ayudantes para dar mayor oportunidad de participación y resolver las dudas respectivas.

  3. Tareas: se desarrollarán 6 tareas que les permitirán aplicar contenidos y replicar lo aprendido en los prácticos en base a una base de datos seleccionada por ustedes al inicio de semestre. Esto permitirá no solo recibir retroalimentación constante, sino que aprender con datos que puedan ser útiles para otros proyectos de investigación que sean de su interés.

Recursos principales de aprendizaje

1. Sitio web

El curso tiene disponible este sitio web, que he programado pues permite integrar texto y código de R, junto con hacer interactuar con otras plataformas como el foro Disqus y Github.

2. R, RStudio y RStudio Cloud

El software que se utilizará principalmente será R y su interfaz RStudio. Ahora bien, muchos usuario/as de R presentan problemas de instalación dada la capacidad de sus computadores y sistemas operativos. Por ello se promoverá el uso del servicio gratuito de RStudio.cloud , que permite ejecutar la interfaz de RStudio en el navegador web y compartir el código de manera sincrónica con la docente. Dado el enfoque rOpensci, las plantillas para ejemplos, ejercicios y mini proyectos podrán ser implementados en esta plataforma. Si bien no es ideal pues tiene limitantes de memoria, mientras ustedes asimilan el programa será una buena herramienta.

3. Slack

Slack es una herramienta de uso frecuente en equipos de trabajo que utilizan R pues permite integrar script (o código) de distintos lenguajes en el chat. Se tendrá un espacio de trabajo en la app Slack que permite que cualquier persona del curso pueda hacer preguntas y cualquiera pueda responder. Esta es una de las prácticas que se promoverán en el curso pues es probable que los estudiantes tengan dudas similares a las de sus compañeros, por lo que las respuestas de la docente, ayudante y otros compañeros serán de libre disposición de todo el curso. Dentro del Slack se tendrán canales para hacer preguntas sobre las sesiones, tareas y proyectos, y el link que permite unirse a este estará disponible en el sitio del curso.

Guía de uso de slack

Unirse a Slack de curso

4. GitHub

Github es una plataforma online que permite depositar archivos y el control de versiones (VCS), por lo que se ha transformado una herramienta fácil y popular para corregir, colaborar y compartir códigos de distintos lenguajes (no solo R). Utilizaremos esta plataforma para subir las tareas, ayudarlos/as de manera directa con su código y darles feedback.

5. Zotero

Zotero es un gestor bibliográfico que permite sistematizar las referencias y archivos utilizados en una investigación o informe. Enseñaremos este de manera complementaria pues este software se puede integrar en los documentos escritos hechos en R.

III. Evaluación de aprendizajes

Las evaluaciones del curso se componen de tareas (70% de la nota final) y la entrega de una investigación (30% de la nota final), en dónde en ambos casos la/el estudiante deberá seleccionar datos y temas de interés de modo de acercar la aplicación del software a contextos de investigación propios de la/el estudiante. En concreto, cada evaluación consiste en:

1. Tareas (70% de la nota final): consisten en evaluaciones parciales temáticas que buscan poner en práctica los aprendizajes expuestos en la sesión de clases y herramientas reforzadas en los prácticos. El promedio de notas las de tareas será calculado solo con las cuatro mejores entregas a partir de la Tarea 1 (25% c/u)1. La evaluación es individual o en parejas (la misma durante todo el semestre).

2. Investigación final (30% de la nota final): consiste en una evaluación final que aplica los conocimientos y herramientas entregadas a lo largo de curso, a un proyecto de investigación de elección por el/la estudiante. La evaluación es individual.

3. Consideraciones de asistencia: consiste en criterios de evaluación según el porcentaje de asistencia a las clases y prácticos, los cuales consisten en la eliminación de la nota de menor valor para quienes tiene un 80% de asistencia, mientras que para quienes tengan menos de 60% deberán presentar su examen de forma oral.

IV. Calendario de actividades

El calendario de actividades se puede revisar con detención en la pestaña planificación. Un resumen breve de las tareas es

Evaluación Formato Fecha Ponderación Nota Final
Tarea 4 tareas2 Hasta Viernes de la semana informada 70% (25% c/u)
Investigación Única entrega 27 de Julio 30%

V. Recursos pedagógicos

1. Referencias bibliográficas

2. Sitios de consulta


  1. Es decir, a lo largo del semestre deberá entregar 6 tareas: 5 calificadas (Tarea 1 a Tarea 5) y 1 no (Tarea 0). De las 5 tareas restantes, solo las 4 mejores serán consideradas en su promedio de las tareas.↩︎

  2. Es decir, a lo largo del semestre deberá entregar 6 tareas: 5 calificadas (Tarea 1 a Tarea 5) y 1 no (Tarea 0). De las 5 tareas restantes, solo las 4 mejores serán consideradas en su promedio de las tareas.↩︎