Gender Divide in Data Science

    Aakanksha Nallabothula Surya
    Shreejaya Bharathan

%reload_ext rpy2.ipython
%R library(ggplot2)
%R library(scales)
import numpy as np
import pandas as pd

Datasets

Kaggle 2017 ML and DS Survey

Kaggle 2018 ML and DS Survey

kaggle_2018_data = pd.read_csv('./kaggle-survey-2018/multipleChoiceResponses.csv')
kaggle_2018_data.head()

/Users/aakanksha/miniconda3/lib/python3.7/site-packages/IPython/core/interactiveshell.py:3058: DtypeWarning: Columns (0,2,8,10,21,23,24,25,26,27,28,44,56,64,83,85,87,107,109,123,125,150,157,172,174,194,210,218,219,223,246,249,262,264,276,277,278,279,280,281,282,283,284,285,286,287,288,289,290,304,306,325,326,329,341,368,371,384,385,389,390,391,393,394) have mixed types. Specify dtype option on import or set low_memory=False.
  interactivity=interactivity, compiler=compiler, result=result)

kaggle_2017_data = pd.read_csv('multipleChoiceResponses_2017.csv', encoding = "ISO-8859-1")
kaggle_2017_data.head()

/Users/aakanksha/miniconda3/lib/python3.7/site-packages/IPython/core/interactiveshell.py:3058: DtypeWarning: Columns (31,83,86,87,98,99,109,116,123,124,127,129,130,164) have mixed types. Specify dtype option on import or set low_memory=False.
  interactivity=interactivity, compiler=compiler, result=result)