{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## Getting Started\n",
    "\n",
    "This notebook will show you how to built a complexe pipeline using aikit and how to crossvalidated it"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>pclass</th>\n",
       "      <th>name</th>\n",
       "      <th>sex</th>\n",
       "      <th>age</th>\n",
       "      <th>sibsp</th>\n",
       "      <th>parch</th>\n",
       "      <th>ticket</th>\n",
       "      <th>fare</th>\n",
       "      <th>cabin</th>\n",
       "      <th>embarked</th>\n",
       "      <th>boat</th>\n",
       "      <th>body</th>\n",
       "      <th>home_dest</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1</td>\n",
       "      <td>McCarthy, Mr. Timothy J</td>\n",
       "      <td>male</td>\n",
       "      <td>54.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>17463</td>\n",
       "      <td>51.8625</td>\n",
       "      <td>E46</td>\n",
       "      <td>S</td>\n",
       "      <td>NaN</td>\n",
       "      <td>175.0</td>\n",
       "      <td>Dorchester, MA</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>1</td>\n",
       "      <td>Fortune, Mr. Mark</td>\n",
       "      <td>male</td>\n",
       "      <td>64.0</td>\n",
       "      <td>1</td>\n",
       "      <td>4</td>\n",
       "      <td>19950</td>\n",
       "      <td>263.0000</td>\n",
       "      <td>C23 C25 C27</td>\n",
       "      <td>S</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Winnipeg, MB</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>1</td>\n",
       "      <td>Sagesser, Mlle. Emma</td>\n",
       "      <td>female</td>\n",
       "      <td>24.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>PC 17477</td>\n",
       "      <td>69.3000</td>\n",
       "      <td>B35</td>\n",
       "      <td>C</td>\n",
       "      <td>9</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>3</td>\n",
       "      <td>Panula, Master. Urho Abraham</td>\n",
       "      <td>male</td>\n",
       "      <td>2.0</td>\n",
       "      <td>4</td>\n",
       "      <td>1</td>\n",
       "      <td>3101295</td>\n",
       "      <td>39.6875</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>1</td>\n",
       "      <td>Maioni, Miss. Roberta</td>\n",
       "      <td>female</td>\n",
       "      <td>16.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>110152</td>\n",
       "      <td>86.5000</td>\n",
       "      <td>B79</td>\n",
       "      <td>S</td>\n",
       "      <td>8</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>3</td>\n",
       "      <td>Waelens, Mr. Achille</td>\n",
       "      <td>male</td>\n",
       "      <td>22.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>345767</td>\n",
       "      <td>9.0000</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Antwerp, Belgium / Stanton, OH</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>3</td>\n",
       "      <td>Reed, Mr. James George</td>\n",
       "      <td>male</td>\n",
       "      <td>NaN</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>362316</td>\n",
       "      <td>7.2500</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "      <td>NaN</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>1</td>\n",
       "      <td>Swift, Mrs. Frederick Joel (Margaret Welles Ba...</td>\n",
       "      <td>female</td>\n",
       "      <td>48.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>17466</td>\n",
       "      <td>25.9292</td>\n",
       "      <td>D17</td>\n",
       "      <td>S</td>\n",
       "      <td>8</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Brooklyn, NY</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>1</td>\n",
       "      <td>Smith, Mrs. Lucien Philip (Mary Eloise Hughes)</td>\n",
       "      <td>female</td>\n",
       "      <td>18.0</td>\n",
       "      <td>1</td>\n",
       "      <td>0</td>\n",
       "      <td>13695</td>\n",
       "      <td>60.0000</td>\n",
       "      <td>C31</td>\n",
       "      <td>S</td>\n",
       "      <td>6</td>\n",
       "      <td>NaN</td>\n",
       "      <td>Huntington, WV</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>1</td>\n",
       "      <td>Rowe, Mr. Alfred G</td>\n",
       "      <td>male</td>\n",
       "      <td>33.0</td>\n",
       "      <td>0</td>\n",
       "      <td>0</td>\n",
       "      <td>113790</td>\n",
       "      <td>26.5500</td>\n",
       "      <td>NaN</td>\n",
       "      <td>S</td>\n",
       "      <td>NaN</td>\n",
       "      <td>109.0</td>\n",
       "      <td>London</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   pclass                                               name     sex   age  \\\n",
       "0       1                            McCarthy, Mr. Timothy J    male  54.0   \n",
       "1       1                                  Fortune, Mr. Mark    male  64.0   \n",
       "2       1                               Sagesser, Mlle. Emma  female  24.0   \n",
       "3       3                       Panula, Master. Urho Abraham    male   2.0   \n",
       "4       1                              Maioni, Miss. Roberta  female  16.0   \n",
       "5       3                               Waelens, Mr. Achille    male  22.0   \n",
       "6       3                             Reed, Mr. James George    male   NaN   \n",
       "7       1  Swift, Mrs. Frederick Joel (Margaret Welles Ba...  female  48.0   \n",
       "8       1     Smith, Mrs. Lucien Philip (Mary Eloise Hughes)  female  18.0   \n",
       "9       1                                 Rowe, Mr. Alfred G    male  33.0   \n",
       "\n",
       "   sibsp  parch    ticket      fare        cabin embarked boat   body  \\\n",
       "0      0      0     17463   51.8625          E46        S  NaN  175.0   \n",
       "1      1      4     19950  263.0000  C23 C25 C27        S  NaN    NaN   \n",
       "2      0      0  PC 17477   69.3000          B35        C    9    NaN   \n",
       "3      4      1   3101295   39.6875          NaN        S  NaN    NaN   \n",
       "4      0      0    110152   86.5000          B79        S    8    NaN   \n",
       "5      0      0    345767    9.0000          NaN        S  NaN    NaN   \n",
       "6      0      0    362316    7.2500          NaN        S  NaN    NaN   \n",
       "7      0      0     17466   25.9292          D17        S    8    NaN   \n",
       "8      1      0     13695   60.0000          C31        S    6    NaN   \n",
       "9      0      0    113790   26.5500          NaN        S  NaN  109.0   \n",
       "\n",
       "                        home_dest  \n",
       "0                  Dorchester, MA  \n",
       "1                    Winnipeg, MB  \n",
       "2                             NaN  \n",
       "3                             NaN  \n",
       "4                             NaN  \n",
       "5  Antwerp, Belgium / Stanton, OH  \n",
       "6                             NaN  \n",
       "7                    Brooklyn, NY  \n",
       "8                  Huntington, WV  \n",
       "9                          London  "
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from aikit.datasets.datasets import load_dataset, DatasetEnum\n",
    "Xtrain, y_train, _ ,_ , _ = load_dataset(DatasetEnum.titanic)\n",
    "Xtrain.head(10)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "array([0, 0, 1, 0, 1, 0, 0, 1, 1, 0], dtype=int64)"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "y_train[0:10]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "image/svg+xml": [
       "<?xml version=\"1.0\" encoding=\"UTF-8\" standalone=\"no\"?>\r\n",
       "<!DOCTYPE svg PUBLIC \"-//W3C//DTD SVG 1.1//EN\"\r\n",
       " \"http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd\">\r\n",
       "<!-- Generated by graphviz version 2.38.0 (20140413.2041)\r\n",
       " -->\r\n",
       "<!-- Title: %3 Pages: 1 -->\r\n",
       "<svg width=\"134pt\" height=\"260pt\"\r\n",
       " viewBox=\"0.00 0.00 134.00 260.00\" xmlns=\"http://www.w3.org/2000/svg\" xmlns:xlink=\"http://www.w3.org/1999/xlink\">\r\n",
       "<g id=\"graph0\" class=\"graph\" transform=\"scale(1 1) rotate(0) translate(4 256)\">\r\n",
       "<title>%3</title>\r\n",
       "<polygon fill=\"white\" stroke=\"none\" points=\"-4,4 -4,-256 130,-256 130,4 -4,4\"/>\r\n",
       "<!-- enc -->\r\n",
       "<g id=\"node1\" class=\"node\"><title>enc</title>\r\n",
       "<ellipse fill=\"lightblue\" stroke=\"lightblue\" cx=\"99\" cy=\"-162\" rx=\"27\" ry=\"18\"/>\r\n",
       "<text text-anchor=\"middle\" x=\"99\" y=\"-158.3\" font-family=\"Times New Roman,serif\" font-size=\"14.00\">enc</text>\r\n",
       "</g>\r\n",
       "<!-- imp -->\r\n",
       "<g id=\"node2\" class=\"node\"><title>imp</title>\r\n",
       "<ellipse fill=\"lightblue\" stroke=\"lightblue\" cx=\"99\" cy=\"-90\" rx=\"27\" ry=\"18\"/>\r\n",
       "<text text-anchor=\"middle\" x=\"99\" y=\"-86.3\" font-family=\"Times New Roman,serif\" font-size=\"14.00\">imp</text>\r\n",
       "</g>\r\n",
       "<!-- enc&#45;&gt;imp -->\r\n",
       "<g id=\"edge1\" class=\"edge\"><title>enc&#45;&gt;imp</title>\r\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M99,-143.697C99,-135.983 99,-126.712 99,-118.112\"/>\r\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"102.5,-118.104 99,-108.104 95.5001,-118.104 102.5,-118.104\"/>\r\n",
       "</g>\r\n",
       "<!-- rf -->\r\n",
       "<g id=\"node4\" class=\"node\"><title>rf</title>\r\n",
       "<ellipse fill=\"lightblue\" stroke=\"lightblue\" cx=\"63\" cy=\"-18\" rx=\"27\" ry=\"18\"/>\r\n",
       "<text text-anchor=\"middle\" x=\"63\" y=\"-14.3\" font-family=\"Times New Roman,serif\" font-size=\"14.00\">rf</text>\r\n",
       "</g>\r\n",
       "<!-- imp&#45;&gt;rf -->\r\n",
       "<g id=\"edge3\" class=\"edge\"><title>imp&#45;&gt;rf</title>\r\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M90.6504,-72.7646C86.2885,-64.2831 80.8531,-53.7144 75.9587,-44.1974\"/>\r\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"78.9904,-42.4395 71.3043,-35.1473 72.7654,-45.6409 78.9904,-42.4395\"/>\r\n",
       "</g>\r\n",
       "<!-- sel -->\r\n",
       "<g id=\"node3\" class=\"node\"><title>sel</title>\r\n",
       "<ellipse fill=\"lightblue\" stroke=\"lightblue\" cx=\"99\" cy=\"-234\" rx=\"27\" ry=\"18\"/>\r\n",
       "<text text-anchor=\"middle\" x=\"99\" y=\"-230.3\" font-family=\"Times New Roman,serif\" font-size=\"14.00\">sel</text>\r\n",
       "</g>\r\n",
       "<!-- sel&#45;&gt;enc -->\r\n",
       "<g id=\"edge2\" class=\"edge\"><title>sel&#45;&gt;enc</title>\r\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M99,-215.697C99,-207.983 99,-198.712 99,-190.112\"/>\r\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"102.5,-190.104 99,-180.104 95.5001,-190.104 102.5,-190.104\"/>\r\n",
       "</g>\r\n",
       "<!-- vect -->\r\n",
       "<g id=\"node5\" class=\"node\"><title>vect</title>\r\n",
       "<ellipse fill=\"lightblue\" stroke=\"lightblue\" cx=\"27\" cy=\"-90\" rx=\"27\" ry=\"18\"/>\r\n",
       "<text text-anchor=\"middle\" x=\"27\" y=\"-86.3\" font-family=\"Times New Roman,serif\" font-size=\"14.00\">vect</text>\r\n",
       "</g>\r\n",
       "<!-- vect&#45;&gt;rf -->\r\n",
       "<g id=\"edge4\" class=\"edge\"><title>vect&#45;&gt;rf</title>\r\n",
       "<path fill=\"none\" stroke=\"black\" d=\"M35.3496,-72.7646C39.7115,-64.2831 45.1469,-53.7144 50.0413,-44.1974\"/>\r\n",
       "<polygon fill=\"black\" stroke=\"black\" points=\"53.2346,-45.6409 54.6957,-35.1473 47.0096,-42.4395 53.2346,-45.6409\"/>\r\n",
       "</g>\r\n",
       "</g>\r\n",
       "</svg>\r\n"
      ],
      "text/plain": [
       "<graphviz.dot.Digraph at 0x1f63efcd9b0>"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from aikit.pipeline import GraphPipeline\n",
    "from aikit.transformers import ColumnsSelector, NumericalEncoder, NumImputer, CountVectorizerWrapper\n",
    "from sklearn.ensemble import RandomForestClassifier\n",
    "\n",
    "text_cols     = [\"name\",\"ticket\"]\n",
    "non_text_cols = [c for c in Xtrain.columns if c not in text_cols]\n",
    "\n",
    "gpipeline = GraphPipeline(models = {\n",
    "    \"sel\":ColumnsSelector(columns_to_use=non_text_cols),\n",
    "    \"enc\":NumericalEncoder(columns_to_use=\"object\"),\n",
    "    \"imp\":NumImputer(),\n",
    "    \"vect\":CountVectorizerWrapper(analyzer=\"word\",columns_to_use=text_cols),\n",
    "    \"rf\":RandomForestClassifier(n_estimators=100, random_state=123)\n",
    "                       },\n",
    "              edges = [(\"sel\",\"enc\",\"imp\",\"rf\"),(\"vect\",\"rf\")])\n",
    "\n",
    "gpipeline.fit(Xtrain,y_train)\n",
    "gpipeline.graphviz"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "cv 0 started\n",
      "\n",
      "cv 1 started\n",
      "\n",
      "cv 2 started\n",
      "\n",
      "cv 3 started\n",
      "\n",
      "cv 4 started\n",
      "\n",
      "cv 5 started\n",
      "\n",
      "cv 6 started\n",
      "\n",
      "cv 7 started\n",
      "\n",
      "cv 8 started\n",
      "\n",
      "cv 9 started\n",
      "\n"
     ]
    },
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "[Parallel(n_jobs=1)]: Done  10 out of  10 | elapsed:   13.3s finished\n"
     ]
    },
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>test_accuracy</th>\n",
       "      <th>test_roc_auc</th>\n",
       "      <th>test_neg_log_loss</th>\n",
       "      <th>train_accuracy</th>\n",
       "      <th>train_roc_auc</th>\n",
       "      <th>train_neg_log_loss</th>\n",
       "      <th>fit_time</th>\n",
       "      <th>score_time</th>\n",
       "      <th>n_test_samples</th>\n",
       "      <th>fold_nb</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>0.980952</td>\n",
       "      <td>0.998095</td>\n",
       "      <td>-0.116852</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.043928</td>\n",
       "      <td>0.841272</td>\n",
       "      <td>0.133642</td>\n",
       "      <td>105</td>\n",
       "      <td>0</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>0.961905</td>\n",
       "      <td>0.969512</td>\n",
       "      <td>-0.484764</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.042055</td>\n",
       "      <td>0.903584</td>\n",
       "      <td>0.126663</td>\n",
       "      <td>105</td>\n",
       "      <td>1</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>0.961905</td>\n",
       "      <td>0.994474</td>\n",
       "      <td>-0.139215</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.041864</td>\n",
       "      <td>0.747745</td>\n",
       "      <td>0.117702</td>\n",
       "      <td>105</td>\n",
       "      <td>2</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>0.990476</td>\n",
       "      <td>1.000000</td>\n",
       "      <td>-0.102579</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.042316</td>\n",
       "      <td>0.735497</td>\n",
       "      <td>0.120638</td>\n",
       "      <td>105</td>\n",
       "      <td>3</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>0.952381</td>\n",
       "      <td>0.994284</td>\n",
       "      <td>-0.130034</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.044032</td>\n",
       "      <td>0.772531</td>\n",
       "      <td>0.119271</td>\n",
       "      <td>105</td>\n",
       "      <td>4</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>0.961905</td>\n",
       "      <td>0.996570</td>\n",
       "      <td>-0.134116</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.041499</td>\n",
       "      <td>0.725558</td>\n",
       "      <td>0.126695</td>\n",
       "      <td>105</td>\n",
       "      <td>5</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>0.971429</td>\n",
       "      <td>0.998476</td>\n",
       "      <td>-0.140661</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.047236</td>\n",
       "      <td>0.761099</td>\n",
       "      <td>0.116698</td>\n",
       "      <td>105</td>\n",
       "      <td>6</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>0.961905</td>\n",
       "      <td>0.995617</td>\n",
       "      <td>-0.155353</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.040947</td>\n",
       "      <td>0.734543</td>\n",
       "      <td>0.111288</td>\n",
       "      <td>105</td>\n",
       "      <td>7</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>0.961538</td>\n",
       "      <td>0.994386</td>\n",
       "      <td>-0.132630</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.041335</td>\n",
       "      <td>0.740471</td>\n",
       "      <td>0.111782</td>\n",
       "      <td>104</td>\n",
       "      <td>8</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>0.980769</td>\n",
       "      <td>0.996903</td>\n",
       "      <td>-0.150282</td>\n",
       "      <td>1.0</td>\n",
       "      <td>1.0</td>\n",
       "      <td>-0.044830</td>\n",
       "      <td>0.749113</td>\n",
       "      <td>0.112777</td>\n",
       "      <td>104</td>\n",
       "      <td>9</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "   test_accuracy  test_roc_auc  test_neg_log_loss  train_accuracy  \\\n",
       "0       0.980952      0.998095          -0.116852             1.0   \n",
       "1       0.961905      0.969512          -0.484764             1.0   \n",
       "2       0.961905      0.994474          -0.139215             1.0   \n",
       "3       0.990476      1.000000          -0.102579             1.0   \n",
       "4       0.952381      0.994284          -0.130034             1.0   \n",
       "5       0.961905      0.996570          -0.134116             1.0   \n",
       "6       0.971429      0.998476          -0.140661             1.0   \n",
       "7       0.961905      0.995617          -0.155353             1.0   \n",
       "8       0.961538      0.994386          -0.132630             1.0   \n",
       "9       0.980769      0.996903          -0.150282             1.0   \n",
       "\n",
       "   train_roc_auc  train_neg_log_loss  fit_time  score_time  n_test_samples  \\\n",
       "0            1.0           -0.043928  0.841272    0.133642             105   \n",
       "1            1.0           -0.042055  0.903584    0.126663             105   \n",
       "2            1.0           -0.041864  0.747745    0.117702             105   \n",
       "3            1.0           -0.042316  0.735497    0.120638             105   \n",
       "4            1.0           -0.044032  0.772531    0.119271             105   \n",
       "5            1.0           -0.041499  0.725558    0.126695             105   \n",
       "6            1.0           -0.047236  0.761099    0.116698             105   \n",
       "7            1.0           -0.040947  0.734543    0.111288             105   \n",
       "8            1.0           -0.041335  0.740471    0.111782             104   \n",
       "9            1.0           -0.044830  0.749113    0.112777             104   \n",
       "\n",
       "   fold_nb  \n",
       "0        0  \n",
       "1        1  \n",
       "2        2  \n",
       "3        3  \n",
       "4        4  \n",
       "5        5  \n",
       "6        6  \n",
       "7        7  \n",
       "8        8  \n",
       "9        9  "
      ]
     },
     "execution_count": 17,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "from aikit.cross_validation import cross_validation\n",
    "from sklearn.model_selection import StratifiedKFold\n",
    "\n",
    "cv = StratifiedKFold(10, shuffle=True, random_state=123)\n",
    "\n",
    "cv_res, yhat_proba = cross_validation(gpipeline, Xtrain, y_train,cv=cv, scoring=[\"accuracy\", \"roc_auc\", \"neg_log_loss\"], return_predict=True, method=\"predict_proba\")\n",
    "\n",
    "cv_res"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/html": [
       "<div>\n",
       "<style scoped>\n",
       "    .dataframe tbody tr th:only-of-type {\n",
       "        vertical-align: middle;\n",
       "    }\n",
       "\n",
       "    .dataframe tbody tr th {\n",
       "        vertical-align: top;\n",
       "    }\n",
       "\n",
       "    .dataframe thead th {\n",
       "        text-align: right;\n",
       "    }\n",
       "</style>\n",
       "<table border=\"1\" class=\"dataframe\">\n",
       "  <thead>\n",
       "    <tr style=\"text-align: right;\">\n",
       "      <th></th>\n",
       "      <th>0</th>\n",
       "      <th>1</th>\n",
       "    </tr>\n",
       "  </thead>\n",
       "  <tbody>\n",
       "    <tr>\n",
       "      <th>0</th>\n",
       "      <td>1.00</td>\n",
       "      <td>0.00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>1</th>\n",
       "      <td>0.88</td>\n",
       "      <td>0.12</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>2</th>\n",
       "      <td>0.05</td>\n",
       "      <td>0.95</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>3</th>\n",
       "      <td>0.93</td>\n",
       "      <td>0.07</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>4</th>\n",
       "      <td>0.07</td>\n",
       "      <td>0.93</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>5</th>\n",
       "      <td>1.00</td>\n",
       "      <td>0.00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>6</th>\n",
       "      <td>1.00</td>\n",
       "      <td>0.00</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>7</th>\n",
       "      <td>0.03</td>\n",
       "      <td>0.97</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>8</th>\n",
       "      <td>0.06</td>\n",
       "      <td>0.94</td>\n",
       "    </tr>\n",
       "    <tr>\n",
       "      <th>9</th>\n",
       "      <td>0.98</td>\n",
       "      <td>0.02</td>\n",
       "    </tr>\n",
       "  </tbody>\n",
       "</table>\n",
       "</div>"
      ],
      "text/plain": [
       "      0     1\n",
       "0  1.00  0.00\n",
       "1  0.88  0.12\n",
       "2  0.05  0.95\n",
       "3  0.93  0.07\n",
       "4  0.07  0.93\n",
       "5  1.00  0.00\n",
       "6  1.00  0.00\n",
       "7  0.03  0.97\n",
       "8  0.06  0.94\n",
       "9  0.98  0.02"
      ]
     },
     "execution_count": 18,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "yhat_proba.head(10)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### Using cross_validation you get in one call :\n",
    "* both train and test score\n",
    "* all the metrics\n",
    "* the probabilities predicted for each observation"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.9"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}