validation update

Piotr Plonski · Piotr Plonski · commit 78bf675166bd · 2017-03-20T18:32:38.000+01:00
diff --git a/mljar/client/dataset.py b/mljar/client/dataset.py
@@ -102,7 +102,7 @@ def _wait_till_all_datasets_are_valid(self):
 
 
 
-    def add_dataset_if_not_exists(self, X, y):
+    def add_dataset_if_not_exists(self, X, y, title_prefix = 'dataset-'):
         '''
         Checks if dataset already exists, if not it add dataset to project.
         '''
@@ -119,7 +119,7 @@ def add_dataset_if_not_exists(self, X, y):
         # dataset with specified hash does not exist
         if len(dataset_details) != 1:
             # add new dataset
-            dataset_details = self.add_new_dataset(data, y)
+            dataset_details = self.add_new_dataset(data, y, title_prefix)
         else:
             dataset_details = dataset_details[0]
 
@@ -149,9 +149,9 @@ def _accept_dataset_column_usage(self, dataset_hid):
         return response.status_code == 200
 
 
-    def add_new_dataset(self, data, y):
+    def add_new_dataset(self, data, y, title_prefix = 'dataset-'):
         logger.info('Add new dataset')
-        title = 'dataset-' + str(uuid.uuid4())[:4] # set some random name
+        title = title_prefix + str(uuid.uuid4())[:4] # set some random name
         file_path = '/tmp/dataset-'+ str(uuid.uuid4())[:8]+'.csv'
 
         logger.info('Compress data before export')
diff --git a/mljar/mljar.py b/mljar/mljar.py
@@ -6,7 +6,8 @@
 import numpy as np
 
 from utils import *
-from exceptions import BadValueException, IncorrectInputDataException, UndefinedExperimentException
+from exceptions import IncorrectInputDataException, UndefinedExperimentException
+from exceptions import MljarException, BadValueException
 
 from client.project import ProjectClient
 from client.dataset import DatasetClient
@@ -157,15 +158,15 @@ def _start_experiment(self, X, y, validation_data = None):
         # add a dataset to project
         #
         logger.info('MLJAR: add training dataset')
-        self.dataset = DatasetClient(self.project.hid).add_dataset_if_not_exists(X, y)
+        self.dataset = DatasetClient(self.project.hid).add_dataset_if_not_exists(X, y, title_prefix = 'Training-')
 
         self.dataset_vald = None
         if validation_data is not None:
-            if len(validation_data) == 2:
+            if len(validation_data) != 2:
                 raise MljarException('Wrong format of validation data. It should be tuple (X,y)')
             logger.info('MLJAR: add validation dataset')
             X_vald, y_vald = validation_data
-            self.dataset_vald = DatasetClient(self.project.hid).add_dataset_if_not_exists(X_vald, y_vald)
+            self.dataset_vald = DatasetClient(self.project.hid).add_dataset_if_not_exists(X_vald, y_vald, title_prefix = 'Validation-')
         #
         # add experiment to project
         #
diff --git a/mljar/model/project.py b/mljar/model/project.py
@@ -29,9 +29,9 @@ def make_project_instance(self, data):
 class Project(BaseModel):
     schema = ProjectSchema(strict=True)
 
-    def __init__(self, hid, title, description, task, hardware, scope, info, created_at, created_by,
-                    experiments_cnt, models_cnt, datasets, topalg,
-                    compute_now, insights, total_timelog = 0):
+    def __init__(self, hid, title, description, task, hardware, scope, created_at, created_by,
+                    models_cnt, compute_now, experiments_cnt = None, datasets = None, topalg = None,
+                    insights = None, total_timelog = 0, info = None):
         self.hid = hid
         self.title = title
         self.description = description
diff --git a/setup.py b/setup.py
@@ -10,7 +10,7 @@
 
 setup(
     name='mljar',
-    version='0.0.5',
+    version='0.0.6',
     description='Python wrapper over MLJAR API',
     long_description=long_description,
     url='https://github.com/mljar/mljar-api-python',
diff --git a/tests/mljar_test.py b/tests/mljar_test.py
@@ -42,7 +42,7 @@ def test_basic_usage(self):
         '''
         model = Mljar(project = self.proj_title, experiment = self.expt_title,
                         algorithms = ['xgb'], metric='logloss',
-                        validation='3fold', tuning_mode='Normal')
+                        validation_kfolds=3, tuning_mode='Normal')
         self.assertTrue(model is not None)
         # fit models and wait till all models are trained
         model.fit(X = self.X, y = self.y)
@@ -52,6 +52,72 @@ def test_basic_usage(self):
         score = self.mse(pred, self.y)
         self.assertTrue(score < 0.1)
 
+    def test_usage_with_defaults(self):
+        '''
+        Test usage with defaults.
+        '''
+        model = Mljar(project = self.proj_title, experiment = self.expt_title)
+        self.assertTrue(model is not None)
+        # fit models and wait till all models are trained
+        model.fit(X = self.X, y = self.y, wait_till_all_done = False)
+        # wait some time
+        time.sleep(120) # wait a little longer - there are a lot of models
+        # run prediction
+        pred = model.predict(self.X)
+        # get MSE
+        score = self.mse(pred, self.y)
+        self.assertTrue(score < 0.5)
+        # check default validation
+        self.assertEqual(model.selected_algorithm.validation_scheme, "5-fold CV, Shuffle, Stratify")
+
+    def test_usage_with_train_split(self):
+        '''
+        Test usage with train split.
+        '''
+        model = Mljar(project = self.proj_title, experiment = self.expt_title,
+                    validation_train_split = 0.8, algorithms = ['xgb'], tuning_mode='Normal')
+        self.assertTrue(model is not None)
+        # fit models and wait till all models are trained
+        model.fit(X = self.X, y = self.y, wait_till_all_done = False)
+        # wait some time
+        time.sleep(60)
+        # run prediction
+        pred = model.predict(self.X)
+        # get MSE
+        score = self.mse(pred, self.y)
+        self.assertTrue(score < 0.5)
+        # check default validation
+        self.assertEqual(model.selected_algorithm.validation_scheme, "Split 80/20, Shuffle, Stratify")
+
+
+    def test_usage_with_validation_dataset(self):
+        '''
+        Test usage with validation dataset.
+        '''
+        model = Mljar(project = self.proj_title, experiment = self.expt_title,
+                            algorithms = ['xgb'], tuning_mode='Normal')
+        self.assertTrue(model is not None)
+        # load validation data
+        df = pd.read_csv('tests/data/test_1_vald.csv')
+        cols = ['sepal length', 'sepal width', 'petal length', 'petal width']
+        target = 'class'
+        X_vald = df[cols]
+        y_vald = df[target]
+        # fit models and wait till all models are trained
+        model.fit(X = self.X, y = self.y, validation_data=(X_vald, y_vald), wait_till_all_done = False)
+        # wait some time
+        time.sleep(80)
+        # run prediction
+        pred = model.predict(self.X)
+        # get MSE
+        score = self.mse(pred, self.y)
+        self.assertTrue(score < 0.5)
+        # check default validation
+        self.assertEqual(model.selected_algorithm.validation_scheme, "With dataset")
+
+
+
+
     def test_empty_project_title(self):
         with self.assertRaises(BadValueException) as context:
             model = Mljar(project = '', experiment = '')
@@ -86,7 +152,7 @@ def test_non_wait_fit(self):
         '''
         model = Mljar(project = self.proj_title, experiment = self.expt_title,
                         algorithms = ['xgb'], metric='logloss',
-                        validation='3fold', tuning_mode='Normal')
+                        validation_kfolds=3, tuning_mode='Normal')
         self.assertTrue(model is not None)
         # fit models, just start computation and do not wait
         start_time = time.time()
@@ -124,7 +190,7 @@ def test_retrive_models(self):
         '''
         model = Mljar(project = self.proj_title, experiment = self.expt_title,
                         algorithms = ['xgb'], metric='logloss',
-                        validation='3fold', tuning_mode='Normal')
+                        validation_kfolds=3, tuning_mode='Normal')
         self.assertTrue(model is not None)
         # fit models and wait till all models are trained
         model.fit(X = self.X, y = self.y)
@@ -153,7 +219,7 @@ def test_retrive_models(self):
         start_time = time.time()
         model_2 = Mljar(project = self.proj_title, experiment = self.expt_title,
                         algorithms = ['xgb'], metric='logloss',
-                        validation='3fold', tuning_mode='Normal')
+                        validation_kfolds=3, tuning_mode='Normal')
         self.assertTrue(model_2 is not None)
         # re-use trained models
         model_2.fit(X = self.X, y = self.y)
@@ -184,3 +250,6 @@ def test_basic_usage_with_defaults(self):
         score = self.mse(pred, self.y)
         self.assertTrue(score < 0.1)
     '''
+
+if __name__ == "__main__":
+    unittest.main()
diff --git a/tests/result_client_test.py b/tests/result_client_test.py
@@ -20,7 +20,10 @@ def setUp(self):
         proj_title = 'Test project-01'
         proj_task = 'bin_class'
         self.expt_title = 'Test experiment-01'
-        self.validation = '5fold'
+        self.validation_kfolds = 5
+        self.validation_shuffle = True
+        self.validation_stratify = True
+        self.validation_train_split = None
         self.algorithms = ['xgb']
         self.metric = 'logloss'
         self.tuning_mode = 'Normal'
@@ -60,8 +63,10 @@ def test_get_results_for_project(self):
         # add experiment
         ec = ExperimentClient(self.project.hid)
         # create new experiment
-        self.experiment = ec.add_experiment_if_not_exists(self.dataset, self.expt_title, self.project.task,
-                                            self.validation, self.algorithms, self.metric,
+        self.experiment = ec.add_experiment_if_not_exists(self.dataset, None, self.expt_title, self.project.task,
+                                            self.validation_kfolds, self.validation_shuffle,
+                                            self.validation_stratify, self.validation_train_split,
+                                            self.algorithms, self.metric,
                                             self.tuning_mode, self.time_constraint, self.create_enseble)
         # wait some time till models are initialized
         time.sleep(60)
@@ -83,8 +88,10 @@ def test_get_results_for_experiment(self):
         # add experiment
         ec = ExperimentClient(self.project.hid)
         # create new experiment
-        self.experiment = ec.add_experiment_if_not_exists(self.dataset, self.expt_title, self.project.task,
-                                            self.validation, self.algorithms, self.metric,
+        self.experiment = ec.add_experiment_if_not_exists(self.dataset, None, self.expt_title, self.project.task,
+                                            self.validation_kfolds, self.validation_shuffle,
+                                            self.validation_stratify, self.validation_train_split,
+                                            self.algorithms, self.metric,
                                             self.tuning_mode, self.time_constraint, self.create_enseble)
         # wait some time till models are initialized
         time.sleep(60)
diff --git a/tests/run.py b/tests/run.py
@@ -4,11 +4,11 @@
 import os
 import unittest
 
-#from project_client_test import ProjectClientTest
-#from dataset_client_test import DatasetClientTest
+from project_client_test import ProjectClientTest
+from dataset_client_test import DatasetClientTest
 from experiment_client_test import ExperimentClientTest
-#from result_client_test import ResultClientTest
-#from mljar_test import MljarTest
+from result_client_test import ResultClientTest
+from mljar_test import MljarTest
 
 if __name__ == '__main__':
     unittest.main()