add dataset_title in experiment

pplonski · pplonski · commit 2ea0c0822a41 · 2017-06-08T13:59:28.000+02:00
diff --git a/mljar/client/dataset.py b/mljar/client/dataset.py
@@ -110,7 +110,7 @@ def _wait_till_all_datasets_are_valid(self):
 
 
 
-    def add_dataset_if_not_exists(self, X, y, title_prefix = 'dataset-'):
+    def add_dataset_if_not_exists(self, X, y, title_prefix = 'dataset-', dataset_title = None):
         '''
         Checks if dataset already exists, if not it add dataset to project.
         '''
@@ -127,7 +127,7 @@ def add_dataset_if_not_exists(self, X, y, title_prefix = 'dataset-'):
         # dataset with specified hash does not exist
         if len(dataset_details) == 0:
             # add new dataset
-            dataset_details = self.add_new_dataset(data, y, title_prefix)
+            dataset_details = self.add_new_dataset(data, y, title_prefix, dataset_title)
         else:
             dataset_details = dataset_details[0]
 
@@ -157,9 +157,12 @@ def _accept_dataset_column_usage(self, dataset_hid):
         return response.status_code == 200
 
 
-    def add_new_dataset(self, data, y, title_prefix = 'dataset-'):
+    def add_new_dataset(self, data, y, title_prefix = 'dataset-', dataset_title = None):
         logger.info('Add new dataset')
-        title = title_prefix + str(uuid.uuid4())[:4] # set some random name
+        if dataset_title is None:
+            title = title_prefix + str(uuid.uuid4())[:4] # set some random name
+        else:
+            title = dataset_title
         file_path = '/tmp/dataset-'+ str(uuid.uuid4())[:8]+'.csv'
 
         logger.info('Compress data before export')
diff --git a/mljar/mljar.py b/mljar/mljar.py
@@ -122,7 +122,7 @@ def __init__(self, project,
                 raise MljarException('Wrong validation_train_split parameter value, it should be in (0.05, 0.95) range.')
 
 
-    def fit(self, X, y, validation_data = None, wait_till_all_done = True):
+    def fit(self, X, y, validation_data = None, wait_till_all_done = True, dataset_title = None):
         '''
         Fit models with MLJAR engine.
         Args:
@@ -132,6 +132,8 @@ def fit(self, X, y, validation_data = None, wait_till_all_done = True):
                                 the k-fold CV or train split validation will be used.
             wait_till_all_done: The flag which decides if fit function will wait
                                 till experiment is done.
+            dataset_title: The title of your dataset. It is optional. If missing the
+                            random title will be generated.
         '''
         self.wait_till_all_done = wait_till_all_done
         # check input data dimensions
@@ -141,12 +143,12 @@ def fit(self, X, y, validation_data = None, wait_till_all_done = True):
             raise IncorrectInputDataException('Sorry, there is a missmatch between X and y matrices shapes')
 
         try:
-            self._start_experiment(X, y, validation_data)
+            self._start_experiment(X, y, validation_data, dataset_title)
         except Exception as e:
             print 'Ups, %s' % str(e)
 
 
-    def _start_experiment(self, X, y, validation_data = None):
+    def _start_experiment(self, X, y, validation_data = None, dataset_title = None):
 
         # define project task
         self.project_task = 'bin_class' if len(np.unique(y)) == 2 else 'reg'
@@ -159,7 +161,7 @@ def _start_experiment(self, X, y, validation_data = None):
         # add a dataset to project
         #
         logger.info('MLJAR: add training dataset')
-        self.dataset = DatasetClient(self.project.hid).add_dataset_if_not_exists(X, y, title_prefix = 'Training-')
+        self.dataset = DatasetClient(self.project.hid).add_dataset_if_not_exists(X, y, title_prefix = 'Training-', dataset_title = dataset_title)
 
         self.dataset_vald = None
         if validation_data is not None:
diff --git a/tests/mljar_test.py b/tests/mljar_test.py
@@ -46,7 +46,7 @@ def test_compute_prediction(self):
                         single_algorithm_time_limit = 1)
         self.assertTrue(model is not None)
         # fit models and wait till all models are trained
-        model.fit(X = self.X, y = self.y)
+        model.fit(X = self.X, y = self.y, dataset_title = 'My dataset')
 
         # get project id
         project_id = model.project.hid