updated(etl)

uses processed pickle files for performance. Splits genre and keyword into separate rows.
2017-07-03 16:48:17 -05:00 · 2017-07-03 16:48:17 -05:00 · 84084f3b96
commit 84084f3b96
parent 2ecdb43007
5 changed files with 72 additions and 1 deletions
--- a/README.md
+++ b/README.md
@ -69,4 +69,9 @@ This is the wireframe that the team has been given to replicate in python using
 * **10 min** setup heroku repo and build environment
 * **30 min** debug initial heroku deployment
 * **15 min** added reveal slide template
+* **45 min** update etl
+    * split keyword/genre into rows
+    * define update method
+    * docstrings
+    * add keyword/genre to load method
    
--- a/data/processed/genre.pkl
+++ b/data/processed/genre.pkl
--- a/data/processed/keyword.pkl
+++ b/data/processed/keyword.pkl
--- a/data/processed/movie.pkl
+++ b/data/processed/movie.pkl
--- a/src/etl.py
+++ b/src/etl.py
@ -26,10 +26,76 @@ class Data(object):

        return value

+    def __repr__(self):
+        return self.__str__()
+
    def load(self):
        """
        loads/reloads data.  Can be called to update data without redefining a 
        new data object.
        """

-        self.movie = pd.read_csv(os.path.join(settings.raw_data_dir, 'movie_metadata.csv'))
+        self.movie = pd.read_pickle(os.path.join(settings.processed_data_dir, 'movie.pkl'))
+        self.genre = pd.read_pickle(os.path.join(settings.processed_data_dir, 'genre.pkl'))
+        self.keyword = pd.read_pickle(os.path.join(settings.processed_data_dir, 'keyword.pkl'))
+
+    def update_data(self):
+        """
+        creates processed data sets from raw data sets
+    
+        This method only needs ran when the dataset gets updated
+        """
+        movie = pd.read_csv(os.path.join(settings.raw_data_dir, 'movie_metadata.csv'))
+        movie['net'] = movie['gross'] - movie['budget']
+        movie['profitable'] = 0
+        movie.loc[movie['net']>0, 'profitable'] = 1
+        movie.title_year = pd.to_datetime({'year':movie.title_year, 'month':1, 'day':1})
+        movie.to_pickle(os.path.join(settings.processed_data_dir, 'movie.pkl'))
+
+        genre = generate_genre(movie)
+        genre.to_pickle(os.path.join(settings.processed_data_dir, 'genre.pkl'))
+
+        keyword = generate_keyword(movie)
+        keyword.to_pickle(os.path.join(settings.processed_data_dir, 'keyword.pkl'))
+
+
+def generate_genre(movie):
+    """
+    splits genres into rows
+    
+    movie: DataFrame of movie Data
+    returns: returns DataFrame of index and genre
+    """
+    genres = movie.reset_index()[['index', 'genres']]
+    frames = list()
+    for row in genres.iterrows():
+        row_genres = row[1].genres.split('|')
+        index = row[1]['index']
+        frames.append(pd.DataFrame({'index':[index]*len(row_genres), 'genres': row_genres}))
+
+    genre = pd.concat(frames).reset_index(drop=True)[['index', 'genres']]
+    return genre
+
+
+
+def generate_keyword(movie):
+    """
+    splits keywords into rows
+    
+    movie: DataFrame of movie Data
+    returns: returns DataFrame of index and keyword
+    """
+
+    keywords = movie.reset_index()[['index', 'plot_keywords']].fillna('')
+    frames = list()
+    for row in keywords.iterrows():
+        try:
+            row_keywords = row[1].plot_keywords.split('|')
+        except:
+            print(row[1].plot_keywords)
+        index = row[1]['index']
+        frames.append(pd.DataFrame({'index':[index]*len(row_keywords), 'plot_keywords': row_keywords}))
+
+    keyword = pd.concat(frames).reset_index(drop=True)[['index', 'plot_keywords']]
+    return keyword
+