The ruby versions are slower
[backups/.git] / main.cc
diff --git a/main.cc b/main.cc
index 1a1b9e7314cf73f0a01ff75ca50ed8efd0736e91..e2864fda9603de454d0eb41d1257dc2b9a55c9e3 100644 (file)
--- a/main.cc
+++ b/main.cc
 #include <iostream>
+#include <fstream>
 #include <iterator>
 #include <algorithm>
 #include <cassert>
-
-#include <sqlite3.h>
+#include <ctime>
 
 #include "filedata.hpp"
 
 using namespace std;
 
-vector<string> split( const string &line, char c, int limit = -1 ) {
-  string::size_type start = 0, end = 0;
+unsigned long long current_time() {
+  unsigned long long rc = 0;
+  time_t now_tt = time( 0 );
+  tm *now = localtime( &now_tt );
+  rc += ( now->tm_year + 1900ULL ) * 10000000000ULL;
+  rc += ( now->tm_mon  + 1ULL )    * 100000000ULL;
+  rc +=   now->tm_mday             * 1000000ULL;
+  rc +=   now->tm_hour             * 10000ULL;
+  rc +=   now->tm_min              * 100ULL;
+  rc +=   now->tm_sec;
+
+  return rc;
+}
+
+template<class I, class O>
+bool copy_until_full( I begin, I end, O out, unsigned long long &space ) {
+  const unsigned long long block_size = 0x200ULL;
+  bool complete = true;
 
-  vector<string> out;
-  while( 0 != limit-- && end != line.size() ) {
-    if( 0 == limit ) {
-      end = line.size();
+  I i = begin;
+  while( 0 != space && i != end ) {
+    unsigned long long size = (*i)->getFileSize();
+    unsigned long long blocks = size & ( ~(block_size-1) );
+    if( blocks < size ) blocks += block_size;
+
+    if( blocks <= space ) {
+      space -= blocks;
+      out = *i;
+      ++out;
     } else {
-      end = line.find( c, start );
-      if( end == string::npos ) {
-        end = line.size();
-      }
+      // We missed a file that should be included so the backup is not complete
+      complete = false;
     }
-    out.push_back( line.substr( start, end-start ) );
-    start = end + 1;
+    ++i;
   }
-  return out;
+  return complete;
 }
 
-// Callback function for getting files from the database
-int populate_set( void *files_v, int, char **vals, char ** ) {
-  file_set *files = reinterpret_cast<file_set*>( files_v );
-  files->insert( new FileData( vals[0][0],
-        vals[1],
-        vals[2],
-        vals[3],
-        atoi( vals[4] ),
-        atoi( vals[5] ),
-        vals[6]) );
-  return 0;
-}
-
-int main() {
-  string file_string;
-
-  file_set current;
-
-  // Parse the list of files on stdin
+template<class SET>
+void populate_set( istream &in, SET &files ) {
   do {
-    file_string.clear();
-    for( int c = cin.get(); 0 != c && ! cin.eof(); c = cin.get() ) {
-      file_string.push_back( c );
-    }
-    if( 0 != file_string.size() ) {
-      // Example entry
-      // type perms user group size datemodified name (7 total)
-      // f 0600 cnb cnb 424 20051015205340 ./.git/index
-      vector<string> vals = split( file_string, ' ', 7 );
-      current.insert( new FileData( vals[0][0],
-            vals[1],
-            vals[2],
-            vals[3],
-            atoi( vals[4].c_str() ),
-            atoi( vals[5].c_str() ),
-            vals[6]) );
+    FileData *data = new FileData();
+    in >> data;
+    if( data->getFileName().size() ) {
+      files.insert( data );
+    } else {
+      delete data;
     }
-  } while( ! cin.eof() );
-
-  // Get the list of previously backed up files from the database.
-  sqlite3 *db;
-
-  const char *dbname = "test.db";
-  int rc = sqlite3_open( dbname, &db );
-  assert( SQLITE_OK == rc );
-
-  char *sqliteErrMsg = 0;
-  file_set backed_up;
-  rc = sqlite3_exec( db, "select * from filedata;", populate_set, &backed_up, &sqliteErrMsg );
-  assert( SQLITE_OK == rc );
-
-  rc = sqlite3_close( db );
-  assert( SQLITE_OK == rc );
+  } while( ! in.eof() );
+}
 
-  // Now divide the two sets into three sets (new, deleted and updated )
+template<class SET>
+void partition_sets( const SET &current, const SET &old,
+                     SET &added, SET &common, SET &deleted  ) {
   FileDataNameCmp cmp;
 
-  file_set added;
-  set_difference( current.begin(),   current.end(),
-                  backed_up.begin(), backed_up.end(),
+  set_difference( current.begin(), current.end(),
+                  old.begin(),     old.end(),
                   inserter( added, added.begin() ),
                   cmp );
 
-  file_set deleted;
-  set_difference( backed_up.begin(), backed_up.end(),
-                  current.begin(),   current.end(),
+  set_difference( old.begin(),     old.end(),
+                  current.begin(), current.end(),
                   inserter( deleted, deleted.begin() ),
                   cmp );
 
-  file_set updated;
-  set_union( current.begin(),   current.end(),
-             backed_up.begin(), backed_up.end(),
-             inserter( updated, updated.begin() ),
-             cmp );
+  set_union(      current.begin(), current.end(),
+                  old.begin(),     old.end(),
+                  inserter( common, common.begin() ),
+                  cmp );
+}
+
+int main() {
+  // Parse the list of current files on stdin
+  file_set current;
+  populate_set( cin, current );
+
+  file_set backed_up;
+  ifstream db( "test.db" );
+  if( db && db.good() ) {
+    populate_set( db, backed_up );
+  }
+
+  // Now divide the two sets into three sets (added, deleted and common )
+  file_set added, deleted, common;
+  partition_sets( current, backed_up, added, common, deleted );
 
   { // This little block will copy the last_backup_date from the second set to the first
-    file_set updated_mirror;
-    set_union( current.begin(),   current.end(),
-               backed_up.begin(), backed_up.end(),
-               inserter( updated_mirror, updated_mirror.begin() ),
+    FileDataNameCmp cmp;
+
+    file_set common_with_dates;
+    set_union( backed_up.begin(), backed_up.end(),
+               current.begin(),   current.end(),
+               inserter( common_with_dates, common_with_dates.begin() ),
                cmp );
 
-    // TODO Now we need to copy the last_backup_date from 
-    file_set::iterator i = updated.begin(), j = updated_mirror.begin();
-    for( ; i != updated.end(); ++i, ++j ) {
+    file_set::iterator i = common.begin(), j = common_with_dates.begin();
+    for( ; i != common.end(); ++i, ++j ) {
       (*i)->setLastBackupDate( (*j)->getLastBackupDate() );
     }
   }
 
   // Now find the list of files to backup.
-  file_set backup_set;
+  file_set backups;
 
-  // backup all new files
-  copy( added.begin(), added.end(), inserter( backup_set, backup_set.begin() ) );
+  // backup all added files
+  copy( added.begin(), added.end(), inserter( backups, backups.begin() ) );
 
-  // backup already backed-up files that have changed since the last backup date.
-  for( file_set::iterator i = updated.begin(); i != updated.end(); ++i ) {
+  // backup common files that have changed since the last backup date.
+  for( file_set::iterator i = common.begin(); i != common.end(); ++i ) {
     if( (*i)->getLastBackupDate() < (*i)->getModifiedDate() ) {
-      backup_set.insert( *i );
+      backups.insert( *i );
     }
   }
 
-  // Now, sort the backup_set by filesize and build a list of up to SIZE
-  file_vector backups_bysize;
-  copy( backup_set.begin(), backup_set.end(), back_inserter( backups_bysize ) );
+  // Now, sort the backups by filesize and build a list of up to SIZE
+  file_vector backups_s;
+  copy( backups.begin(), backups.end(), back_inserter( backups_s ) );
+
   FileDataSizeCmp sizecmp;
-  sort( backups_bysize.begin(), backups_bysize.end(), sizecmp );
+  sort( backups_s.begin(), backups_s.end(), sizecmp );
 
-  file_set final_set;
-  unsigned long long bytes_available = 4700000000ULL;  // 4.3 GBytes
+  file_set final;
+  unsigned long long space = 0x107c00000ULL;  // 4220 MBytes
 
-  unsigned long long block_size = 512ULL;
+  insert_iterator<file_set> final_i( final, final.begin() );
 
   // Copy files over until full or out of files
-  file_vector::reverse_iterator i = backups_bysize.rbegin();
-  while( 0 != bytes_available && i != backups_bysize.rend() ) {
-    unsigned long long size = (*i)->getFileSize();
-    unsigned long long blocks = size & ( ~(block_size-1) );
-    if( blocks < size ) blocks += block_size;
-    if( blocks <= bytes_available ) {
-      bytes_available -= blocks;
-      final_set.insert( *i );
-    }
-    ++i;
-  }
+  bool complete = copy_until_full( backups_s.rbegin(),
+                                   backups_s.rend(),
+                                   final_i,
+                                   space );
 
   // Now, sort the non-backed-up list by last_backup_date and back-fill
-  if( 0 != bytes_available ) {
+  if( 0 != space ) {
     file_vector leftovers;
-    set_difference( current.begin(),   current.end(),
-                    final_set.begin(), final_set.end(),
+    FileDataNameCmp cmp;
+    set_difference( current.begin(), current.end(),
+                    final.begin(),   final.end(),
                     back_inserter( leftovers ),
                     cmp );
 
     FileDataLastBackupCmp lastbackupcmp;
     sort( leftovers.begin(), leftovers.end(), lastbackupcmp );
 
-    // Copy files over until full or out of files
-    file_vector::const_iterator j = leftovers.begin();
-    while( 0 != bytes_available && j != leftovers.end() ) {
-      unsigned long long size   = (*j)->getFileSize();
-      unsigned long long blocks = size & ( ~(block_size-1) );
-
-      if( blocks < size ) blocks += block_size;
-
-      if( blocks <= bytes_available ) {
-        bytes_available -= blocks;
-        final_set.insert( *j );
-      }
-      ++j;
-    }
+    copy_until_full( leftovers.begin(), leftovers.end(), final_i, space );
   }
 
-  unsigned long long now = 20051019211200ULL;
-  for( file_set::iterator k = final_set.begin(); k != final_set.end(); ++k ) {
+  unsigned long long now = current_time();
+  for( file_set::iterator k = final.begin(); k != final.end(); ++k ) {
     (*k)->setLastBackupDate( now );
   }
 
-  // Clean out the database
-  rc = sqlite3_exec( db, "delete from filedata;", NULL, NULL, &sqliteErrMsg );
-  assert( SQLITE_OK == rc );
-  rc = sqlite3_exec( db, "vacuum;", NULL, NULL, &sqliteErrMsg );
-  assert( SQLITE_OK == rc );
+  // Write the 'current' list to the dbfile
+  ofstream dbout( "test.db" );
+  copy( current.begin(), current.end(), ostream_iterator<FileData*>( dbout, "" ) );
+
+  // Write the 'final' list to stdout
+  copy( final.begin(), final.end(), ostream_iterator<FileData*>( cout, "" ) );
+
+  if( ! complete ) { cerr << "incomplete" << endl; }
 
   // Clean-up
   for( file_set::iterator i = backed_up.begin(); i != backed_up.end(); ++i ) { delete *i; }