Bump the revision number
[backups/.git] / main.cpp
1 #include <iostream>
2 #include <fstream>
3 #include <iterator>
4 #include <algorithm>
5 #include <cassert>
6 #include <ctime>
7 #include <math.h>
8
9 #include "filedata.hpp"
10
11 using namespace std;
12
13 static unsigned int bytes_in_block;
14 static const char * dbname_in = getenv("backupdbin");
15 static const char * dbname_out = getenv("backupdbout");
16
17 unsigned long long read_time( istream &i ) {
18   string date_string;
19
20   int c;
21   // Todo, don't use char_traits<char> directly here
22   for( c = i.get(); 0 != c && char_traits<char>::eof() != c; c = i.get() ) {
23     date_string.push_back( c );
24   }
25   if( char_traits<char>::eof() == c ) { i.setstate( ios_base::eofbit ); }
26
27   return atoll( date_string.c_str() );
28 }
29
30 template<class I, class O, class INT>
31 bool copy_until_full( I begin, I end, O out, INT &space ) {
32   bool complete = true;
33
34   while( begin != end ) {
35     INT size = (*begin)->getFileSize();
36     INT blocksize = blocks( size ) * bytes_in_block;
37
38     if( blocksize <= space ) {
39       space -= blocksize;
40       *out = *begin;
41       ++out;
42     } else {
43       // We missed a file that should be included so the backup is not complete
44       complete = false;
45     }
46     ++begin;
47   }
48   return complete;
49 }
50
51 template<class SET>
52 void populate_set( istream &in, SET &files ) {
53   do {
54     FileData *data = new FileData();
55     in >> data;
56     if( data->getFileName().size() ) {
57       files.insert( data );
58     } else {
59       delete data;
60     }
61   } while( ! in.eof() );
62 }
63
64 template<class SET>
65 void partition_sets( const SET &current, const SET &old,
66                      SET &added, SET &common, SET &old_common, SET &deleted  ) {
67   set_difference(   current.begin(), current.end(),
68                     old.begin(),     old.end(),
69                     inserter( added, added.begin() ),
70                     FileData::namecmp );
71
72   set_difference(   old.begin(),     old.end(),
73                     current.begin(), current.end(),
74                     inserter( deleted, deleted.begin() ),
75                     FileData::namecmp );
76
77   set_intersection( current.begin(), current.end(),
78                     old.begin(),     old.end(),
79                     inserter( common, common.begin() ),
80                     FileData::namecmp );
81
82   set_intersection( old.begin(),    old.end(),
83                     common.begin(), common.end(),
84                     inserter( old_common, old_common.begin() ),
85                     FileData::namecmp );
86 }
87
88 template<class INT>
89 INT blocks( const INT &bytes ) {
90   INT numblocks = bytes / bytes_in_block;
91   if( 0 != bytes % bytes_in_block ) numblocks++;
92
93   return numblocks;
94 }
95
96 template<class ITER, class INT>
97 void sizes( ITER begin, const ITER &end, INT &numblocks, INT &numbytes ) {
98   numblocks = 0;
99   numbytes  = 0;
100
101   while( begin != end ) {
102     INT filesize = (*begin)->getFileSize();
103
104     numbytes  += filesize;
105     numblocks += blocks( filesize );
106     ++begin;
107   }
108 }
109
110 template<class I, class O>
111 void copy_filenames( I begin, const I &end, O out ) {
112   while( begin != end ) {
113     string output = (*begin)->getFileName();
114     output.push_back( 0 );
115     *out = output;
116     ++out;
117     ++begin;
118   }
119 }
120
121 template<class ITER>
122 void updateLastBackupDate( ITER begin, const ITER &end, unsigned long long date ) {
123   while( begin != end ) {
124     (*begin)->setLastBackupDate( date );
125     ++begin;
126   }
127 }
128
129 template<class ITER>
130 void delete_objects( ITER begin, const ITER &end ) {
131   while( begin != end ) {
132     delete *begin;
133     ++begin;
134   }
135 }
136
137 int main() {
138
139   // Check to make sure required env variables are set
140   if( getenv( "backupdbin"  ) == NULL ||
141       getenv( "backupdbout" ) == NULL ||
142       getenv( "blocksize"   ) == NULL ||
143       getenv( "availsizemb" ) == NULL )
144   {
145      cerr << "Required environment variables are not set. Exiting." << endl;
146      return 1;
147   }
148
149   // Setup our bytes_in_block value
150   bytes_in_block = atoll(getenv("blocksize"));
151
152   // Get the date on stdin
153   unsigned long long now = read_time( cin );
154
155   // Parse the list of current files on stdin
156   file_set current;
157   populate_set( cin, current );
158
159   file_set backed_up;
160   ifstream db( dbname_in );
161   if( db && db.good() ) {
162     populate_set( db, backed_up );
163   }
164
165   // Now divide the two sets into three sets (added, deleted and common )
166   file_set added, deleted, common, old_common;
167   partition_sets( current, backed_up, added, common, old_common, deleted );
168
169   // Now find the list of files to backup.
170   file_set backups;
171
172   // backup all added files
173   copy( added.begin(), added.end(), inserter( backups, backups.begin() ) );
174
175   // Track the total size of added files
176   unsigned long long added_blocks, added_bytes;
177   sizes( added.begin(), added.end(), added_blocks, added_bytes );
178
179   file_vector modified_v;
180   // Backup files that have been modified
181   file_set::iterator i = common.begin(), j = old_common.begin();
182   for( ; i != common.end(); ++i, ++j ) {
183     (*i)->setLastBackupDate( (*j)->getLastBackupDate() );
184
185     if( needs_backup( *j, *i ) ) modified_v.push_back( *i );
186   }
187
188   copy( modified_v.begin(), modified_v.end(), inserter( backups, backups.begin() ) );
189
190   // Track the total size of modified files
191   unsigned long long modified_blocks, modified_bytes;
192   sizes( modified_v.begin(), modified_v.end(), modified_blocks, modified_bytes );
193
194   // Now, sort the backups by filesize (decreasing) and build a list that'll fit
195   // on a DVD
196   file_vector backups_s;
197   copy( backups.begin(), backups.end(), back_inserter( backups_s ) );
198
199   sort( backups_s.rbegin(), backups_s.rend(), FileData::sizecmp );
200
201   file_set final;
202   const unsigned long long availsizemb = atoll( getenv("availsizemb") ) * 0x100000ull;
203   unsigned long long space = availsizemb;
204
205   insert_iterator<file_set> final_i( final, final.begin() );
206
207   // Copy files over until full or out of files
208   bool complete
209     = copy_until_full( backups_s.begin(), backups_s.end(), final_i, space );
210
211   // Track the size filled up by essential backups
212   unsigned long long essential_blocks, essential_bytes;
213   sizes( final.begin(), final.end(), essential_blocks, essential_bytes );
214
215   // Now, sort the non-backed-up list by last_backup_date, then by filesize
216   // (decreasing) and back-fill.  This should minimize the number of DVDs in the
217   // collection left with actual content.
218   if( 0 != space ) {
219     file_vector leftovers;
220     set_difference( current.begin(), current.end(),
221                     final.begin(),   final.end(),
222                     back_inserter( leftovers ),
223                     FileData::namecmp );
224
225     // Achieve 'last backup date then by filesize' by first sorting by filesize
226     // and then running stable sort by last backup date.
227     sort(        leftovers.rbegin(), leftovers.rend(), FileData::sizecmp );
228     stable_sort( leftovers.begin(),  leftovers.end(),  FileData::lastbackupcmp );
229
230     copy_until_full( leftovers.begin(), leftovers.end(), final_i, space );
231   }
232
233   // Track the total size to be copied to the dvd
234   unsigned long long total_blocks, total_bytes;
235   sizes( final.begin(), final.end(), total_blocks, total_bytes );
236
237   // Track how many disks there are remaining to be burned
238   unsigned long long disks_remaining = 0;
239   if(modified_bytes || added_bytes)
240     disks_remaining = static_cast<unsigned long long>(
241         ceil( static_cast<double>( modified_bytes + added_bytes ) / availsizemb ) - 1
242         );
243
244   updateLastBackupDate( final.begin(), final.end(), now );
245
246   // Write the 'current' list to the dbfile
247   ofstream dbout( dbname_out );
248   copy( current.begin(), current.end(), ostream_iterator<FileData*>( dbout ) );
249
250   // Write the 'final' list to stdout
251   copy_filenames( final.begin(), final.end(), ostream_iterator<string>( cout ) );
252
253   cerr << now << endl << endl;
254
255   cerr << "Need backing up..." << endl;
256   cerr << "     Added Bytes:            " << added_bytes << endl;
257   cerr << "     Added Blocks:           " << added_blocks << endl;
258   cerr << "     Modified Bytes:         " << modified_bytes << endl;
259   cerr << "     Modified Blocks:        " << modified_blocks << endl;
260   cerr << "     Disks Remaining:        " << disks_remaining << endl << endl;
261
262   cerr << "Will be backed up..." << endl;
263   cerr << "     Essential Bytes:        " << essential_bytes << endl;
264   cerr << "     Essential Blocks:       " << essential_blocks << endl;
265   cerr << "     Total Bytes:            " << total_bytes << endl;
266   cerr << "     Total Blocks:           " << total_blocks << endl << endl;
267
268   if( ! complete ) { cerr << "Backup is incomplete!" << endl; }
269
270   // Clean-up
271   delete_objects( backed_up.begin(), backed_up.end() );
272   delete_objects( current.begin(),   current.end() );
273 }