Added new zfs lock checking script
[zfs-ubuntu/.git] / zfs-replicate
index 9f72b0641904b5c44468d30b3fc4a10bdf82c757..cd38657fbf00f80f3b9d1d809b7ecf2eaa2fe4a8 100755 (executable)
@@ -18,6 +18,16 @@ remote=$1
 remote_fs=$2
 remote_pool=${2%%/*}
 
+# return non-zero exit code if any command in the pipe fails
+set -o pipefail
+
+# get the backup pool from the command line or the config file if not specified
+if [[ -n $3 ]]; then
+    backup_pool=$3
+else
+    backup_pool=${backup_pool%% *} # use the first backup pool if none specified
+fi
+
 # Setup our cleanup and exit trap
 cleanup() {
   if [[ -e "$local_list" ]]; then
@@ -99,7 +109,7 @@ if [ $? != 0 ]; then
   echo >&2 "    Creating the local filesystem to receive the remote pool into: $backup_pool/$remote_pool"
   $zfs create $backup_pool/$remote_pool
   if [ $? != 0 ]; then
-    fatal_and_exit "-E- remote $zfs on $hostname create command failed" $mailto
+    fatal_and_exit "-E- remote $zfs on $hostname create $backup_pool/$remote_pool command failed" $mailto
   fi
 fi
 
@@ -148,8 +158,10 @@ $ssh $remote \
     $zfs list -H -t snapshot |
     grep ^${remote_fs}@ |
     awk '{print$1}' > $remote_list
-if [ $? != 0 ]; then
-  fatal_and_exit "-E- remote $zfs list on $hostname command failed" $mailto
+if [[ $? != 0 ]] && [[ $expect_empty_remote_list == 0 ]]; then
+  echo "-W- Unable to find $remote_fs on the remote host $hostname. Unable to proceed since the"
+  echo "    expect_empty_remote_list option has not been set to allow this, skipping replicate operation."
+  fatal_and_exit "-E- remote $zfs list on $hostname for $remote_fs command failed" $mailto
 fi
 
 # List the snapshots on the local machine.
@@ -160,23 +172,23 @@ $zfs list -H -t snapshot |
     grep ^${backup_pool}/${remote_fs}@ |
     grep -v ^${backup_pool}/${current_backup_marker} | 
     awk "{gsub(/^$backup_pool./,\"\",\$1); print\$1}" > $local_list
-if [ $? != 0 ]; then
-  fatal_and_exit "-E- local $zfs list on $hostname command failed" $mailto
-fi
+# If no local snapshots exist, we may need to send the entire filesystem, which we'll do later
+# So, no error check here as a non-zero return code means the local filesystem or snaps are missing
+# We'll catch this later on as a case where we need to send the entire filesystem
 
 # Destroy the current backup marker snapshot on the remote system if it exists
 grep -q ${current_backup_marker} $remote_list
 if [ $? == 0 ]; then
   $ssh $remote $zfs destroy ${current_backup_marker} 
   if [ $? != 0 ]; then
-    fatal_and_exit "-E- remote $zfs destroy on $hostname command failed" $mailto
+    fatal_and_exit "-E- remote $zfs destroy $current_backup_marker on $hostname command failed" $mailto
   fi
 fi
 
 # Create the current backup marker snapshot on the remote system
 $ssh $remote $zfs snapshot ${current_backup_marker}
 if [ $? != 0 ]; then
-  fatal_and_exit "-E- remote $zfs snapshot on $hostname command failed" $mailto
+  fatal_and_exit "-E- remote $zfs snapshot $current_backup_marker on $hostname command failed" $mailto
 fi
 
 # Check to see if the previous backup marker exists in the remote snapshot list.
@@ -196,14 +208,18 @@ if [ $no_markers == 0 ]; then
   # backup was interrupted for some reason. If we don't do this, the zfs send -R command
   # below may complain about snaps already existing as it tries to resend from the 
   # previous backup marker again from a previously interrupted replicate.
-  $zfs rollback -r ${backup_pool}/${previous_backup_marker} 
+  $zfs rollback -rf ${backup_pool}/${previous_backup_marker} 
   if [ $? != 0 ]; then
-    fatal_and_exit "-E- remote incremental $zfs rollback command failed on $hostname" $mailto
+    sleep 120
+    $zfs rollback -rf ${backup_pool}/${previous_backup_marker}
+    if [ $? != 0 ]; then
+      fatal_and_exit "-E- remote incremental $zfs rollback $backup_pool/$previous_backup_marker command failed on $hostname" $mailto
+    fi
   fi
   # Now it should be safe to send the snaps
-  replicate "$zfs send -R -I${previous_backup_marker} ${current_backup_marker}"
+  replicate "$zfs send -Rc -I${previous_backup_marker} ${current_backup_marker}"
   if [ $? != 0 ]; then
-    fatal_and_exit "-E- remote incremental $zfs send command failed on $hostname" $mailto
+    fatal_and_exit "-E- remote incremental $zfs send $previous_backup_marker command failed on $hostname" $mailto
   fi
 else
   # We didn't find any backup markers, next check to see if we have a common snapshot.
@@ -220,9 +236,9 @@ else
 
   if [[ -n "$common" ]]; then
     # We found a common snapshot, incrementally send the new snaps
-    replicate "$zfs send -R -I${common/*@/@} ${current_backup_marker}"
+    replicate "$zfs send -Rc -I${common/*@/@} ${current_backup_marker}"
     if [ $? != 0 ]; then
-      fatal_and_exit "-E- remote incremental $zfs send command failed on $hostname" $mailto
+      fatal_and_exit "-E- remote incremental $zfs send $(common/*@/@) command failed on $hostname" $mailto
     fi
   else
     # We did not find any markers or a common snapshot
@@ -233,7 +249,7 @@ else
       if [[ $destroy_local_filesystem_on_full_replicate == 1 ]]; then
         $zfs destroy -r ${backup_pool}/${remote_fs}
         if [ $? != 0 ]; then
-          fatal_and_exit "-E- remote full $zfs destroy command failed on $hostname" $mailto
+          fatal_and_exit "-E- remote full $zfs destroy $backup_pool/$remote_fs command failed on $hostname" $mailto
         fi
       else
         echo "-W- We need to destroy a local filesystem before receiving a full stream."
@@ -242,9 +258,9 @@ else
       fi
     fi
     # Send the full filesystem
-    replicate "$zfs send -R ${current_backup_marker}"
+    replicate "$zfs send -Rc ${current_backup_marker}"
     if [ $? != 0 ]; then
-      fatal_and_exit "-E- remote full $zfs send command failed on $hostname" $mailto
+      fatal_and_exit "-E- remote full $zfs send $current_backup_marker command failed on $hostname" $mailto
     fi
   fi
 fi
@@ -253,13 +269,14 @@ fi
 # don't check the return codes here because these may not exist, and that is ok
 $zfs destroy ${backup_pool}/${previous_backup_marker} > /dev/null 2>&1
 $ssh $remote $zfs destroy ${previous_backup_marker} > /dev/null 2>&1
+sleep 1
 
 # Rename the current backup marker to be the previous backup marker
 $zfs rename ${backup_pool}/${current_backup_marker} ${backup_pool}/${previous_backup_marker}
 if [ $? != 0 ]; then
-  fatal_and_exit "-E- local $zfs rename command failed on $hostname" $mailto
+  fatal_and_exit "-E- local $zfs rename $backup_pool/$current_backup_marker command failed on $hostname" $mailto
 fi
 $ssh $remote $zfs rename ${current_backup_marker} ${previous_backup_marker}
 if [ $? != 0 ]; then
-  fatal_and_exit "-E- remote $zfs rename command failed on $hostname" $mailto
+  fatal_and_exit "-E- remote $zfs rename $current_backup_marker command failed on $hostname" $mailto
 fi