]> sourceware.org Git - lvm2.git/commit
A misunderstanding of the return value of 'dm_bit' has been causing a data
authorJonathan Earl Brassow <jbrassow@redhat.com>
Wed, 4 Aug 2010 18:18:18 +0000 (18:18 +0000)
committerJonathan Earl Brassow <jbrassow@redhat.com>
Wed, 4 Aug 2010 18:18:18 +0000 (18:18 +0000)
commit498747d792c93d8f98cdd08631c367d84ec8bdc2
tree71b29dcc75c9387a8e718da8410c8a7ece50f84c
parent851aaf4ecc55235f4a4ba6911abcee666007a067
A misunderstanding of the return value of 'dm_bit' has been causing a data
corruption bug in cmirror.  'dm_bit' is only ever used as a boolean operation
within LVM, but it can return a range of values.  If the bit is set, a power of
2 is returned.  If the bit is unset, 0 is returned.

'log_test_bit' (a function in the cluster mirror log daemon code) has switched
to using the dm bit operations in rhel6.  There are two places in the daemon
code where 'log_test_bit' is not used merely as a boolean, but rather the
return value is used as the return value for the log functions 'is_clean' and
'in_sync' - having assumed that 'dm_bit' was returning 0 or 1 only.

One place the 'in_sync' function is utilized is in 'dm_rh_get_state' - a
function that informs the mirroring code how to treat I/O and which devices to
read/write from.  'dm_rh_get_state' was checking if the return value of
'in_sync' was 1 to determine if the region was DM_RH_CLEAN.  Since 'dm_bit'
(and by extension 'log_test_bit' and 'in_sync') was returning powers of 2,
DM_RH_CLEAN was rarely being reported as it should have been.  Thinking the
region was out-of-sync, the mirroring code would write only to the primary
device.  When the primary device was failed, all of those writes were lost -
leaving the entire mirror corrupted.
WHATS_NEW
daemons/cmirrord/functions.c
This page took 0.036573 seconds and 5 git commands to generate.