内核同步机制-优化屏障和内存屏障

hro01hro

浏览: 17451 次

最近访客更多访客>>

u012363178

mfd

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

2012-01 ( 24)
更多存档...

博客分类：

技术杂绘

内核同步机制-优化屏障和内存屏障
2011年01月07日
　　优化屏障和内存屏障
　　优化屏障
　　编译器编译源代码时，会将源代码进行优化，将源代码的指令进行重排序，以适合于CPU的并行执行。然而，内核同步必须避免指令重新排序，优化屏障（Optimization barrier）避免编译器的重排序优化操作，保证编译程序时在优化屏障之前的指令不会在优化屏障之后执行。
　　Linux用宏barrier实现优化屏障，gcc编译器的优化屏障宏定义列出如下（在include/linux/compiler-gcc.h中）：
　　#define barrier() __asm__ __volatile__("": : :"memory")
　　上述定义中，"__asm__"表示插入了汇编语言程序，"__volatile__"表示阻止编译器对该值进行优化，确保变量使用了用户定义的精确地址，而不是装有同一信息的一些别名。"memory"表示指令修改了内存单元。
　　内存屏障
　　软件可通过读写屏障强制内存访问次序。读写屏障像一堵墙，所有在设置读写屏障之前发起的内存访问，必须先于在设置屏障之后发起的内存访问之前完成，确保内存访问按程序的顺序完成。
　　读写屏障通过处理器构架的特殊指令mfence（内存屏障）、lfence（读屏障）和sfence（写屏障）完成，见《x86-64构架规范》一章。另外，在x86-64处理器中，对硬件进行操作的汇编语言指令是"串行的"，也具有内存屏障的作用，如：对I/O端口进行操作的所有指令、带lock前缀的指令以及写控制寄存器、系统寄存器或调试寄存器的所有指令（如：cli和sti）。
　　Linux内核提供的内存屏障API函数说明如表2。内存屏障可用于多处理器和单处理器系统，如果仅用于多处理器系统，就使用smp_xxx函数，在单处理器系统上，它们什么都不要。
　　表2 内存屏障API函数说明内存屏障的宏定义功能说明
　　mb() 适用于多处理器和单处理器的内存屏障。
　　rmb() 适用于多处理器和单处理器的读内存屏障。
　　wmb() 适用于多处理器和单处理器的写内存屏障。
　　smp_mb() 适用于多处理器的内存屏障。
　　smp_rmb() 适用于多处理器的读内存屏障。
　　smp_wmb() 适用于多处理器的写内存屏障。
　　适合于多处理器和单处理器的内存屏障宏定义列出如下（在include/asm-x86/system.h中）：
　　#ifdef CONFIG_X86_32
　　/*指令"lock; addl $0,0(%%esp)"表示加锁，把0加到栈顶的内存单元，该指令操作本身无意义，但这些指令起到内存屏障的作用，让前面的指令执行完成。具有XMM2特征的CPU已有内存屏障指令，就直接使用该指令*/
　　#define mb() alternative("lock; addl $0,0(%%esp)", "mfence", X86_FEATURE_XMM2)
　　#define rmb() alternative("lock; addl $0,0(%%esp)", "lfence", X86_FEATURE_XMM2)
　　#define wmb() alternative("lock; addl $0,0(%%esp)", "sfence", X86_FEATURE_XMM)
　　#else
　　#define mb() asm volatile("mfence":::"memory")
　　#define rmb() asm volatile("lfence":::"memory")
　　#define wmb() asm volatile("sfence" ::: "memory")
　　#endif
　　/*刷新后面的读所依赖的所有挂起读操作，在x86-64构架上不需要*/
　　#define read_barrier_depends() do { } while (0)
　　宏定义ead_barrier_depends()刷新后面的读所依赖的所有挂起读操作，后面的读操作依赖于正处理的读操作返回的数据。在x86-64构架上不需要此宏。它表明：在此屏障之前，没有来自内存区域数据所依赖的读曾经重排序。所有的读操作处理此原语，保证在跟随此原语的任何读操作此原语之前访问内存（但不需要其他CPU的cache）。此原语在大多数CPU上有比rmb()更轻的份量。
　　本地CPU和编译器遵循内存屏障的排序限制，仅内存屏障原语保证排序，即使数据有依赖关系，也不能保证排序。例如：下面代码将强迫排序，因为*q的读操作依赖于p的读操作，并且这两个读操作被read_barrier_depends()分开。在CPU 0和CPU 1上执行的程序语句分别列出如下：
　　CPU 0 CPU 1
　　b = 2;
　　memory_barrier();
　　p = &b; q = p;
　　read_barrier_depends();
　　d = *q;
　　下面的代码没有强制排序，因为在a和b的读操作之间没有依赖关系，因此，在一些CPU上，如：Alpha，y将设置为3，x设置为0。类似这种没有数据依赖关系的读操作，需要排序应使用rmb()。
　　CPU 0 CPU 1
　　a = 2;
　　memory_barrier();
　　b = 3; y = b;
　　read_barrier_depends();
　　x = a;
　　适合于多处理器的内存屏障宏定义列出如下（在include/asm-x86/system.h中）：
　　#ifdef CONFIG_SMP
　　#define smp_mb() mb()
　　#ifdef CONFIG_X86_PPRO_FENCE
　　# define smp_rmb() rmb()
　　#else
　　# define smp_rmb() barrier()
　　#endif
　　#ifdef CONFIG_X86_OOSTORE
　　# define smp_wmb() wmb()
　　#else
　　# define smp_wmb() barrier()
　　#endif
　　#define smp_read_barrier_depends() read_barrier_depends()
　　#define set_mb(var, value) do { (void)xchg(&var, value); } while (0)
　　#else
　　#define smp_mb() barrier()
　　#define smp_rmb() barrier()
　　#define smp_wmb() barrier()
　　#define smp_read_barrier_depends() do { } while (0)
　　#define set_mb(var, value) do { var = value; barrier(); } while (0)
　　#endif
　　函数rdtsc_barrier用于加内存屏障阻止RDTSC猜测，当在一个定义的代码区域使用读取时间戳计数器（Read Time-Stamp Counter，RDTSC）函数（或者函数get_cycles或vread）时，必须加内存屏障阻止RDTSC猜测。其列出如下：
　　static inline void rdtsc_barrier(void)
　　{
　　alternative(ASM_NOP3, "mfence", X86_FEATURE_MFENCE_RDTSC);
　　alternative(ASM_NOP3, "lfence", X86_FEATURE_LFENCE_RDTSC);
　　}

分享到：

高端内存 | 使用脚本程序管理Windows网络(9)

2012-01-20 08:13
浏览 654
评论(0)
分类:非技术
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论