1、Linux Memory Manager,Actions Microelectronics Co., Ltd.,柯锦玲 2009-10-21,Agenda,Linux对外提供的内存管理接口,linux 内存镜像图,Linux 内存管理算法介绍,Linux如何防止内存碎片,Linux Image,蓝色字体部分 可用空间,Linux 如何防止内存碎片,内存碎片 内部碎片: 系统为了满足一小段内存区(连续)的需要,不得不分配了一大区域连续内存给它,从而造成了空间浪费 外部碎片系统虽有足够的内存,但却是分散的碎片,无法满足对大块“连续内存”的需求,Linux 如何防止内存碎片,linux减少外部碎片
2、伙伴系统(buddy算法)把内存块按大小分组管理,一定程度上减轻了外部碎片的危害,因为页框分 配不在盲目,而是按照大小依次有序进行,不过伙伴关系只是减轻了外部碎片,但并未彻底消除 ,但是伙伴系统同时又带来很多的内部碎片 linux减少外部碎片 SLAB,SLUB,SLOB分配器使得一个页面内众多小块内存可独立被分配使用,避免了内部分片,节约了空闲内存,Linux 如何防止内存碎片,linux 内存管理层次关系图1,Linux 如何防止内存碎片,linux 内存管理层次关系图2,Linux 内存管理算法介绍,Buddy System算法原理 Buddy System是一种经典的内存管理算法。在U
3、nix和Linux操作系统中都有用到。其作用是减少存储空间中的空洞、减少碎片、增加利用率。避免外碎片的方法有两种: a.利用分页单元把一组非连续的空闲页框映射到连续的线性地址区间。 b.开发适当的技术来记录现存的空闲连续页框块的情况,以尽量避免为满足对小块的请求而把大块的空闲块进行分割。 基于下面三种原因,内核选择第二种避免方法: a.在某些情况下,连续的页框确实必要。 b.即使连续页框的分配不是很必要,它在保持内核页表不变方面所起的作用也是不容忽视的。假如修改页表,则导致平均访存次数增加,从而频繁刷新TLB。 c.通过4M的页可以访问大块连续的物理内存,相对于4K页的使用,TLB未命中率降低
4、,加快平均访存速度。,buddy算法将所有空闲页框分组为11个块链表,每个块链表分别包含1,2,4,8,16,32,64,128,256,512,1024个连续的页框,每个块的第一个页框的物理地址是该块大小的整数倍。如,大小为16个页框的块,其起始地址是16*212的倍数。 例,假设要请求一个128个页框的块,算法先检查128个页框的链表是否有空闲块,如果没有则查256个页框的链 表,有则将256个页框的块分裂两份,一份使用,一份插入128个页框的链表。如果还没有,就查512个页框的链表,有的话就分裂为 128,128,256,一个128使用,剩余两个插入对应链表。如果在512还没查到,则返回
5、出错信号。 回收过程相反,static inline struct page *alloc_pages(gfp_t gfp_mask, unsigned int order) void _free_pages(struct page *page, unsigned int order) 分配内存的单位为页面数,分配时候传入order值, order 为0 ,1,2,n 分别分配1,2,4,2n个页面 伙伴系统(Buddy算法)分配的页面物理上是连续的,因此使用伙伴系统分配的内存大小最大为210 * PAGESIZE = 4K * 4K = 4M unsigned long _get_free_
6、pages(gfp_t gfp_mask, unsigned int order) void free_pages(unsigned long addr, unsigned int order)Buddy算法虽然能很好的减少外部碎片的产生,但是他却可用导致很多的内部碎片,slab/slob/slub的作用: 以页为最小单位分配内存对于内核管理系统物理内存来说的确比较方便,但内核自身最常使用 的内存却往往是很小(远远小于一页)的内存块比如存放文件描述符、进程描述符、虚拟内存区域描述符等行为所需的内存都不足一页。这些用来存放描述符的 内存相比页面而言,就好比是面包屑与面包。一个整页中可以聚集多个这
7、种这些小块内存;而且这些小块内存块也和面包屑一样频繁地生成/销毁。 为了满足内核对这种小内存块的需要,Linux系统采用了一种被称为slab分配器的技术。Slab分配器的实现 相当复杂,但原理不难,其核心思想就是“存储池”的运用。内存片段(小块内存)被看作对象,当被使用完后,并不直接释放而是被缓存到“存储池”里,留做下 次使用,这无疑避免了频繁创建与销毁对象所带来的额外负载。,slab 分配器的主要结构,SLUB,2.6.22中的SLAB内存管理代码将被SLUB代替。SLAB是经典的管理内核的内存的代码,但是slab维护了大量的对象队列,这些队列虽然可以很快地被分 配,但是过于复杂,而且维护所
8、占用的空间会随着系统节点的增加而急剧增长。 slub就是作为slab的可替代选项出现的。slub是一种不使用队列的分配器。slub取消了大量的队列和相 关维护费用,获得了极大的性能和伸缩性提高,并在总体上简化了slab结构,使用了基于每CPU的缓存,同时保留了slab的用户接口,而且slub还提 供了强大的诊断和调试能力,slob,slob是一个相对简单一些的分配器,主要使用在小型的嵌入式系统。在选择了CONFIG_EMBEDDED后,就可以选用CONFIG_SLOB选项,使用SLOB 分配器中。 slob是一个经典的K&R/UNIX堆分配器(想我们目前ucos上面的malloc),其具有一个
9、slab模拟层,和被slab替代的linux原来的kmalloc分配器比较相似,比slab更有空间效率,尺寸更小,但是依然存在碎片和难于扩展(对所有操作都简单地上锁)的问题,只适用于小系统。 slob获得的是已经对齐的对象。slob在MIPS上的粒度是4字节。slob堆是一个单向列表,连接了从get_free_page获得的页面,从堆上按照first-fit的原则依照需求增长和分配。,vmalloc避免外部分片的最终思路还是落到了如何利用不连续的内存块组合成“看起来很大的内存块”这里的情况很类似 于用户空间分配虚拟内存,内存逻辑上连续,其实影射到并不一定连续的物理内存上。Linux内核借用了这
10、个技术,允许内核程序在内核地址空间中分配虚拟地 址,同样也利用页表(内核页表)将虚拟地址影射到分散的内存页上。以此完美地解决了内核内存使用中的外部分片问题。内核提供vmalloc函数分配内核虚拟内存,该函数不同于kmalloc,它可以分配较Kmalloc大得多的内存空间(可远大于128K,但必须是页大小的倍数),但相比Kmalloc来 说Vmalloc需要对内核虚拟地址进行重影射,必须更新内核页表,因此分配效率上要低一些(用空间换时间)),Mips 32bit 存储器映射图在mips底下使用,kseg2 1G大小空间,从 0xC000 0000 0xFFFF FFFF,也就是说vmalloc返
11、回的地址值,会落在0xC000 0000 0xFFFF FFFF上,Mips linux使用的是二级映射将线性地址转换为物理地址 PGD(page direcory),页面目录表,占用10bit 每一PGD项占用4字节,所以页表目录大小为4KB ,正好一页 PTE(page table entry),页面目录入口表,占用10bit 每一PTE项占用4字节,所以页表(PTE)大小为4KB ,正好一页 每一PGD项,(需要有一个页表(PTE)可以映射 222 = 4MB 的空间 每一PGD项,对应一个PTE(page table entry),页面目录入口表,Vmalloc:调用图,内核提供内存管
12、理接口接口: gfp_mask: GFP_ATOMIC 用来从中断处理和进程上下文,软中断,持有自旋锁以及其他不能睡眠(阻塞)的地方分配内存. 从不睡眠. GFP_KERNEL 内核内存的正常分配. 可能睡眠. Slob/slab/slub提供接口: static struct kmem_cache *skbuff_head_cache _read_mostly;skbuff_head_cache = kmem_cache_create(“skbuff_head_cache“, sizeof(struct sk_buff), 0, SLAB_HWCACHE_ALIGN|SLAB_PANIC,
13、NULL); SLAB_HWCACHE_ALIGN:指定cache对齐(cache line对齐,如32字节对齐). SLAB_PANIC:指示创建失败时候,系统halt 除非你觉得分配的内存结构体会频繁地生成/销毁,否则 请直接使用kmalloc分配空间.,除非你觉得分配的内存结构体会频繁地生成/销毁,否则 请直接使用kmalloc分配空间.例子: 分配: skb = kmem_cache_alloc_node(cache, gfp_mask, node); 释放:kmem_cache_free(skbuff_head_cache, skb);,Vmalloc: 不能在中断中使用: void *vmalloc(unsigned long size) void vfree(const void *addr) Kmalloc: static inline void *kmalloc(size_t size, gfp_t flags) void kfree(const void *objp),Thank You !,Actions Microelectronics Co., Ltd.,end !,Actions Microelectronics Co., Ltd.,