r.recordBuffer 和 r.fieldIndexes 是 csv 的缓存,他们初始的时候容量是0,是不是会有些奇怪,之前还建议 slice 初始一个长度,来减少内存分配,csv 这个库的设计非常的巧妙,假设 csv 每行字段的个数一样,数据长度也相近,现实业务确实如此,所以只有读取第一行数据的时候才会发生大量的 slice 扩容, 之后其它行扩容的可能性非常的小,整个文件读取完也不会发生太多次,不得不说设计的太妙了。
r.recordBuffer 用来存储行中除了分隔符的所有数据,r.fieldIndexes 用来存储每个字段数据在 r.recordBuffer 中的索引。每次都通过 r.recordBuffer[:0] 这个的数据获取,读取每行数据都反复使用这块内存,极大的减少内存开销。
更巧妙的设计是 str := string(r.recordBuffer) 源代码中也有详细的说明,一次性分配足够的内存, 要知道类型转换是会发生内存拷贝的,分配新的内存, 如果每个字段转换一次,会发生很多的内存拷贝和分配,之后通过 dst[i] = str[preIdx:idx] 引用 str 中的数据达到切分字段的效果,因为引用字符串并不会拷贝字符串(字符串不可变,引用字符串的子串是安全的)所以其代价非常的小。
这段源码中还有一个很多人都不知道的 slice 特性的例子,dst = dst[:0]; dst = dst[:len(r.fieldIndexes)] 这两句话放到一起是不是感觉很不可思议,明明 dst 的长度被清空了,dst[:len(r.fieldIndexes)] 不是会发生索引越界吗,很多人认为 s[i:l] 这种写法是当前 slice 的索引,实际并非如此,这里面的 i 和 j 是底层引用数组相对当前 slice 引用位置的索引,并不受当前 slice 的长度的影响。
这里只是简单引用 csv 源码中的一段分析其 slice 的巧妙用法,即把 slice 当做数据缓存,也作为分配内存的一种极佳的方法,这个示例中的关于 slice 的使用值得反复推敲。
内存池早些时间阅读 GitHub 上的一些源码,发现一个实现内存次的例子,里面对 slice 的应用非常有特点,在这里拿来分析一下(GitHub源码):
func NewChanPool(minSize, maxSize, factor, pageSize int) *ChanPool { pool := &ChanPool{make([]chanClass, 0, 10), minSize, maxSize} for chunkSize := minSize; chunkSize <= maxSize && chunkSize <= pageSize; chunkSize *= factor { c := chanClass{ size: chunkSize, page: make([]byte, pageSize), chunks: make(chan []byte, pageSize/chunkSize), } c.pageBegin = uintptr(unsafe.Pointer(&c.page[0])) for i := 0; i < pageSize/chunkSize; i++ { // lock down the capacity to protect append operation mem := c.page[i*chunkSize : (i+1)*chunkSize : (i+1)*chunkSize] c.chunks <- mem if i == len(c.chunks)-1 { c.pageEnd = uintptr(unsafe.Pointer(&mem[0])) } } pool.classes = append(pool.classes, c) } return pool }这里采用步进式分页,保证每页上的数据块大小相同,一次性创建整个页 make([]byte, pageSize) ,之后从页切分数据块 mem := c.page[i*chunkSize : (i+1)*chunkSize : (i+1)*chunkSize], 容量和数据块长度一致,创建一块较大的内存,减少系统调用,当然这个例子中还可以创建更大的内存,就是每页容量的总大小,避免创建更多页,所有的块数据都引用一块内存。
这里限制了每个块的容量,默认引用 slice 的容量是引用起始位置到底层数组的结尾,但是可以指定容量,这就保证了获取的数据块不会因为用户不遵守约定超出其大小导致数据写入到其它块中的问题,设定了容量用户使用超出容量后就会拷贝出去并创建新的 slice 实在的很妙的用法。
一次分配更大的内存可以减少内存碎片,更好的复用内存。
func (pool *ChanPool) Alloc(size int) []byte { if size <= pool.maxSize { for i := 0; i < len(pool.classes); i++ { if pool.classes[i].size >= size { mem := pool.classes[i].Pop() if mem != nil { return mem[:size] } break } } } return make([]byte, size) }获取内存池中的内存就非常简单,查找比需要大小更大的块并返回即可,这不失为一个较好的内存复用算法。
func (pool *ChanPool) Free(mem []byte) { size := cap(mem) for i := 0; i < len(pool.classes); i++ { if pool.classes[i].size == size { pool.classes[i].Push(mem) break } } }