Linux VFS机制简析(一)
本文主要基于Linux内核文档,简单分析Linux VFS机制,以期对编写新的内核文件系统(通常是给分布式文件系统编写内核客户端)的场景有所帮助。
个人渊源
切入正文之前先扯点别的,舰队我在04年刚接触Linux时就深入分析了VFS,当时刚毕业入职一家做NAS存储的公司,需要对VFS、block device、MD等内核模块深入了解。时隔10几年之后的今天,因给一个分布式文件系统做内核客户端,重拾VFS发现一切还是熟悉的味道。这十几年过去了,内核版本从2.6到4.x,VFS的机制和整体架构变化不大,依然是各种底层文件系统和用户态接口之间不可或缺的转换层。
Overview
VFS(Virtual File System)是Linux内核里提供文件系统接口给用户态应用程序的一个虚拟文件系统层。同时VFS还提供了抽象化的操作接口以方便实现内核的底层文件系统。
Directory Entry Cache (dcache)
VFS实现open、stat、chmod等类似的文件系统调用,他们传递一个pathname参数给VFS。VFS根据文件路径pathname搜索directory entry cache(dentry cache或者dcache)获取对应的dentry。所以dcache是一个高速目录项缓存,用于映射文件路径和dentry。dentry结构用于优化查询性能,只存在于内存中,不实际存储到磁盘。
内存限制,并不是所有dentry都能在缓存命中,当根据pathname找不到对应dentry时,VFS调用lookup接口向底层文件系统查找获取inode信息,以此建立dentry和其对应的inode结构。
Inode
每个dentry通常对应一个inode结构用于描述文件、目录等的基本元数据信息。如果底层是磁盘存储,Inode结构会保存到磁盘。当需要时从磁盘读取到内存中进行缓存。一个inode结构可以被多个dentry指向,如硬链接。对于网络文件系统(分布式文件系统),Inode结构需要通过网络协议获取到缓存中。
VFS通过父目录的lookup方法来获取某个文件的inode信息,该方法由底层文件系统实现。一旦获取了inode信息,open,stat等无聊的操作直接从缓存里进行,变得很快。
File
Open一个文件还需要另外一个数据结构:File。File用于表示一个处于Open状态的文件,同一个文件被Open多次对应不同的File结构。应用程序打开文件后对应一个句柄(FD, file descriptor),每个FD都对应到内核的一个File结构,因此File结构直接存放在进程的FD表里,通过FD可以快速获取到File数据结构。
VFS实现用户态文件读写关闭操作时,通过用户态的FD来获取对应的File结构,然后调用对应的底层文件系统方法。只要有File结构正在使用,就增加dentry的引用计数,保证dentry和inode结构没有从缓存里删除。
Registering and Mounting a Filesystem
通过如下函数进行文件系统的注册和注销操作:
#include <linux/fs.h>
extern int register_filesystem(struct file_system_type *);
extern int unregister_filesystem(struct file_system_type *);
其中struct file_system_type用于描述文件系统基本信息和mount()等操作。当挂载文件系统到目录时,调用对应file_system_type里的mount()函数。原文件系统目录树上挂载点会附上新的vfsmount,当路径解析到挂载点时,会自动跳转到vfsmount的根目录。
通过/proc/filesystems可以查看到所有注册的文件系统类型。
struct file_system_type
结构体file_system_type的定义如下:
struct file_system_type {
115 const char *name;
116 int fs_flags;
117 struct dentry *(*mount) (struct file_system_type *, int,
118 const char *, void *);
119 void (*kill_sb) (struct super_block *);
120 struct module *owner;
121 struct file_system_type * next;
122 struct list_head fs_supers;
123 struct lock_class_key s_lock_key;
124 struct lock_class_key s_umount_key;
125 };
其中,name是文件系统名称,如ext4, xfs等等。fs_flags为各种标识,如FS_REQUIRES_DEV, FS_NO_DCACHE等。mount()函数指针用于挂载一个新的文件系统实例。kill_sb()函数指针用于关闭文件系统实例。owner是VFS内部使用,通常设置为THIS_MODULE。next也是VFS内部使用,初始化时设置为NULL即可。s_lock_key和s_umount_key是lockdep相关的结构。
mount()函数有几个参数:fs_type为对应的file_sytem_type结构指针。flags为挂载的标识。dev_name为挂载的设备名,对于网络文件系统通常是一个网络路径。data为挂载的选项,通常为一组ASCII字符串。
mount()必须返回文件系统目录树的root dentry。文件系统的super block增加一个引用计数并处于locked状态。mount失败时返回ERR_PTR(err)。mount()函数可以选择返回一个已经存在的文件系统的一个子树,而不是创建一个新的文件系统实例,这种情况返回的是子树的root dentry。
底层文件系统实现mount,可以直接调用通用的mount实现:mount_bdev(在块设备上挂载文件系统)、mount_nodev(挂载没有设备的文件系统)和mount_single(挂载在不同的mounts间共享实例的文件系统),并提供一个fill_super()的回调函数用于创建root dentry和inode。比如FUSE就通过调用mount_nodev来实现mount操作。
其中file_super()回调函数的参数包括:struct super_block sb(文件系统sb,需要在fill_super()里进行初始化)、void data(文件系统挂载的选项字符串)、int silent(是否忽略error)。
当然也可以参考通用的mount实现自己的mount操作,比如Ceph就直接调用了sget()函数创建sb并通过set()回调函数初始化sb。
Mount Options
mount函数会传递一个options的字符串,以逗号隔开。它是mount命令输入的选项(通过-o设置)。options的格式可以是如下两种:
- option
- option=value
Linux内核头文件linux/parser.h里定义了帮助解析options的API。可以从现有的文件系统代码里找到使用方法。
如果一个文件系统使用了mount options,则必须实现s_op->show_options()函数将选项进行显示。显示的规则如下:
- 如果option不是默认值,则必须显示。
- 如果option等于默认值,则可选择是否显示。
Superblock and struct super_operations
Superblock超级块(简称sb,莫名哈哈一笑)代表一个挂载的文件系统,其数据结构保存了文件系统基本的元数据信息。其中s_op指向了struct super_operations,为sb这一级的函数操作合集。
super_operations的定义如下:
struct super_operations {
struct inode *(*alloc_inode)(struct super_block *sb);
void (*destroy_inode)(struct inode *);
void (*dirty_inode) (struct inode *, int flags);
int (*write_inode) (struct inode *, int);
void (*drop_inode) (struct inode *);
void (*delete_inode) (struct inode *);
void (*put_super) (struct super_block *);
int (*sync_fs)(struct super_block *sb, int wait);
int (*freeze_fs) (struct super_block *);
int (*unfreeze_fs) (struct super_block *);
int (*statfs) (struct dentry *, struct kstatfs *);
int (*remount_fs) (struct super_block *, int *, char *);
void (*clear_inode) (struct inode *);
void (*umount_begin) (struct super_block *);
int (*show_options)(struct seq_file *, struct dentry *);
ssize_t (*quota_read)(struct super_block *, int, char *, size_t, loff_t);
ssize_t (*quota_write)(struct super_block *, int, const char *, size_t, loff_t);
int (*nr_cached_objects)(struct super_block *);
void (*free_cached_objects)(struct super_block *, int);
};
所有的函数,如果没有特别说明,都在没有持有锁的情况下被调用,因此大部分这些函数都可以安全地进行阻塞操作。所有的函数都只在进程上下文中被调用(区别于中断处理或者中断处理下半部分)。
alloc_inode:被inode_alloc()函数调用用于分配inode内存并进行inode结构初始化。如果函数未定义,则简单的分配一个'struct inode'。通常alloc_inode用于底层文件系统分配一个包含inode结构体的更大的结构体(特定的inode结构,如:fuse_inode)。
destroy_inode:被destroy_inode()函数调用用于释放inode相关申请的资源。只有alloc_inode定义了才需要定义destroy_inode,并且释放的也是alloc_inode里申请的相关资源。
dirty_inode:由VFS调用标记inode dirty(元数据信息被修改过并且没有同步到磁盘或服务器)。
write_inode:由VFS调用用于将inode同步到磁盘。第二个参数用于标识是否同步写盘。
drop_inode:VFS在当inode的引用计数减为0时,调用该函数。调用者已经持有了inode->i_lock。该函数返回0,则inode将可能被丢到LRU链表里,返回1则会由调用者继续调用evict_inode和destroy_inode。如果文件系统不需要缓存inode,则该函数可以设置为NULL或者generic_delete_inode(函数里直接return 1)。
delete_inode:VFS删除inode时直接调用该函数。由于查看的Linux文档版本是2.6.39,所以有该函数指针,在3.10版本已经没有了detele_inode。
put_super:VFS想要释放sb时调用(如umount操作)。调用者已经持有sb的lock。
sync_fs:VFS想要把该文件系统所有的脏数据刷盘时调用。
freeze_fs:目前只有LVM使用。用于冻结文件系统,不能进行写入操作。
unfreeze_fs:解冻文件系统,使其可以写入。
statfs:用于获取文件系统的统计信息。
remount_fs:用于重新挂载文件系统,调用者持有kernel lock。
clear_inode:同样在3.10版本没有了。
umount_begin:用于umount文件系统。
show_options:用于/proc/mounts里显示文件系统的mount选项。
quota_read和quota_write:用于读写文件系统的quota文件。
nr_cached_objects和free_cache_objects:用于返回可以释放的cache对象个数,以及进行实际的释放对象操作。
可以看到super_operations包含了inode的分配、初始化和释放。inode里的i_op字段指向了底层文件系统inode相关操作合集:struct inode_operations。
struct inode_operations
struct inode_operations定义如下,它描述了VFS如何管理inode对象。
struct inode_operations {
int (*create) (struct inode *,struct dentry *, umode_t, bool);
struct dentry * (*lookup) (struct inode *,struct dentry *, unsigned int);
int (*link) (struct dentry *,struct inode *,struct dentry *);
int (*unlink) (struct inode *,struct dentry *);
int (*symlink) (struct inode *,struct dentry *,const char *);
int (*mkdir) (struct inode *,struct dentry *,umode_t);
int (*rmdir) (struct inode *,struct dentry *);
int (*mknod) (struct inode *,struct dentry *,umode_t,dev_t);
int (*rename) (struct inode *, struct dentry *,
struct inode *, struct dentry *);
int (*readlink) (struct dentry *, char __user *,int);
void * (*follow_link) (struct dentry *, struct nameidata *);
void (*put_link) (struct dentry *, struct nameidata *, void *);
int (*permission) (struct inode *, int);
int (*get_acl)(struct inode *, int);
int (*setattr) (struct dentry *, struct iattr *);
int (*getattr) (struct vfsmount *mnt, struct dentry *, struct kstat *);
int (*setxattr) (struct dentry *, const char *,const void *,size_t,int);
ssize_t (*getxattr) (struct dentry *, const char *, void *, size_t);
ssize_t (*listxattr) (struct dentry *, char *, size_t);
int (*removexattr) (struct dentry *, const char *);
void (*update_time)(struct inode *, struct timespec *, int);
int (*atomic_open)(struct inode *, struct dentry *,
struct file *, unsigned open_flag,
umode_t create_mode, int *opened);
};
同样,如果没有特别注明,所有函数都在没有锁持有的情况下调用。
create:由open和create系统调用使用。入参inode为父目录的inode,入参dentry为新创建的,没有对应的inode(negative dentry)。底层文件系统需要调用d_instantiate()将dentry和新创建的inode进行关联。只有目录类型的inode才会调用该函数指针。
lookup:VFS需要查找目录下面某个inode信息是调用该函数。入参dentry里携带了要查找的文件name。该函数里需要调用d_add()将找到的inode插入到dentry。并且inode的i_count字段需要递增。如果inode没有找到,则dentry插入一个NULL inode(这种dentry称为一个negative dentry)。只有在底层真实错误时才能返回error,此时open、create、mknode等涉及创建inode的操作都会失败。同样也只有目录类型的inode才会调用该函数指针。
在lookup函数里,可以将dentry的d_op字段初始化为自己的dentry_operations,来定制对dentry和dcache的一些管理函数操作合集。
link:link系统调用使用,用于创建硬链接。同样需要调用d_instantiate()来关联dentry和inode。
unlink:unlink系统调用使用,用于删除一个inode关联的文件或目录。
symlink:symlink系统调用使用,用于创建一个软链接。
mkdir:mkdir系统调用使用,用于创建一个子目录。
rmdir:rmdir系统调用使用,用于删除一个子目录。
mknod:mknod系统调用使用,用于创建一个设备inode(char,block)或者一个named pipe (FIFO)或者一个socket。
rename:rename系统调用使用,用于改名。
readlink:readlink系统调用使用,用于读取软链接文件指向的实际路径。
follow_link:VFS调用,用于跟踪获取一个软链接指向的inode。该函数返回一个指针cookie,该cookie会传递给put_link。
put_link:用于释放follow_link里申请的资源,cookie作为最后一个参数传入。它在NFS等文件系统上,page cache不是很稳定的情况下使用。
permission:VFS调用,用于检测访问权限。有可能在rcu-walk mode下被调用,那么该函数必须不能阻塞或者存储数据到inode。如果在rcu-walk mode下遇到问题,则返回-ECHILD,它将在ref-walk mode重新被调用。
setattr:VFS调用,用于设置文件的attr属性。它将被chmod等相关系统调用使用。
getattr:VFS调用,用于获取文件的attr属性。它将被stat等相关系统调用使用。
setxattr:VFS调用,用于设置文件的一个扩展attr属性。它将被setxattr系统调用使用。
getxattr:VFS调用,用于根据属性名称获取文件的一个扩展attr属性。它将被getxattr系统调用使用。
listxattr:VFS调用,用于列出给定文件的所有扩展属性。它将被listxattr系统调用使用。
removexattr:VFS调用,用于删除一个扩展attr属性。它将被removexattr系统调用使用。
update_time:VFS调用,用于更新inode的时间(如atime)或者i_version字段。如果该函数没有指定,则VFS将自己更新inode并调用mark_inode_dirty_sync。
atomic_open:该可选的函数,用于性能优化。它将lookup、可能的create操作以及open操作在一个接口里完成。只有negative dentry才会调用该函数。在dentry cache里的positive dentry直接通过f_op->open()函数来打开文件即可。
参考
后记
本篇主要介绍了VFS架构机制和作用,以及如何实现一个底层文件系统的注册和mount、super block和sb operations、inode和inode operations。
下一篇将继续介绍有关Address space和address operations、file和file operations、dentry和dentry operations和dentry cache API:Linux VFS机制简析(二)