前面大概讲了什么是神经网络。那么这节就来说下如何将数据(图片、语音、视频等等)输入到神经网络中。
下面是一张金发美女的图片,图片一般有RGB、CMYK等色彩模式,咱们就拿RGB来说。
为了存储RGB的图像,因为图像有三个通道,因此计算机会存储一个三维矩阵,为了理解方便,咱们暂且看作三个独立的矩阵。
这三个矩阵分别与此图像的红色、绿色和蓝色相对应(世界上的所有颜色都可以通过红绿蓝三种颜色调配出来)。如果图像的大小是64 * 64个像素(一个像素就是一个颜色点,一个颜色点由红绿蓝三个值来表示,例如,红绿蓝为255,255,255,那么这个颜色点就是白色),所以3个64 * 64大小的矩阵在计算机中就代表了这张图像,矩阵里面的数值就对应于图像的红绿蓝强度值。
假如要把矩阵中的像素值放到一个特征向量x中,这个x就表示了这张图像。向量x的总维度就是64×64×3,即12288。这个12288维的向量就是图片的特征向量,作为神经网络的输入。
其实,对于不同的应用场景,需要识别的对象可能大不相同,有些是语音有些是图像、有些是文字、有些是视频、有些是传感器数据,但是它们在计算机中都有对应的数字表示形式,通常我们会把它们转化成一个特征向量,然后将其输入到神经网络中。
欢迎关注我的微信订阅号,上面有更多机器学习相关的文章。