岁虚山

行由不得,反求诸己

0%

K近邻算法进阶-手写数字识别

概述

手写数字识别——机器学习领域的Hello World

本章将通过实现手写数字识别的程序,用以探讨K近邻算法的进阶使用。

数据集介绍

本章用以进行程序实现的数据集来源于《机器学习实战》一书的源码中的数据集。

该数据集包含于两个目录内:

TrainingDigits

TestDigits

我们使用的数据集中,所使用的样本并非是图片格式的数据,而是类似于将数字的灰度图片转换为 0,1 信息的文本文件。

数字 0 对应的样本数据内容如下:

00000000000001100000000000000000
00000000000011111100000000000000
00000000000111111111000000000000
00000000011111111111000000000000
00000001111111111111100000000000
00000000111111100011110000000000
00000001111110000001110000000000
00000001111110000001110000000000
00000011111100000001110000000000
00000011111100000001111000000000
00000011111100000000011100000000
00000011111100000000011100000000
00000011111000000000001110000000
00000011111000000000001110000000
00000001111100000000000111000000
00000001111100000000000111000000
00000001111100000000000111000000
00000011111000000000000111000000
00000011111000000000000111000000
00000000111100000000000011100000
00000000111100000000000111100000
00000000111100000000000111100000
00000000111100000000001111100000
00000000011110000000000111110000
00000000011111000000001111100000
00000000011111000000011111100000
00000000011111000000111111000000
00000000011111100011111111000000
00000000000111111111111110000000
00000000000111111111111100000000
00000000000011111111110000000000
00000000000000111110000000000000

可以看到,由 0 和 1组成的32 x 32的数字矩阵大概构成了一幅手写数字 0 的图片。

其中,TrainingDigits 目录下包含了数字 0-9 的32 x 32的txt文件形式(如下图)2000个例子。每个例子都是一个txt文件,

-------------本文结束 感谢阅读-------------
打赏一包辣条