python卷积网络进行识别，手写字符识别

gaohaikuo1 · 发表于 2023-9-8 12:01:58

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset
from PIL import Image
import os
import torch.nn.functional as F
from torchvision import transforms
# 设置训练超参数
batch_size = 32#每一轮输入图像的张数。
learning_rate = 0.001#学习率，每一次梯度下降的程度，学习率太大容易找不到最优价。
num_epochs = 10#最大epoch数量，这里训练10轮，
# 定义模型类
class DigitNet(nn.Module):#从torch的Module模块继承并构建新的网络DigitNet。
def __init__(self):
super().__init__()#继承Module的初始化方法。
self.conv1 = nn.Conv2d(1, 10, 5)#卷积层1，3个参数分别为输入通道数，输出通道数，卷积核大小
self.conv2 = nn.Conv2d(10, 20, 3)#卷积层2，同上
self.fc1 = nn.Linear(20 * 10 * 10, 500)#这里的20是conv2输出的通道数，10是由于输入图像大小为28，经过conv1大小变为24，通过max_pool2d大小减半变为12，再通过conv2变为10，因此大小是10*10，输出500维的特征
self.fc2 = nn.Linear(500, 16)#通过500维的特征输出16个分类
def forward(self, x):#前向传递过程
input_size = x.size(0)
x = self.conv1(x)#卷积层1
x = F.relu(x)#激活函数，不改变大小
x = F.max_pool2d(x, 2, 2)#池化，大小减半
x = self.conv2(x)#卷积层2
x = F.relu(x)#激活函数
x = x.view(input_size, -1)#展平操作，用于构建fc层输入
x = self.fc1(x)#全连接层1
x = F.relu(x)#激活函数
x = self.fc2(x)#全连接层2
output = F.log_softmax(x, dim=1)#softmax分类
return output#返回输出类别
# 定义自定义数据集类
class CustomDataset(Dataset):
def __init__(self, root_dir, transform=None):
self.root_dir = root_dir # 根目录路径
self.classes = os.listdir(root_dir) # 获取根目录下的所有类别（子文件夹）名字
self.data = [] # 存储数据文件路径
self.targets = [] # 存储数据对应的标签
self.transform = transform # 数据预处理的转换操作
for i, class_name in enumerate(self.classes):
class_dir = os.path.join(self.root_dir, class_name) # 每个类别的文件夹路径
file_names = os.listdir(class_dir) # 获取当前类别文件夹下的所有文件名
for file_name in file_names:
file_path = os.path.join(class_dir, file_name) # 每个文件的完整路径
self.data.append(file_path) # 将文件路径添加到data列表中
self.targets.append(i % 16) # 将类别的索引添加到targets列表中，取余是为了使标签在0-15之间循环
def __len__(self):
return len(self.data) # 返回数据集的样本数量
def __getitem__(self, idx):
image_path = self.data[idx] # 获取指定索引处的图像路径
image = Image.open(image_path).convert('L') # 使用PIL库打开图像，并将其转换为灰度图像
if self.transform is not None:
image = self.transform(image) # 对图像进行预处理转换
target = self.targets[idx] # 获取指定索引处的标签
return image, target # 返回图像和对应的标签
# 设置数据预处理和转换
data_transform = transforms.Compose([
transforms.Resize((28, 28)), # 调整图像大小为 28x28
transforms.ToTensor(), # 将图像转换为张量
transforms.Normalize((0.5,), (0.5,)) # 归一化处理
])
# 创建数据加载器
dataset = CustomDataset('D:/data', transform=data_transform) # 创建自定义数据集实例，并应用数据预处理的转换操作
dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=True) # 创建数据加载器，指定批量大小和是否随机打乱数据
# 创建模型实例
model = DigitNet() # 创建数字识别模型实例
# 定义损失函数和优化器
criterion = nn.CrossEntropyLoss() # 交叉熵损失函数，用于多分类问题
optimizer = optim.Adam(model.parameters(), lr=learning_rate) # Adam优化器，用于参数优化
# 设置模型为训练模式
model.train()
# 开始训练
for epoch in range(num_epochs): # 遍历每个epoch
for images, labels in dataloader: # 遍历每个batch的图像和标签
# 前向传播
outputs = model(images) # 将图像输入模型，获取预测结果
# 计算损失
loss = criterion(outputs, labels) # 计算预测结果与真实标签之间的损失
# 反向传播和优化
optimizer.zero_grad() # 清空梯度
loss.backward() # 反向传播计算梯度
optimizer.step() # 更新模型参数
# 每个epoch结束后打印损失
print(f'Epoch [{epoch + 1}/{num_epochs}], Loss: {loss.item():.4f}')
# 保存模型
torch.save(model.state_dict(), 'digit_model.pth') # 保存模型参数到文件

复制代码

gaohaikuo1 · 发表于 2023-9-8 12:32:56

识别的代码

def match_chars(arrX, model_path):
# 加载预训练模型
model = DigitNet()
model.load_state_dict(torch.load(model_path, map_location=torch.device('cpu')))
model.eval()
# 设置图像预处理的转换
transform = transforms.Compose([
transforms.Resize((28, 28)), # 调整图像大小为 28x28
transforms.ToTensor(), # 将图像转换为张量
transforms.Normalize((0.5,), (0.5,)) # 归一化处理
])
recognized_chars = []
# 循环遍历所有切割后的字符图像
for char_img in arrX:
char_img=padd(char_img)
plt.imshow(char_img, cmap='gray')
plt.show()
# 加载图像并进行预处理
image = Image.fromarray(char_img)
image = transform(image) # 应用预处理转换
image = image.unsqueeze(0) # 添加 batch 维度
# 进行字符识别
output = model(image)
probabilities = F.softmax(output, dim=1)
# 获取预测结果及对应的置信度
predicted_prob, predicted_label_idx = torch.max(probabilities, 1)
predicted_label = class_labels[predicted_label_idx.item()]
print(predicted_prob.item())
if predicted_prob.item()>0.9:
# 将预测结果添加到识别字符列表中
recognized_chars.append(str(predicted_label))
else:
recognized_chars.append(char_img)
return recognized_chars

复制代码

gaohaikuo1 · 发表于 2023-9-8 12:33:29

完整实例

gaohaikuo1 · 发表于 2024-5-14 16:48:09

pytorch】卷积操作原理解析与nn.Conv2d用法详解

gaohaikuo1 · 发表于 2024-5-14 16:48:18

https://blog.csdn.net/sazass/article/details/116790155

gaohaikuo1 · 发表于 2024-5-14 17:54:58

import torch
import torch.nn as nn
# With square kernels and equal stride
m= nn.Conv2d(1, 1, 1, stride=1)
input = torch.randn(1,3, 3,4)
output = m(input)
print(input)
print(output)

gaohaikuo1 · 发表于 2024-5-15 09:21:25

import torch
import torch.nn as nn
# With square kernels and equal stride
m= nn.Conv2d(1, 1, 3, stride=1)
m.state_dict()['weight']=[[[[1, 2, 3],
[4, 5, 6],
[ 7, 8, 9]]]]
print(m.state_dict()['weight'])

gaohaikuo1 · 发表于 2024-5-15 09:22:50

conv_zeros.weight = torch.nn.Parameter(torch.ones(1,1,1,1))

gaohaikuo1 · 发表于 2024-5-15 09:24:09

PyTorch里面最基本的操作对象就是Tensor，Tensor是张量的英文，表示的是一个多维的矩阵，比如零维就是一个点，一维就是向量，二维就是一般的矩阵，多维就相当于一个多维的数组，这和numpy是对应的，而且PyTorch的Tensor和numpy的ndarray可以相互转换，唯一不同的是PyTorch可以在GPU上运行，而numpy的ndarray只能在CPU上运行。
————————————————

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/vivi_cin/article/details/129052274

gaohaikuo1 · 发表于 2024-5-15 09:32:22

如何设置参数
import torch
import torch.nn as nn
# With square kernels and equal stride
m= nn.Conv2d(1, 1, 3, stride=1)
print(torch.ones(1,1,1,1))
m.weight = torch.nn.Parameter(torch.ones(1,1,1,1))
输入有4个参数，分别是batch channel m n

		自动登录	找回密码
密码			立即注册

python卷积网络进行识别，手写字符识别

本帖子中包含更多资源

浏览过的版块