yolo2系列一：总体介绍

gaohaikuo1 · 发表于 2025-4-29 19:54:31

什么是YOLO

gaohaikuo1 · 发表于 2025-5-11 12:27:39

YOLOv2的输入输出是什么？
1.输入：
图像尺寸：默认输入为 416×416 像素的 RGB 图像（支持多尺度训练，如 320×320、608×608 等）。
预处理：图像需归一化（像素值缩放到 [0, 1] 或标准化为均值为 0、方差为 1）。
特点：输入尺寸为 32 的倍数（如 416 = 13×32），以确保下采样后特征图的尺寸为整数。

2.输出：
(S, S, B×(5 + C))的网格
S×S 的网格（默认 S=13，即 13×13 的网格）
B 个边界框，默认5
5是位置+置信度
C为类别的概率

3.后处理

解码预测框：将偏移量 (t_x, t_y, t_w, t_h) 转换为实际坐标 (x, y, w, h)。
非极大抑制（NMS）：过滤重叠的预测框，保留置信度最高的检测结果。
阈值过滤：根据置信度（如 conf_thresh=0.5）和类别概率筛选最终检测结果。

import torch
model = torch.hub.load('ultralytics/yolov5', 'yolov2') # 示例调用（YOLOv2类似）
output = model(torch.rand(1, 3, 416, 416)) # 输入: [batch, channels, height, width]
print(output.shape) # 输出维度: [1, 13, 13, 425]

复制代码

gaohaikuo1 · 发表于 2025-5-12 08:45:22

gaohaikuo1 · 发表于 2025-5-28 17:47:28

OLOv2（基于PyTorch实现）的架构主要分为三部分：Backbone（特征提取网络）、Detection Head（检测头）和损失函数。以下是详细解析和PyTorch代码实现：

1. 网络架构概览
YOLOv2的核心改进包括：

Backbone：使用 Darknet-19（19层卷积网络）替代YOLOv1的GoogLeNet。

Anchor Boxes：引入锚框机制（通过聚类预定义框尺寸）。

Passthrough Layer：融合浅层特征提升小目标检测。

Multi-Scale Training：支持动态输入尺寸（如 320×320 到 608×608）。

gaohaikuo1 · 发表于 2025-5-28 17:58:33

正向传输是如何实现的？
用一个简单的单层网络实例

import torch
import torch.nn as nn
class SingleConvNet(nn.Module):
def __init__(self):
super(SingleConvNet, self).__init__()
self.conv = nn.Conv2d(3, 32, kernel_size=3, stride=1, padding=1, bias=False)
def forward(self, x):
return self.conv(x)
# 实例化模型和输入
model = SingleConvNet()
input_tensor = torch.randn(1, 3, 4, 4) # 形状: [batch=1, channels=3, height=4, width=4]
# 前向传播
output_tensor = model(input_tensor)
print("输入形状:", input_tensor.shape)
print("输出形状:", output_tensor.shape)
print("卷积核权重形状:", model.conv.weight.shape)

复制代码

gaohaikuo1 · 发表于 2025-5-28 18:22:39

如何看到卷积核的具体值？

import torch
import torch.nn as nn
# 定义一个单卷积层网络
class SimpleCNN(nn.Module):
def __init__(self):
super(SimpleCNN, self).__init__()
self.conv = nn.Conv2d(
in_channels=3,
out_channels=32,
kernel_size=3,
stride=1,
padding=1,
bias=False
)
def forward(self, x):
return self.conv(x)
# 实例化模型
model = SimpleCNN()
# 查看第一个卷积核的数值（第一个输出通道对应的核）
first_kernel = model.conv.weight[0] # 形状: [3, 3, 3] (in_channels, kernel_size, kernel_size)
print("第一个卷积核的数值:\n", first_kernel)

复制代码

gaohaikuo1 · 发表于 2025-5-29 16:53:54

需要注意的是，上述的值是随机的，每次卷积核的值都是不同的，也可以自己指定

import torch
import torch.nn as nn
class SimpleCNN(nn.Module):
def __init__(self):
super().__init__()
self.conv = nn.Conv2d(3, 32, kernel_size=3, stride=1, padding=1, bias=False)
# 手动初始化第一个卷积核（示例值）
custom_kernel = torch.tensor([
[[0.1, 0.2, 0.1],
[0.2, 0.3, 0.2],
[0.1, 0.2, 0.1]], # 第一个输入通道的卷积核
[[0.0, -0.1, 0.0],
[-0.1, 0.4, -0.1],
[0.0, -0.1, 0.0]], # 第二个输入通道的卷积核
[[-0.1, 0.0, -0.1],
[0.0, 0.2, 0.0],
[-0.1, 0.0, -0.1]] # 第三个输入通道的卷积核
], dtype=torch.float32)
# 将第一个输出通道的卷积核赋值为自定义值
self.conv.weight.data[0] = custom_kernel
model = SimpleCNN()
print("自定义卷积核:\n", model.conv.weight[0])

复制代码

gaohaikuo1 · 发表于 2025-5-29 17:06:39

卷积之后一般跟着BN运算：
批归一化（Batch Normalization，简称 BN）是深度学习中用于加速训练、提升模型稳定性的重要技术，由 Sergey Ioffe 和 Christian Szegedy 在 2015 年提出。它的核心思想是通过规范化每一层的输入分布（均值为 0，方差为 1），减少内部协变量偏移（Internal Covariate Shift），从而解决深度神经网络训练过程中的梯度消失/爆炸问题。

import torch
import torch.nn as nn
# 定义 BN 层
bn = nn.BatchNorm2d(num_features=3) # 输入通道数 C=3
# 模拟输入数据 [N, C, H, W]
input = torch.randn(2, 3, 5, 5) # Batch Size=2, 通道=3, 尺寸 5x5
output = bn(input)
# 查看 BN 的运行均值和方差（推理时使用）
print("全局均值:", bn.running_mean) # 形状 [C]
print("全局方差:", bn.running_var) # 形状 [C]

复制代码

		自动登录	找回密码
密码			立即注册

yolo2系列一：总体介绍

本帖子中包含更多资源

浏览过的版块