稀疏连通卷积神经网络有效近似研究
稀疏连通卷积神经网络有效近似研究
杨丽娟, 李松华, 方  黄
(湖南理工学院 数学学院, 湖南 岳阳414006)
摘  要: 深度卷积神经网络在图像分类和物体检测上已取得卓越表现, 其代价是需要大量参数和复杂计算. 针对全连
通卷积神经网络运算复杂性, 已有研究提出稀疏卷积连通神经网络算法, 但卷积(稀疏和非稀疏)连通深度神经网络算法在理论上还有待完善. 主要研究稀疏连通卷积神经网络的近似理论, 考虑在Sobolev 空间中具有任意紧支集的函数, 利用表示系统2()()i i I D L ϕ∈=⊂Ω实现稀疏连通卷积神经网络对函数的有效逼近.
关键词: 卷积神经网络; 稀疏连通; 函数近似 中图分类号: O241.5
文献标识码: A
文章编号: 1672-5298(2023)02-0012-05
Efficient Approximation of Sparse Connected
Convolutional Neural Networks
YANG Lijuan, LI Songhua, FANG Huang
(School of Mathematics, Hunan Institute of Science and Technology, Yueyang 414006, China)
Abstract : Depth convolution neural networks have achieved outstanding performance in image classification and object detection, and the cost is a large number of parameters and complex computation. In view of the computational complexity of fully connected convolutional neural network, sparse convolutional connected neural network algorithm was proposed in recent years, while convolutional (sparse and non-sparse) connected depth neural network algorithm needs to be improved in theory. The approximation theory of sparsely connected convolutional neural networks was mainly studied. Considering a random function
with compact support in Sobolev space, the representation system 2
()()i i I D L ϕ∈=⊂Ω was used to realize the effective
approximation of functions by sparsely connected convolutional neural networks.
Key words : convolution neural network; sparsely connected; function approximation
0 引言
深度神经网络是机器学习领域的一种主流技术, 在图像时空融合恢复、图像分类和物体检测等领域有着广泛应用[1,2]. 但是, 随着训练数据成指数倍增长, 海量数据给全连通神经网络计算复杂性带来严重挑战. Bölcskei 等[3]提出一种稀疏连通神经网络, 若网络的连接数M 相对于可能的连接数(下一层的可连接变量)来说很小, 则网络是稀疏连接的. 在最大允许误差范围之内(给定任意正数ε), 出一个稀疏连通神经网络(,)f M Φ来逼近函数f , 使得
()2||(,)||L f f M εΩ-Φ≤.
上述结果在给定函数类的复杂性和相应的近似神经网络所需的连接性之间建立了一个通用的联系(全连通神经网络和稀疏连通神经网络之间的联系), 有效降低了计算复杂度, 提升了深度学习神经网络的运算速度. 在深度神经网络中, 函数的近似理论已比较完善, 而关于深度卷积神经网络的数学近似理论目前还偏少[4~6], 尤其是对稀疏连通深度学习神经网络近似性质的研究则更少[3,7]. 全连通神经网络通常是通过学习权值来逼近函数, 而对于稀疏连通深度神经网络而言, 是否可以用同样的方法来逼近函数, 这一问题尚待解决.
本文从稀疏连通卷积神经网络近似性入手, 先讨论稀疏连通卷积神经网络的模型, 再通过构造不同空间下的近似系统证明稀疏连通卷积神经网络的近似理论. 在提供确定精度的情况下, 可以到一个稀
收稿日期: 2022-09-23
基金项目: 湖南省自然科学基金项目(2020JJ4330); 湖南省教育厅项目(19A196) 作者简介: 杨丽娟, 女, 硕士研究生. 主要研究方向: 小波分析及其应用  通信作者: 李松华, 男, 博士, 教授. 主要研究方向: 小波分析及其应用
第36卷 第2期                                    湖南理工学院学报(自然科学版)                                      V ol. 36  No. 2
2023年6月                      Journal of Hunan Institute of Science
and Technology (Natural Sciences)                          Jun. 2023
第2期
杨丽娟, 等: 稀疏连通卷积神经网络有效近似研究 13
疏连通卷积神经网络的近似.
1 稀疏连通卷积神经网络模型
本文讨论的稀疏连通卷积神经网络(CNN)的激活函数ρ∈ 为单变量非线性函数:
()()max{,0}u u u ρ+==, u ∈ .
设向量d x ∈ , n d ⨯阶矩阵l A 为第1l -层到第l 层的稀疏矩阵, 即n d l A ∈⨯  . 向量b 是偏置向量l
b 的序列, 定义函数:
1()(()())l l l l l W x A W x b ρω-=*+,
其中l L ≤, l *∈ , 00()W x x =(输入层的变量向量). 通过这个递推关系式, 可知L 层的稀疏连通CNN 为
11()((((()))))L L x W W W x ρρ-Φ= .
定义1 设ρ∈ , 1M K <≤, ,K M ∈ , K 是卷积神经网络的最大连接数, 当有M 个,()0n i j A ≠, 1,2,,n L = 时, 如下递推关系式称作稀疏连通卷积神经网络模型:
1()(()())l l l l l W x A W x b ρω-=*+,                          (1)
其中1,2,,l L = , 00()W x x =.
在全连通神经网络模型中, 隐含层或输入(出)层的层与层之间相互影响较小甚至没有, 可以忽略它们之间的影响, 通过稀疏连通神经网络模型减少第l 层与第1l -层之间的连接数, 从而降低神经网络的运算复杂度, 加快其运算速度.
2 稀疏连通卷积神经网络近似理论
2.1 稀疏连通CNN 与Sobolev 空间中函数的任意逼近
定义2 [8]  对于L 层稀疏连通CNN, 定义函数空间是一组函数的集合:
,()1():.l L d d b
l L
网络连接被重设k k k H c W x c γ=⎧⎫=∈⎨⎬⎩⎭
∑  上述空间的近似能力完全取决于卷积核序列{}()1L
l l γγ==以及序列的偏差向量{}()1
L
l l b b ==. 若假设空
间,b L H γ中的每个函数是在L
d  的任意紧支集Ω上的一个分片连续线性函数, 则在假设空间,b L H γ中, 下文
推论表明稀疏连通CNN 可以通过提高其深度L 来达到对()f C ∈Ω的任意近似.
定理1  设2s d ≤≤, [1,1]d Ω⊂. 若2/(1)J d s -≥,|f F Ω=,()r d f H ∈ , 整指数2/2r d >+, 则存在卷积核序列γ, 偏置向量的序列b 以及,,b b L L f H γγ∈, 使得
1
1,2()||||||||/)
,b
d
L C f f c F L γ+Ω-≤
其中c 是一个绝对常数, ||||F 表示F 在Sobolev 空间的模, 即()r d F H ∈ .
证明 矩阵,(())l l i j n m A A ⨯=使得卷积结构稀疏, l *∈ . 假设有M 个,()0l i j A ≠存在, 且2M ≥.
()
l l A ω是一个稀疏序列, 是卷积神经网络的卷积核, 满足
1,1
1,11,21,12,1
2,22,2,21,1
,2
,,1()()()()()()()()()()()()n l l i i i l l l l n n l l l l l n l i i i l l l l m l m l m n n n
l l m i i i A A A A A A A A A A A A A ωωωωωωω===⎛⎫ ⎪
⎪⎛⎫⎛⎫ ⎪
⎪ ⎪
⎪== ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎪ ⎪⎝⎭⎝⎭ ⎪
⎪⎝⎭
∑∑∑
.
14
湖南理工学院学报(自然科学版) 第36卷
令,1
(),1,2,,n l l k
l k i i i A k m γω===∑ , 定义序列12
(,,,)l l l l m T γγγγ= . 用确定的整数2s ≥来控制其稀疏度, 即()0,1,2,,l k k s γ≠= , 积核序列l γ与另一个序列(1)(1)(1)101(,,,)l l l l m W x x x ----= 的卷积是一个向量.
初始值001(,,,)d W x x x = , 1()l l W x γ-*由()(1)
10
(())L
l
l l l i i k k
k W x x γγ---=*=∑给出, 则有  ()
()
(1)()(1)()(1)
()11210
()(,
,,)(),L
L
L
l l l l l l l l l k
k
k
k
L k k
l k k k W x x
x
x T W x γ
γ
γ
γ--------===*==∑∑∑  其中L 是向量()l x 的维度. 那么在第一层卷积计算中, (0)d x ∈ , 也就是式中的001(,,,)d W x x x = .
于是(1)0()W x γ*可改写为某一矩阵与0W 的乘积, 则()d s d +⨯的卷积矩阵为
10
1
01
0(1)
10110
00
000000000000000s s s s s s s s s T γγγγγγγγγγγγγγγγγ---⎛⎫ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪= ⎪ ⎪
⎪ ⎪
⎪⎝
.
()()
()l l i k T γ-=是一个1l l d d -⨯的矩阵, 其中l d d ls =+. 式(1)可以改写为如下递推关系式:
()1()(())l l l l W x T W x b ρ-=*+.
这种形式的稀疏矩阵诱导深度卷积神经网络, 其本质上不同于包括全连接矩阵的经典神经网络.
设21
d L s -≥, m 是
(1)11s L
d --≥的整数部分, 我们的假设中, |f F Ω=, 对一些函数()r d F H ∈ 的傅里叶变换ˆ()F ω给出了规范22/2ˆ||||||(1||)()||r L F F ωω+≤. 根据施瓦茨不等式和条件22d r >+, 2,21,ˆ:|||||()|d ||||d
F d r
v F c F ωωω=⎰
≤. 其中,d r c 是有限常数22/2ˆ||(1||)()||r L
F ωω-+. 然后, 将文[9]中关于脊波近似的最佳结果应用于[1,1]|d
F -, 可以得到
001
()(),m
m k k
k k v
F x x x t m
βαβα
+==+⋅+⋅-∑
其中[1,1]k β∈-, 1||||1k α=, [0,1]k t ∈, 0(0)F β=, 0(0)F α=∇, ,2||2F v v ≤. 于是
,
1120,2[1,1]||||d d
m F C F F c v m
-
---≤,
这里普适常数00c >.
现在, 转向构造滤波掩码ϒ的关键步骤. 首先通过堆叠向量01,,,m ααα , 确定一个紧支集为{0,1,,(1)1}m d +- 的序列ϒ, 满足
(1)11010[,,,][,,,]m d m γγγααα+-T T T
=  .
序列ϒ的支集在{0,1,,(1)}m d + 上, 并到一串支集在{0,1,,}s  中的滤波掩码{}ˆ1
L
l l γ=ϒ=, 且
(1)ˆ1
m d L
s +<-. 因此, ˆL L ≤, 通过将ˆˆ12L L L γγγ++=== 作为增量序列, 有ˆˆ121L L γγγγ-ϒ=**** , 即 ()(1)(1)L L T T T T -ϒ= ,
第2期
杨丽娟, 等: 稀疏连通卷积神经网络有效近似研究 15
其中T ϒ
是由1,2,,;1,2,,[]L l k l d k d -==ϒ  给出的L d d ⨯矩阵. 从序列ϒ的定义可以看出, 对于0,1,,k m = , 矩阵T ϒ的第(1)k d +行正好是k α的转置. 另外(1)Ls m d +≥, 故0Ls ϒ=.
然后构建b . 定义范数10
||||||L
k k γγ==∑, (0);1,2,,max
||k x k d
B x ∈Ω==
, 定义()1(0)11||||||||l l B B γγ= , 对所有的
1l ≥, 有
()(1)()()||()||l l k C T T x B Ω ≤, 1,2,,l k d ∀= .
取1
(1)(1)(1)1:(1,1,,1)d b B B T =-=- , 则
1()(1)()()11,1,2,,  1.l l l l l l d d b B T B l L --=-=-
对1,2,,1l L =- , 有()
()
(1)
()
()1l
l l l d h x T T x B =+ 和()(1)
()()
10
1,1,,l s
l l l l l j
d k s l k b
B
B b j s d s γ-+==-==+-∑ . 因此向量11111[,,,,,,,,,]L L s s s s d s d b b b b b b b +++--  为偏置向量.
最后, 通过()L j b 把偏置向量()L b 设置为
111(1)()()(1)()
(1)()()
(1),,,
(1),(1),1,(1)L L L L L L d j L L d j k L L L d j B T B j d d Ls B
T t j k d k m B T B ------⎧-=+⎪⎪+=+⎨⎪+⎪⎩
若若,其他.≤≤ 将这个偏置向量和(1)()L h x -的表达式代入深层CNN 的迭代关系中, 从恒等式()(1)(1)L L T T T T -ϒ= 和第j 个分量()()L j h x 在序列ϒ中关于()()L j h x 的定义可以看出
()0()
0,,,
,(),(1),1,,L L k x B j d B j d Ls x t j k d k m αα+
⎧⋅+=⎪=+⎪⎨
⋅-=+⎪⎪⎩
若若若0其他.≤≤ 因此可以取,(),1|span{()}L d b L b
L m k k L
f F h x H γγΩ==∈=, 且误差,()[1,1]||||||||d b L C m C f f F F γΩ---≤, 即
1
1,2()0,2||||.b d
L C F f f c v m
γ--Ω-≤
但1(1)(1)2
s L md s L --≤≤和241r d --≥. 由极坐标变换
, 1
1,1d d r c d +
+可
以界定一个绝对常数:2max
l c ∈'=
, 即
11,2()0||||||b d
L C f f c c F γ--Ω'-≤,
取02c c c '=, 即完成定理1的证明.
推论  对于2s d ≤≤, L
d  上的所有紧支集Ω以及所有的()f C ∈Ω, 存在卷积核序列γ, 偏置向量的
序列b 以及,,b b L L f H γγ∈, 使得,()lim ||||0.b L C L f f γΩ→∞
-=
2.2 稀疏连通CNN 在2L 空间下的有效近似
定义3[3] 称2()()i i I D L ϕ∈=⊂Ω是一个表示系统, d ∈ , d Ω∈ , 若D 可由神经网络(激活函数为ρ)表示, 且存在,L R ∈ , 对所有的0η>都有
2,()||||,i i L ηϕηΩ-Φ≤
其中,,,,i L R d NN ηρΦ⊂是一个稀疏连通卷积神经网络. 此外, 如果,,,,i L R d NN ηρΦ⊂的权重是受1η-多项式约束的, 并且ρ是Lipschitz 连续或可微, 使得ρ被多项式所支配, 那么称D 可由神经网络(具有激活函数ρ)
16
湖南理工学院学报(自然科学版) 第36卷
有效表示.
定义4  若M I I ⊂, i c ∈ , #M I M =, 稀疏连通CNN 第L 层函数为1()(()())L L L L L W x A W x b ρω-=*+, 即()1()(())L L L L W x T W x b ρ-=*+. 在2L 空间下, 定义L 层稀疏连通卷积神经网络的函数为:
,.M
L i i i
i I f c φ∈=
定理2 设d ∈ , d Ω⊂ , :ρ→  , 如果2()()i i I D L ϕ∈=⊂Ω可以用神经网络表示, 且2()d f L ∈ , 表示系统D 存在M ∈ , 使M
M i
i
i I f c ϕ
∈=
∑, 其中M I I ⊂且#M I M =, M 严格小于全连接数, 并且满足
2()||||M L f f εΩ-≤,
这里(0,1/2)ε∈. 那么, 存在L ∈ (仅取决于D )和稀疏连通卷积神经网络,,,,L i L M d f NN ρ'∈以及()M O M '∈, 满足
2,()||||2L i L f f εΩ-≤.
证明 由定义2中D 的可表示性可知, 存在,L R ∈ , 使得对每个M i I ∈, :/max{1,||}M
i I i c ηε∈=∑
,
存在一个稀疏连通卷积神经网络,,,,i L R d NN ηρΦ∈, 满足
2,()||||i i L ηϕηΩ-Φ≤.                                (2)
设,L i f 是由神经网络,()M i i I η∈Φ组成的, ,()M i i I η∈Φ是定义在空间2L 上的一个稀疏连通卷积神经网络:
,1
()()():.J
J M d d i i I k L k k c W x c η∈=Φ=∈∑
所有网络都具有相同的输入, 并对它们的一维输出求和, 其权重为()M i i I c ∈, 网络可以表示为
,,
():(),.M
L i i
i i I f x c x x η∈=
Φ∈Ω∑
这种构造是合理的, 因为所有的网络,i ηΦ具有相同的层数, 神经网络的最后一层只实现了一个仿射函数(没有应用激活函数ρ). 然后, 利用,,,,L i L M d f NN ρ∈的事实和三角不等式的应用以及式(2)得到
2,()||||M L i L f f εΩ-≤. 再根据三角不等式的应用, 有
222,,()()()||||||||||||2L i M M L i L L L f f f f f f εΩΩΩ--+-≤≤.
3 结束语
本文主要研究稀疏连通卷积神经网络近似理论, 在Sobolev 空间()r d H  下, 对空间内任意紧支集上的任意函数给出了一个任意逼近, 同时也是对神经网络近似理论内容的一个拓展.
参考文献:
[1] Kirzhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6):
84−90.
[2] 刘志龙, 李松华. 基于卷积神经网络的时空融合采样重构算法[J]. 湖南理工学院学报(自然科学版), 2022, 35(1): 10−15.
[3] Bölcskei H, Grohs P, Kutyniok G, et al. Optimal approximation with sparsely connected deep neural networks[J]. SIAM Journal on Mathematics of Data
Science, 2019, 1(1): 8−45.
[4] Bruna J, Mallat S. Invariant scattering convolution networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8):
1872−1886.
[5] Lin H W, Tegmark M, Rolnick D. Why does deep and cheap learning work so well?[J]. Journal of Statistical Physics, 2017, 168(6): 1223−1247. [6] Mhaskar H N, Poggio T. Deep vs. shallow networks: An approximation theory perspective[J]. Analysis and Applications, 2016, 14(6): 829−848. [7] 曲  岳. 多变量时间序列的稀疏连通网络提取及应用[D]. 大连: 大连理工大学, 2020.
[8] Zhou D X. Universality of deep convolutional neural networks[J]. Applied and Computational Harmonic Analysis, 2020, 48(2): 787−794.
[9] Klusowski J M, Barron A R. Approximation by combinations of ReLU and squared ReLU ridge functions with ℓ1 and ℓ0 controls[J]. IEEE Transactions
on Information Theory, 2018, 64(12): 7649−7656.

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。