< PCF-GAN:通过生成顺序数据路径空间测度的特征函数_智能机器人案例_华体育app官网登录|华体会手机版

  利用生成对抗网络(GANs)生成高保真度的时间序列数据仍然是一项具有挑战性的任务,因为作为时间序列分布的原理表示,纳入鉴别器以增强其生成性能。一方面,我们通过证明其特征性、有界性、对生成器参数的可微性和弱连续性,为PCF距离奠定了理论基础,这提供了额外的重构功能。对各种数据集进行的广泛数值实验表明,PCF-GAN在生成和重构质量方面始终优于最先进的基线 引言

  生成对抗网络(GANs)慢慢的变成了生成复杂数据分布(例如图像数据)的强大工具。最初的GAN存在优化不稳定性和模式坍缩的问题,后来通过一种替代训练方案,使用积分概率度量(IPM)代替Jensen-Shannon散度部分地缓解了这样一些问题。IPMs,例如基于Wasserstein距离或最大均值差异(MMD)的度量,始终可提供良好的度量值,从而在经验数据上产生更强大的GANs。最近,[1]提出了一种基于测量在Rd上的特征函数(CF)的IPM,具有特征性、有界性和可微性等特性。这些特性使得使用该IPM作为鉴别器的GAN(“CF-GAN”)能够稳定训练并提高生成性能。

  为了解决这一个问题,我们采用连续时间视角对时间序列进行处理,并将离散时间序列提升到路径空间。这使我们能够以统一的方式处理变长、不均匀采样和高频率的时间序列。我们提出了一种路径特征函数(PCF)距离来描述路径空间上的分布,并将相应的PCF距离作为一种新颖的IPM来量化路径空间上的测量之间的距离。基于路径的单元特征 ([26]),我们提出的PCF 具有深刻的理论基础,根植于粗略路径理论 ([7]),该理论利用单元特征的非交换性和群结构来编码路径的顺序信息。

  之间的联系。这些结果大大推广了关于 Rd 上测量的经典定理 ([1]),由于路径空间的无限维性,这些证明更加技术上复杂。在数值方面,我们设计了一种高效的算法,通过优化 PCFD 的可训练参数,最大化鉴别能力,并改善 GAN 训练的稳定性和效率。受到 [25, 41] 的启发,我们将提出的 PCF 集成到 IPM-GAN 框架中,利用一个专门针对序列数据的自动编码器架构。这种模型设计使我们的算法能够同时生成和重构逼真的时间序列,在包括隐私保护 ([35]) 和下游任务的语义表示提取 ([10]) 在内的各种应用中具有优势。为了评估我们的 PCF-GAN 的有效性,我们在几个标准的时间序列基准数据集上进行了广泛的数值实验,用于生成和重构任务。

  • 提供了关于所提出的损失度量的分析特性的理论证明,有益于 GAN 训练;

  • 报告了实验证据,验证了我们的方法在各种时间序列生成和重构任务上相对于几种不同损失函数的几种最先进的 GANs 的表现。

  相关工作。鉴于现实时间序列合成的广泛实际应用和挑战 ([3, 4]),各种方法被提出来改进 GANs 的质量,以用于合成时间序列。一些作品,例如 [43, 45, 36],致力于改进 GANs 的鉴别器,使其更适合于由时间序列引起的分布。其中,[43] 中的 COT-GAN 与 PCF-GAN 有着类似的理念,它引入了基于因果最优传输的新型鉴别器(可以看作是针对序列数据量身定制的 Sinkhorn 散度的改进变体),而 TimeGAN ([45]) 具有类似的自动编码器结构,它改善了生成器的质量并使时间序列重构成为可能。与 PCF-GAN 不同,TimeGAN 的重构和生成模块是分开的,而且它还具有额外的逐步监督损失和鉴别损失。在另一个方面,CEGEN[36]、GT-GAN [17]、COSCI-GAN [39] 和 EWGAN[37] 主要关注网络框架和生成器架构的设计,这些方法在几个基准数据集上取得了最先进的结果。

  Rd上测度的特征函数,即傅里叶变换,在概率论和分析中发挥着核心作用。路径特征函数(PCF)是特征函数到路径空间的自然扩展。2.1 Rd中随机变量之间的特征函数距离(CFD)

  我们现在介绍一种新颖而自然的距离度量,通过比较它们的路径特征函数来衡量路径空间上的分布之间的差异。在整个过程中,dHS表示与Hilbert-Schmidt范数∥ • ∥HS相关联的度量在 Cm×m 上:在温和的条件下,PCFD 对于连续参数几乎处处可微,因此确保了在训练中进行梯度下降的可行性。

  我们证明了类似于 Rd 中的 [40],PCFD 可以被解释为具有特定核函数 κ 的 MMD(请参见附录 B.3)。例子 B.12 阐明了与时间序列的展平上的 CF 距离相比,PCFD 在随机过程假设检验中具有更强的测试能力。

  我们逼近经验分布中的 M 的方法与 [25] 中的方法不同,后者使用高斯混合分布对 M 进行参数化。在第 4.1 节和第 5 节中,通过优化经验分布的方法表明,相比于 [25] 需要更大的样本量,适度大小的 k 就足以实现更优越的性能。

  4.1 EPCFD 的培训在本小节中,我们将 EPCFD 应用于时间序列生成的 GAN 训练中作为鉴别器。我们训练生成器来最小化真实数据分布和合成数据分布之间的 EPCFD,而由表征的 M 的经验分布则通过最大化 EPCFD 进行优化。

  我们应用小批量梯度下降来交替优化生成器和鉴别器的模型参数。具体来说,为了计算鉴别器参数 θM 的梯度,我们使用了 [26] 中引入的高效反向传播算法,该算法有效地利用了李群值输出和单元特征的循环结构。优化 θM 的初始化在附录 B.4.1 中概述。

  学习时间相关的 Ornstein–Uhlenbeck 过程。根据 [19],我们将提出的 PCF-GAN 应用于学习通过时间相关的 Ornstein–Uhlenbeck(OU)过程模拟的合成时间序列数据的分布的玩具示例。让 (Xt)t∈[0,T] 为由 SDE 描述的 R 值随机过程,即,dXt = (µt − θXt) dt + σdBt,其中 X0 ∼ N (0, 1),其中 (Bt)t∈[0,T] 是 1D 布朗运动,N (0, 1) 是标准正态分布。我们设置 µ = 0.01,θ = 0.02,σ = 0.4 和时间离散化 δt = 0.1。我们在 t = 0 到 t = 63 之间生成了 10000 个样本,并在每个整数时间点进行了下采样。图 2 显示了由我们的 GAN 模型生成的合成数据,该模型使用了 EPCFD 鉴别器,这些数据在视觉上与真实数据无法区分。此外,我们的模型准确地捕获了各个时间点的边际分布。

  为了有效地学习高维或复杂时间序列的分布,仅仅使用 EPCF 损失作为 GAN 鉴别器并不是最佳方法,这是因为由 EPCFD 的样本大小 k 和阶数 m 所施加的计算限制。为了克服这样的一个问题,我们采用了 [41, 25] 的方法,通过自动编码器结构训练一个生成器,使其匹配时间序列嵌入的分布。图 3 说明了我们模型的运作机制。

  为了继续,让我们首先回顾生成器 Gθg: Z → X 并引入嵌入层 Fθf,它将 X 映射到 Z(噪声空间)。这里 θf 是嵌入层的模型参数,将从数据中学习。为了实现这一目标,自然地优化生成器的模型参数 θg,通过最小化生成损失 Lgenerator,该损失是真实分布 X 和合成分布 Gθg(Z) 之间的嵌入的 EPCFD 距离;具体公式如下:

  编码器-解码器结构:考虑到嵌入在优化生成损失 Lgenerator 时可能退化的观察,我们提出了考虑自动编码器结构的动机。例如,无论真实和合成分布是否一致,Fθf 可能仅是一个常数函数,以实现完美的生成器损失 0。如果 Fθf 是单射的,这种退化就可以被禁止。从启发式角度来看,良好的嵌入应该捕获关于实际时间序列 X 的基本信息,并允许从其嵌入重构时间序列 X。这激发了我们训练嵌入 Fθf,使得接近于恒等映射。如果满足了这个条件,就意味着是彼此的伪逆,从而确保了所需的单射性。这样,就分别充当了原始数据的编码器和解码器。

  为了强制施加 的单射性,我们考虑了两个额外的损失函数来训练 θf,如下所示:

  通过这样做,我们增强了 EPCFDθₘ 和 EPCFDθₘ 的判别能力。因此,这有助于训练生成器,使真实数据的嵌入与噪声分布和重构后的噪声分布一致。

  根据定理 3.6,嵌入层和生成器参数的 EPCFD 的可微性是有保证的,只要 Fθf ◦ Gθg 满足其利普希茨条件。让我们再次强调我们提出的 PCF-GAN 的两个关键优势。首先,由于 PCF-GAN 中的自编码器结构,它具有生成具有重构功能的合成时间序列的能力。其次,由于引理 3.5 显示的 PCFD 的一致有界性,我们的 PCF-GAN 不需要对嵌入层和 EPCFD 参数进行任何额外的梯度约束,与其他基于 MMD 的 GAN 和 Wasserstein-GAN 相比。这有助于提高训练效率,并缓解了在训练类似 RNN 的序列网络时出现的梯度消失问题。我们在算法 1 中提供了提出的 PCF-GAN 的伪代码。

  为了验证其有效性,我们将我们提出的 PCF-GAN 应用于广泛的时间序列数据,并使用各种测试指标与最先进的用于时间序列生成的 GAN 进行基准比较。关于数值实验的全部细节(数据集、评估指标和超参数选择)在附录 C 中。附录 D 中报告了额外的消融研究和生成样本的可视化。基准模型:我们以循环 GAN(RGAN)、TimeGAN 和 COT-GAN 为基准模型。这些模型是展现出强大实验性能的 GAN 的代表。为了公平起见,我们将我们的模型与基准模型进行比较,同时将生成器和嵌入/判别器固定为常见的顺序神经网络(2 层 LSTM)。

  数据集:我们在四个不同的时间序列数据集上对我们的模型进行基准测试,这些数据集具有各种特征:维度、采样频率、周期性、噪声水平和相关性。

  1. 粗糙波动性(Rough Volatility):高频合成时间序列数据,噪声信号比低。

  2. 股票(Stock):2013年至2021年间十家上市公司的每日历史数据,包括成交量、最高价、最低价、开盘价、收盘价和调整后收盘价等特征。

  3. 北京空气质量:来自不同监测站的每小时空气污染物数据的UCI多变量时间序列。

  评估指标:以下三个指标用于评估生成模型的质量。对于时间序列生成/重建,我们通过以下测试指标比较真实和虚假/重建分布,即通过 Gθg ◦ Fθf 来比较。(1) 鉴别分数[45]:我们训练一个事后分类器来区分真实和虚假数据。我们报告测试数据上的分类错误。更好的生成模型产生更低的分类错误,因为这意味着分类器难以区分线]:我们训练一个事后序列到序列回归模型,以预测由生成数据的前一部分给出的时间序列的后一部分。然后,我们评估并报告真实时间序列数据上的均方误差(MSE)。更低的MSE表示生成的数据可以更好地用于训练预测模型。(3) Sig-MMD [9, 42]:个人会使用带有签名特征的MMD作为时间序列分布的通用指标。较小的值表示分布越接近,越好。为了计算三个评估指标,我们随机生成了10000个真实和合成(重建)分布样本。基于10次重复随机抽样的每个指标的均值和标准差被报告。

  由于TimeGAN是唯一一个具有重建功能的基准模型,因此对于重建任务,我们仅与TimeGAN作比较。使用PCF-GAN和TimeGAN进行的时间序列重建示例如图4所示;有关更多样本,请参见附录D。

  视觉上,PCF-GAN通过生成更准确的重建时间序列样本,实现了比TimeGAN更好的重建结果。值得注意的是,对于所有四个数据集,PCF-GAN的重建样本保留了原始时间序列的时间依赖关系,而TimeGAN在EEG和Stock数据集中的一些重建样本完全不匹配。这在重建任务的表2中进一步 quantified,其中PCF-GAN的重建样本在所有测试指标方面 consistently 胜过TimeGAN。

  图5展示了PCF-GAN在RV数据集上的训练进展。与传统GAN中观察到的波动性生成器损失相比,PCF-GAN通过利用自编码器结构实现了更好的收敛性。这是通过最小化重建和正则化损失实现的,这确保了 的可逆性,并在整个训练过程中实现了语义嵌入的生成。在嵌入空间中生成器损失的衰减直接反映了生成时间序列质量的提高。这对于调试和进行超参数搜索特别有用。此外,恢复损失和正则化损失的衰减都表明了自动编码器性能的提高。

  通过利用有效的评论者 ,我们在EPCFD的θM参数中实现了性能的提升,参数适度增加(从1200增加到6400)。这些额外参数的训练在PCF-GAN中非常高效,同时仍然优于所有基线模型。具体来说,我们的算法大约比TimeGAN快两倍(使用三个额外的评论者模块),比COT-GAN快三倍(使用一个额外的评论者模块和Sinkhorn算法)。然而,由于需要在 上进行额外的训练,它花费的时间是RGAN的1.5倍。

  结论我们引入了一种基于路径特征函数(PCF)的新颖、有原则且高效的 PCF-GAN 模型,用于生成高保真度的时序数据。在理论支持下,它在时序生成的各种任务中取得了最先进的生成性能,并具有额外的重建功能。

  **局限性与未来工作** 在这项工作中,个人会使用基于 LSTM 的网络用于自动编码器,并未探索其他序列模型(例如,变压器)。自动编码器的网络架构的合适选择可能进一步提升了所提出的 PCF-GAN 在更复杂数据(例如,视频和骨架人体动作序列)上的有效性,这值得进一步研究。作为时序数据上的距离度量,PCFD 可以灵活地与其他先进的时序 GAN 模型的生成器结合,因此可能进一步提升性能。例如,能够最终靠对鉴别器进行一些简单的修改,将 [17, 39] 中使用的平均交叉熵损失和 [36] 中的 Wasserstein 距离替换为 PCFD。此外,尽管我们建立了 PCFD 和 MMD 之间的联系,但设计高效的算法来计算附录 B.3 中指定的核是很有意思的。**广泛影响** 与其他 GAN 模型一样,该模型有望通过增加小型数据集来帮助数据密集型算法。此外,它可以在金融和医疗保健等领域促进数据共享,这些领域的敏感时序数据丰富多样。然而,必须要格外注意的是,生成合成数据也存在潜在滥用的风险(例如生成虚假新闻)。

  有医生称集采仿制药麻醉效果不佳,1支不够要用3支?院方否认:不存在这种情形

  “没有例外和豁免”,欧盟英国加拿大全都有!特朗普签了:宣布对这两项产品征收25%关税!

  太突然!上海市民惋惜:3家门店相继闭店,已人去楼空…有人吐槽服务糟心:气不打一处来

  《编码物候》展览开幕 北京时代美术馆以科学艺术解读数字与生物交织的宇宙节律

  OPPO Find X8 mini再次被确认:影像已清晰,配置也很激进!

  华为Pura 80 Ultra影像规格确认,RYYB主摄+RYYB潜望,进光量很顶

CONTACT US
欢迎随时与我们联系