清华大学生命学院张强锋实验室开发RNA结构测序数据缺失信号恢复的人工智能方法
RNA结构是RNA发挥功能的基础。传统解析RNA结构的方法包括X射线、核磁共振和冷冻电子显微镜。这些方法无法做到高通量,更不能解析出细胞内高度动态的RNA结构。近年来,研究者们开发出了许多细胞内高通量探测RNA结构的技术,极大推动了RNA结构和功能的研究。但是这些技术探测到的RNA结构信号经常包含大量的缺失值,影响了后续对RNA功能的深入研究。人工智能方法在科学、技术多个领域都取得了成功应用,如果将其用于恢复由于实验和技术限制而缺失的RNA结构信号,很有可能解决上述问题。
2021年11月16日,清华大学张强锋课题组在Nature Machine Intelligence杂志上发表了题为 “一种恢复从探测实验得到的全转录组RNA结构图谱中缺失信号的深度学习方法”(A deep learning method for recovering missing signals in transcriptome-wide RNA structure profiles from probing experiments)的研究文章。该工作受自动驾驶领域中稀疏雷达信号恢复算法的启发,将RNA序列与其对应的RNA结构信号相结合,并通过屏蔽部分已知RNA结构信号来进行自监督式训练,建立了一种恢复实验缺失的RNA结构信号的新方法--StructureImpute。
RNA结构测序经常会因覆盖度不够深而导致RNA结构信号缺失,极端情况下甚至会使RNA结构信号非常稀疏。准确地恢复出缺失的信号,将有利于RNA结构及功能的分析。非常有意思的是,在自动驾驶中也存在类似的信号缺失问题。雷达信号提供的周围物体的距离信息对于自动驾驶非常重要。在自动驾驶中通常采用多线雷达获得物体的三维点云信号。由于多线雷达设备昂贵,自动驾驶方案往往面临雷达信号非常稀疏(大量缺失)的挑战。大量的研究表明,可通过结合二维图像和稀疏的雷达信号,设计人工智能算法,实现缺失的雷达信号的恢复补全。GuideNet就是这样的一种雷达信号恢复补全方法。其使用配对的二维RGB图像和稀疏的三维雷达信号作为输入,采用自编码器的深度网络结构,通过二维物体信息的RGB图像引导缺失的三维物体雷达信号的恢复,从而实现三维雷达信号的补全。GuideNet 在多个数据集上的表现明显优于其他方法,也曾长期处在自动驾驶KITTI数据集雷达信号补全任务的榜首。