癌症是全球主要的公共健康问题之一,全球癌症病例迅速增加,截至2022年,约有1997万癌症新增病例和974万癌症死亡病例。众所周知,早期癌症筛查有助于识别新病例,以便采取更有效的治疗措施,减少病人的癌症负担和痛苦,并显著提高患者的存活率。因此,癌症早筛对全球癌症的预防与控制至关重要。在众多癌症中,乳腺癌在女性中发病率和死亡率均排名第一,对乳腺癌及乳腺良性疾病进行检测有助于帮助了解患者病情。此外,乳腺癌是一种具有多种分子实体的异质性疾病,临床上通常需要了解病人的免疫组化状态,以采取不同的治疗策略。然而,现有的乳腺癌检测方法存在费用较高、辐射暴露和侵入性强等缺点,因此迫切需要开发一种无创、低成本的方法,用于乳腺癌及其免疫组化的检测。除了对特定的乳腺癌进行检测外,对于泛癌(多癌种)的早期筛查也至关重要。目前,传统的癌症筛查手段,如CT筛查、循环肿瘤细胞筛查和组织病理筛査等方法,存在着耗时长、费用高和侵入性等缺点,且这些筛查方法仅适用于某一种特定类型的癌症,难以应用于多种类别癌症的检测。因此,迫切需要开发和验证一种强大、低成本且易于复现的早期泛癌检测方法。 拉曼光谱是一种分子振动光谱技术,能够提供被测样品的特定分子“指纹图谱”信息,而表面增强拉曼光谱(SERS)是一种利用纳米贵金属基底增强微弱拉曼散射强度的方法。已有多项研究证明了基于血清样品的SERS分析在癌症检测方面取得了显著进展,这些方法具有高灵敏度和无创性等优点。然而,这些研究仅针对有限的癌症类型进行了探索,无法进行验证和全面的大数据分析。因此,迫切需要一种具有大量临床样本和高效的人工智能分类算法,并且需要设计用于癌症早期筛查的SERS光谱智能分析系统。本文针对血清SERS光谱癌症筛查展开了以下工作: (1)本研究将SERS光谱技术与特征选择和深度学习算法相结合,设计了一种适用于乳腺癌血清筛查模型,旨在开发高效、准确的乳腺癌及其免疫组化的无创筛查方法。首先,采集了207例乳腺癌(BC)患者、83例乳腺良性疾病(BBD)患者和543例健康对照(HC)的高质量血清SERS光谱。通过卡方检验对被试者的年龄、BMI、基础疾病信息进行分析,确定组间混杂因素无显著差异。然后,使用Light GBM(LGB)算法作为基模型,保留了有用特征,显著提高了分类性能。最后,通过反向传播对DNN算法进行训练,调整神经元之间的权重和偏差,提高网络的预测能力。该方法提高了为乳腺癌分类提供更精准的信息,展现出较传统机器学习算法更为卓越的性能,对BC和BBD的血清分类准确率为91.38%,对BC、BBD和HC的血清分类准确率为96.40%。此外,对于BC患者的免疫组化状态评估,HR+/HR-准确率达到90.11%,HER2+/HER2-准确率达到88.89%。这些结果表明,血清SERS结合强大的深度学习算法将为临床乳腺癌筛查提供新的途径,也为泛癌检测提供了重要的研究基础和依据。 (2)本研究构建了一个基于SERS光谱和人工智能算法的泛癌检测分析方法。验证了前文针对乳腺癌的深度学习分类方法,并在算法研究上进行创新,将SERS技术与重采样、特征升维、深度学习和可解释性分析方法结合,能够从大量样本中区分出不同癌症类型。分别采集了1896例健康对照组(HC)样本、569例乳腺癌(BC)、513例肺癌(LC)、220例甲状腺癌(TC)、215例结直肠癌(CC)、100例胃癌(GC)以及38例食管癌(EC)的血清SERS光谱。采用重采样策略,利用Borderline-SMOTE方法对数据进行处理,优化了训练集的平衡性,并通过深度神经网络(DNN)模型进行初步验证,取得了良好的分析性能。随后,利用Heatmap和CWT方式对光谱数据升维处理,引入卷积神经网络(CNN)进行图像分析,结合Res Net18模型,更高效地判别了癌症类型。最后,通过类激活图(CAM)方法解释了光谱数据分类的生物学意义,为未来癌症检测的应用提供了依据。 (3)本研究开发了一套用于SERS光谱预处理及癌症快速筛查的智能分析系统,并采用Python和Py Qt构建了直观友好的图形用户界面。该系统在设计上使用了模块化结构,主要包括光谱数据预处理和机器学习算法分类两个功能模块。该系统的特别之处在于集成了多种先进算法,使用户能够根据实际需求选择最合适的方法。同时,该系统解决了传统预处理方法流程繁琐的问题,提供了集成化平台,避免了在不同软件之间切换的需求,实现了对SERS光谱的高效处理和统计分析。在光谱数据预处理模块中,用户可执行多项操作,如光谱裁切、基线矫正、归一化、异常值检测、缺失值处理和特征提取等。此外,系统提供多种机器学习算法和集成学习算法,用户可以根据具体任务灵活选择。所有流程均提供可视化结果,帮助用户直观了解分类效果。该系统旨在为用户提供一个便捷的平台,实现光谱数据的高效处理和癌症筛查分析,为生物医学研究提供了强大工具。 摘要译文