6月28日圣瞳科技智巡多模态大模型发布会隆重举行,本次发布会主要从为什么进行多模态研究以及如何研究这两个方面,来介绍多模态大模型在工业巡检中的解决方案。
随着企业智慧化建设,AI应用场景复杂度增加,小模型受限于数据和知识,高度依赖精细标注数据但效果有限且成本高。为应对此挑战,圣瞳科技与西安电子科技大学人工智能学院大模型联合实验室及西安智算中心合作,打造了工业级圣瞳智巡大模型。该模型充分考虑工业领域特性和需求,形成多层级模型体系,包括圣瞳智巡大模型(L0)、行业大模型(L1)和应用模型(L2)。
圣瞳智巡大模型在实际应用中,展现了其强大的泛化能力和准确性。然而,尽管取得了显著的进步,但在一些特定的工业巡检场景下,仍然面临着一些不容忽视的挑战。
工业巡检是相对复杂的场景,不仅仅是简单的视觉检查,它涉及到对人员、事件、地点、物品、组织结构的全面了解和监控。单模态视觉技术,无法提供这种多维度、全面的信息。
而多模态技术能够同时处理和分析多种类型的数据,如图像、文本等。通过融合多种模态的数据,多模态技术可以提供更全面、准确的信息,并能够实现跨模态的关联分析。因此,多模态的应用可以有效提高工业巡检的性能和效果。
比如对于火焰识别来说,不同模态的信息提供了火焰的多个方面描述,多模态将来自不同模态的语义信息融合在一起,从更多维度(例如:颜色、形状、纹理等特性)构建一个更全面的火焰表示。
同时多模态可以进一步利用环境上下文信息来改进火焰检测。例如,通过分析目标周围的物体、场景布局以及运动模式等,可以判断是否存在火焰。
在解决待测目标难以穷尽的问题上多模态也具有显著优势,它能够整合不同来源的信息,从而提供更全面、更丰富的目标特征信息。
一方面因为不同的信息源通常能够捕获到目标的不同特征或属性。例如,视觉信息可以获取目标的形状、纹理和颜色等视觉特征。而文本信息则可以捕获目标的场景信息,形成更加丰富的特征表示。通过融合这些不同来源的信息,可以形成更完整、更全面的目标描述,从而增加对目标的识别能力,以更好地适应目标的多样性。
另一方面在真实工业场景中,待测目标可能受到光照变化、遮挡、尺度变化等多种因素的影响。不同信息源对这些因素的敏感度和鲁棒性可能不同。通过多源信息融合,可以利用各种信息源的互补性,降低单一信息源失效的风险,提高整体系统的可靠性。
对于视觉告警不合理的问题通常是由于单一的视觉信息无法准确描述场景或识别目标,导致告警的误报或漏报。
而多模态技术可以融合来自不同模态的信息,以提供更全面、更准确的场景描述。这有助于系统更准确地识别目标和判断场景,从而避免视觉告警的误报或漏报。
并且多模态技术可以结合语义知识,对融合后的信息进行更深入的分析和理解。通过利用语义知识,系统可以更准确地理解场景和目标的含义,判断目标间位置等关系,从而更准确地判断是否需要发出告警。
在工业巡检的实际应用中,考虑到工业安监系统需要实时监控生产过程或环境状态,一旦发现异常情况,需要立即进行处理。对于处理速度的实时性要求较高,圣瞳科技采用CV大模型与多模态大模型相结合的方式,来提升工业巡检的准确性和合理性。
圣瞳CV大模型以30亿级参数和3000w数据为输入,采用Transformer架构进行构建,具有非常强的特征提取能力,能够很好地处理复杂的视觉任务。同时采用了知识蒸馏和模型裁剪的技术来优化模型,确保模型在保持性能的同时,具有较小的参数量和计算复杂度,实现较快的处理速度和对异常情况更全面、更准确的判断。在此基础上结合多模态大模型来提供更全面、更丰富的信息,两者结合,充分发挥各自的优势,从而提高巡检的效率和准确性。
除了单场景应用的优化之外,圣瞳科技研发团队还积极探索更为深入和广泛的应用领域。比如对于一些垂直行业的作业场景进行综合检测,由于垂直行业通常具有独特的领域知识,包括专业术语、规则、约束等。通过融合视觉、语言等模态的信息,可以全面感知和理解环境场景并且可以将领域知识融入AI大模型中以提高模型在行业中的应用效果。
为了深入挖掘和利用这些行业知识,圣瞳科技进行了语义知识库的定制和扩展工作。语义知识不仅能帮助圣瞳科技更深入地理解作业场景中的设备、人员和安全设施,以及它们之间的关系。基于这些,还可以进行更为复杂的分析和判断,比如对于登高作业中人员扶梯的判定以及登高作业人员佩戴安全带的识别,可以大大提高判断的可靠性和稳定性。
通过对多模态模型的不断研究,圣瞳科技进一步丰富了AI大模型底座,新增了多模态大模型,并计划推出NLP和预测大模型。基于大模型底座,面向不同行业可以衍生出多种应用模块,如检测项识别、图像文本处理等。面临一些缺陷样本少的情况,基于大模型可以进行文生图,丰富样本库,同时也可以进行多模态的检索,在一些应用场景中,可以对垂直行业构建知识库和知识图谱,实现智能问答等功能以支持安全规定的遵守和查询。
在本次发布会上,圣瞳科技成功推出了全新升级的多模态大模型,其强大的处理能力将有效应对工业场景的复杂挑战。圣瞳科技将持续创新,与伙伴们共同探索大模型在垂直行业的无限潜能,不断优化用户体验,为工业场景带来智能化新篇章!