产品服务

平治AI数字人的多模态大模型

平治AI数字人的多模态预训练大模型架构是基于自注意力机制 Transformer 深度学习模型,其最大特点是模型的输入由单一模态的文本拓展到文本、语音、图像、视频等多个模态数据同时作为输入，强调音频的流式输入、输出以达成数字人交互的顺畅性，强调理解图像、视频的人体动作、表情、情绪并在数字人驱动参数上体现出对应的反馈。采用无监督学习的方法进行大规模训练，预训练数据来自互联网上大量的多模态数据，例如网页、视频等，无需人工标注，从而具有良好的拓展性和通用性。在不微调或采用少量数据微调的情况下，多模态预训练模型可直接用于解决不同类型的多模态数据处理问题，例如为视频自动配上字幕、声音，输入声音和文本自动生成图像或视频片段等。

平治AI数字人的多模态大模型技术白皮书.pdf >>