杭州平治信息技术股份有限公司

首页»产品服务»平治AI数字人的多模态大模型

平治AI数字人的多模态大模型

平治AI数字人的多模态预训练大模型架构是基于自注意力机制 Transformer 深度学习模型,其最大特点是模型的输入由单一模态的文本拓展到文本、语音、图像、视频等多个模态数据同时作为输入,强调音频的流式输入、输出以达成数字人交互的顺畅性,强调理解图像、视频的人体动作、表情、情绪并在数字人驱动参数上体现出对应的反馈。采用无监督学习的方法进行大规模训练,预训练数据来自互联网上大量的多模态数据,例如网页、视频等,无需人工标注,从而具有良好的拓展性和通用性。在不微调或采用少量数据微调的情况下,多模态预训练模型可直接用于解决不同类型的多模态数据处理问题,例如为视频自动配上字幕、声音,输入声音和文本自动生成图像或视频片段等。

平治AI数字人的多模态大模型技术白皮书.pdf >>