摄影之友网
  • 首页
  • 摄影新闻
  • 作品欣赏
  • 摄影技巧
  • 器材评测
  • 让建站和SEO变得简单

    让不懂建站的用户快速建站,让会建站的提高建站效率!

    作品欣赏你的位置:摄影之友网 > 作品欣赏 > 中国科大&云知声蚁集团队斩获ACM MM 2024竞赛5冠2亚
    中国科大&云知声蚁集团队斩获ACM MM 2024竞赛5冠2亚
    发布日期:2024-11-18 23:29    点击次数:64

    开始:云知声

    近日,第32届ACM海外多媒体会议在澳大利亚墨尔本圆满驱散。由中国科学本领大学自动化系於俊教悔带队的中国科学本领大学与云知声共同组建的USTC-IAT-United团队在不同挑战赛说念上累计荣获5项冠军、2项亚军,本领实力再获海外顶会招供。

    ACM MM(ACM International Conference on Multimedia)算作计较机图形学与多媒体领域的顶级海外会议,不仅被中国计较机学会(CCF)评定为A类海外学术会议,更以其超卓的学术影响力和社会招供度而闻明。该会议联袂寰球率先的学术机构和闻明企业,举办了一系列挑战性赛事,成效眩惑了寰球浩繁科研团队和创新式企业的奋勇参与。

    在这场寰球顶尖贤人团队间的强烈角逐中,蚁集团队发挥出色,在多个挑战赛说念上夺得5项冠军、2项亚军,其研讨后果平凡触及微动作分析、微颜料检测与分析、东说念主机交互与对话、多模态群体举止分析以及视觉空间筹谋形色和深度伪造检测等前沿领域。具体获奖情况如下:

    (1)微动作分析挑战 ( MAC: ACM Multimedia 2024 Micro-Action Analysis Challenge )

    微动作比拟于普通动作,更能展现东说念主物在日常调换中的花式情怀,带来更丰富的语义信息,对这些微动作进行精确检测关于多模态解析至关病笃。关联词,微动作经常抓续时候短,且多种微动作可能同期出现,因而检测需要更多画面帧的输入来完竣缜密捕捉,这将导致广阔的显存包袱和磨砺代价。

    为应付这些挑战,团队建议了3D-SENet Adapter,其或者高效团聚时空信息,完竣端到端的在线视频特征学习。此外,团队发现衔尾配景信息可权臣晋升对小模范微动作的检测效果,为此,团队开辟了交叉注意力团聚检测头,该模块集成特征金字塔中的多模范特征,权臣晋升视频帧中微动作的检测精度。该程序比拟基线模子极大晋升了检测精度,并在两个赛说念上分别取得了冠军与亚军的得益,何况以论文时势在 ACM MM 会议上发表了研讨后果。

    (2)微颜料挑战 ( Facial Micro-Expression Grand Challenge (MEGC) 2024 (CCS Task) )

    微颜料算作一种面部颜料,与宏颜料相对应,经常抓续时候短,强度较低。同期微颜料在推行中有着平凡的应用,如医疗、刑事观察等。MEGC挑战赛的CCS (Cross-Cultural Spotting)赛说念戮力于于采用出通用性平凡、结识性强的微颜料识别程序,以激动该领域本领的发展与应用。

    濒临CCS赛说念建议的挑战,团队取舍使用基于光流的程序进行微颜料识别,对每个视频抽取其光流特征,进而通过光流特征定位微颜料发生的肇端时候和扫尾时候。在生成微颜料区间之后,剿袭领域校准决议,通过判断评估领域的变化进程来决定压缩或延展领域,使得产生的微颜料区间领域愈加准确。此外,团队剿袭特定的特征增强决议,主要通过LANet增强特征的抒发才能和鲁棒性。最终团队在名次榜上取得了冠军,研讨后果也以论文时势于 ACM MM 会议上发表。

    (3)微颜料挑战 ( Facial Micro-Expression Grand Challenge (MEGC) 2024 (STR Task) )

    在以往微颜料研讨中,检测和识别任务相对分离,存在很大的局限性。因此MEGC挑战赛的STR (Spot-then-Recognize)赛说念建议了 “先检测后识别”的任务来整合两个要领,进而晋升微颜料分析的准确性和实用性。

    针对STR赛说念建议的挑战,团队整合VideoMAE V2框架、时候信息适配器(TIA)及多模范特征交融检测头,以晋升微颜断定位与识别性能。主要剿袭 VideoMAE V2算作特征索求主干网罗,衔尾TIA增强视频特征索求才能,尤其是在处理微颜料任务时。TIA通过引入时候深度卷积层,捕捉相邻帧的局部时候高下文,丰富刻下时候步的示意。同期,构建多模范图像金字塔,通过分类和细腻分支构成的检测头,交融不同模范的特征,使得模子或者同期捕捉从往日动作到细微变化的全范围动态,进而权臣提高微颜料识别的准确性。

    团队决议在 STRS(Overall)评分中达到SOTA 的截止,并取得冠军,研讨后果在ACM MM会议上进行发表。这一后果不仅考据了团队程序的灵验性,也为微颜料识别本领的进一步发展提供了主见。

    (4) 多模态群体举止分析挑战 ( MultiMediate: Multi-modal Group Behaviour Analysis for Artificial Mediation )

    在多东说念主对话和东说念主机交互领域,对东说念主类的参与进程的评估至关病笃。MultiMediate挑战赛中的Multi-domain engagment estimation赛说念中旨在惩处刻下东说念主工和洽者的才能受限于举止感知和分析方面的进展不及,进而激动和谋略在多领域参与度揣摸这一要害社会举止感知与分析任务上的进展。

    为应付这些挑战,团队深化探索Seq2seq模子在不同时间窗口下的后劲,并建议了一种双流AI-BiLSTM模子,该模子或者对都并交互对话者特征,以完竣更准确的参与度揣摸。通过从视觉(CLIP)、文本(XLM-RoBERTa)和语音(w2v-bert-2.0)中索求特征,或者更全面地解析和预测对话者的参与度。在建模经由中,团队参考了ALbef和VL-BERT的设想,最终取舍了基于AI-BiLSTM的建模程序。在推理时,AI-BiLSTM在多东说念主对话场景中的Concordance Correlation Coefficient (CCC)晋升了8%,相较于第二名率先了10%,决议在ACM MM竞赛中得到了考据,并以赫然的上风夺得了冠军。不仅展示了团队在东说念主工智能领域的本领实力,也为改日的东说念主机交互和对话系统的发展提供了新的可能性。

    (5)深度伪造检测挑战 ( 1M-Deepfakes Detection Challenge )

    Deepfakes挑战赛通过视听级检测任务,匡助差异真正视频和深度伪造视频,不容深度伪造视频在网罗上的传播,保护信息的真正性和可靠性。在Deepfakes任务中,细粒度感知和跨模态交互才能的晋升至关病笃。

    为惩处Deepfakes建议的挑战,团队建议了一种创新的局部全局交互模块(AV-LG模块),权臣增强了模子的检测性能。该模块由局部区域内自我注意、全局区域间自我注意和局部全局交互构成。为了摒除视频伪造检测中倾向于将真正样本预测为假样本的偏差,团队允洽加多了真正样本的差错权重。此外,团队发现解析视频语义关于视频伪造检测并非必要,因此通过傅里叶变换将采样帧调节为频域,进一步提高了模子性能。通过这些本领的应用,不仅展示了团队在视频伪造检测领域的本领实力,也为改日的Deepfakes检测本领提供了新的可能性。最终取得本赛说念冠军,研讨后果通过论文的时势在 ACM MM 会议上呈现。

    (6)视觉空间筹谋形色挑战 ( Visual Spatial Description (VSD) Challenge )

    Visual Spatial Description(VSD)挑战旨在惩处视觉空间语义解析领域的有关问题,即通过让模子和系统生成准确的文本形色句子,来形色输入图像中两个给定策画对象之间的空间筹谋,进而激动计较机视觉和当然言语处理领域在空间筹谋解析与形色方面的研讨进展。这有助于东说念主机交互场景下智能竖立解析用户意图,晋升用户体验。

    针对VSD建议的挑战,团队应用 Retrieval Augmented Generation (RAG)本领来领导多模态大型言语模子 (MLLM)完成 VSD 任务,并利用正负样本惩处幻觉问题,进一步微调MLLM以增强语义解析和全体模子着力。该决议在VSD任务中的空间筹谋分类和视觉言语形色任务中都发挥出更高的准确性和更少的幻觉失实,取得了令东说念主惬意的截止。同期,团队深化研讨VSD与VSRC数据样本对抗衡问题,愚弄样本级加权损构怨重采样等策略,提高模子对低频对象筹谋的学习才能,确保了其在复杂数据环境下或者高效处理。这些策略为更高等的视觉空间形色任务铺平了说念路,为计较机视觉和当然言语处理领域的改日研讨和本色完竣提供了有价值的倡导。团队以论文时势在 ACM MM会议上发表了研讨后果并取得了亚军。

    这次斩获5冠2亚,既是云知声与中国科学本领大学紧密配合、抓续探索东说念主工智能赛说念的后果,同期亦然云知声AGI本领架构实力的有劲诠释。

    算作国内AGI本领产业化的先驱,云知声依托其全栈AGI本领与产业布局,抓续激动千行百业的贤人化升级。2023年5月,云知声发布山海大模子(UniGPT)以来,抓续保抓高速迭代,在 OpenCompass、SuperCLUE、MedBench、SuperBench、MMMU 等多项通用、医疗及多模态大模子泰斗评测中屡创佳绩,通用才能稳居国内大模子第一梯队,医疗大模子才能抓续保抓率先上风。以通用大模子为基座,云知声构建起一个隐匿医疗、交通、座舱等多场景在内的智能体矩阵,并逐渐完成 “助手→共事→民众” 的自我演进,为贤人糊口、贤人医疗、贤人交通等业务提供高效的家具化复旧,激动“U+X”政策落实,抓续践行 “以通用东说念主工智能(AGI),创建互联直观的寰宇”的处事。

    与中国科技大学的多模态本领配合,是云知声多模态智能体演进的病笃构成部分。本年8月,云知声推出山海多模态大模子,通过整合跨模态信息,完竣及时多模态拟东说念主交互体验,进一步夯实了云知声AGI本领底座,激动山海大模子在各领域的平凡应用。

    预测改日,云知声将不竭联袂中国科学本领大学等顶尖高校,共同加强东说念主工智能基础表面探索与要害本领冲突。咱们将积极彭胀AGI本领的应用场景,为贤人物联、贤人医疗等要害领域提供更为全面和深化的东说念主工智能惩处决议,戮力于通过东说念主工智能本领,为五行八作带来改动性逾越,完竣以AGI赋能千行百业的宏伟蓝图。



    Powered by 摄影之友网 @2013-2022 RSS地图 HTML地图

    Copyright Powered by365站群 © 2013-2024