|
Journal of Zhejiang University SCIENCE C
ISSN 1869-1951(Print), 1869-196x(Online), Monthly
2024 Vol.25 No.1 P.1-178
Special Issue on Recent Advances in Artificial Intelligence Generated Content (AIGC) (Editor-in-Chief: Junping ZHANG;Editor-in-Chief Assistants:Lingyun SUN,Cong JIN; Guest Editors:Junbin GAO,Xiaobing LI,Jiebo LUO,Zhigeng PAN,Ying TANG,Jingdong WANG)
Editorial:
Recent advances in artificial intelligence generated content
Junping ZHANG, Lingyun SUN, Cong JIN, Junbin GAO, Xiaobing LI, Jiebo LUO, Zhigeng PAN, Ying TANG, Jingdong WANG
DOI: 10.1631/FITEE.2410000 Downloaded: 1182 Clicked: 1349 Cited: 0 Commented: 0(p.1-5) <Full Text>
1复旦大学计算机科学技术学院,中国上海市,200433
2浙江大学国际设计研究院,中国杭州市,310058
3中国传媒大学信息与通信工程学院,中国北京市,100024
4悉尼大学商学院,澳大利亚新南威尔士州,2006
5中央音乐学院音乐人工智能与音乐信息科技系,中国北京市,100032
6罗切斯特大学计算机科学系,美国纽约州,14627
7南京信息工程大学人工智能学院,中国南京市,210044
8罗文大学电气与计算机工程系,美国新泽西州格拉斯伯勒,08028
9百度,中国北京市,100085
概要:人工智能生成内容(AIGC)是近年来人工智能(AI)领域一个研究热点,它有望取代人类以较低成本高效率执行内容生成工作,如音乐、绘画、多模态内容生成、新闻文章、总结报告、股评摘要,以至元宇宙中的内容生成和数字人。AIGC为未来AI发展和实现提供了一条新的技术路径。
在此背景下,《信息与电子工程前沿(英文)》期刊组织了一期关于AIGC最新进展的特刊。本期特刊关注AIGC理论、算法、应用及相关领域。通过吸引高质量论文,我们希望帮助学术界和工业界研究人员更深入了解AIGC背后的基本理论及其潜在应用,激励更多研究人员加入并推进AIGC领域的研究。因此,我们就以下主题(但不限于)征集论文:(1)AI生成音乐;(2)AI生成绘画;(3)AI对话模型;(4)AI新闻摘要;(5)AI与元宇宙;(6)AI与数字人;(7)AI图像编辑;(8)AI生成短视频;(9)AI生成多媒体内容;(10)ChatGPT相关工作。经严格评审,选出12篇论文,包括1篇评论、1篇观点、3篇综述、6篇研究和1篇通讯。我们将其划分为3个主要部分:ChatGPT、扩散模型、提示学习和多模态。
总体而言,本期特刊涵盖了与AIGC开发和应用相关的广泛研究主题,包括人工智能图像/文本生成、三维内容创建、以用户为中心的图形设计、特定风格的音乐生成,以及与因果表征学习、高阶扩散模型相关的工作。此外,还详细调研了概率扩散模型、提示学习和ChatGPT。
最后,感谢所有作者对本期特刊的支持,特别感谢所有评审人对专刊投稿富有见地的意见和有益建议。
Special Issue on Recent Advances in Artificial Intelligence Generated Content (AIGC)
Comment: ChatGPT: potential, prospects, and limitations
Jie ZHOU, Pei KE, Xipeng QIU, Minlie HUANG, Junping ZHANG
DOI: 10.1631/FITEE.2300089 Downloaded: 1235 Clicked: 1250 Cited: 0 Commented: 0(p.6-11) <Full Text>
Perspective: Parallel intelligent education with ChatGPT
Jiacun WANG, Ying TANG, Ryan HARE, Fei-Yue WANG
DOI: 10.1631/FITEE.2300166 Downloaded: 1117 Clicked: 1097 Cited: 0 Commented: 0(p.12-18) <Full Text>
Review Article: Diffusion models for time-series applications: a survey
Lequan LIN, Zhengkun LI, Ruikun LI, Xuliang LI, Junbin GAO
DOI: 10.1631/FITEE.2300310 Downloaded: 3241 Clicked: 1359 Cited: 0 Commented: 0(p.19-41) <Full Text><PPT> 495
浙江大学医学院附属儿童医院发育行为科, 国家儿童健康与疾病临床医学研究中心, 中国杭州市, 310052
摘要:孤独症谱系障碍(ASD)儿童的适应行为能力普遍受到损害,然而其与早期发展水平之间的关系尚不明确。深入开展二者间关系的研究,将有助于了解ASD儿童能力的发展规律,促进ASD儿童早期个体化干预的实施。本文回顾性选取了1656例在2019年1月至2022年3月期间在浙江大学医学院附属儿童医院发育行为科被诊断为ASD的儿童,汇总了《婴儿-初中学生社会生活能力量表》和《Gesell发育诊断量表》(GDS)的结果,并进行统计学分析。结果表明,年龄会影响ASD儿童的适应行为以及GDS中各能区的早期发展;同时,适应行为也会显著影响GDS各能区的发育商数,且呈正相关关系。综上所述,ASD儿童的适应行为和各方面能力相互影响,因此有必要对不同ASD个体能力进行全面评估,并采取个体化的综合干预模式。
关键词组:孤独症谱系障碍;儿童;适应行为;早期发育水平;个体化干预
Review Article: Prompt learning in computer vision: a survey
Yiming LEI, Jingqi LI, Zilong LI, Yuan CAO, Hongming SHAN
DOI: 10.1631/FITEE.2300389 Downloaded: 3309 Clicked: 3267 Cited: 0 Commented: 0(p.42-63) <Full Text><PPT> 322
1上海市智能信息处理重点实验室,计算机科学技术学院,复旦大学,中国上海市,200438
2类脑智能科学与技术研究院,复旦大学,中国上海市,200433
3脑科学前沿科学中心,复旦大学,中国上海市,200433
4上海脑科学与类脑研究中心,中国上海市,201210
摘要:自大型预训练视觉-语言模型(VLM)爆发以来,提示学习已在计算机视觉领域引发广泛关注。基于VLM构建的视觉和语言信息之间的密切关系,提示学习成为许多重要应用领域(如人工智能内容生成(AIGC))中的关键技术。本综述循序渐进且全面地总结了与AIGC相关的视觉提示学习。首先介绍了VLM,它是视觉提示学习的基础。然后,回顾了视觉提示学习方法和提示引导生成模型,并讨论了如何提高将AIGC模型适用于下游特定任务的效率。最后,提供了一些有前景的关于提示学习的研究方向。
关键词组:提示学习;视觉提示微调;图像生成;图像分类;人工智能内容生成(AIGC)
Review Article: Advances and challenges in artificial intelligence text generation
Bing LI, Peng YANG, Yuankang SUN, Zhongjian HU, Meng YI
DOI: 10.1631/FITEE.2300410 Downloaded: 1969 Clicked: 1942 Cited: 0 Commented: 0(p.64-83) <Full Text><PPT> 322
1东南大学计算机科学与工程学院,中国南京市,210000
2东南大学计算机网络和信息集成教育部重点实验室,中国南京市,210000
摘要:文本生成是人工智能和自然语言处理的重要研究领域,为人工智能生成内容的快速发展提供了关键技术支撑。该任务基于自然语言处理、机器学习和深度学习等技术,通过训练模型学习语言规则,自动生成符合语法和语义要求的文本。本文对文本生成的主要研究进展进行梳理和系统性总结,对近几年文本生成相关文献进行综合调研,并详细介绍相关技术模型。此外,针对典型文本生成应用系统进行介绍。最后,对人工智能文本生成的挑战和未来研究方向进行分析和展望。得出以下结论,提高生成文本的质量、数量、交互性和适应性有助于从根本上推动人工智能文本生成的发展。
关键词组:人工智能文本生成;自然语言处理;机器学习;深度学习
Six-Writings multimodal processing with pictophonetic coding to enhance Chinese language models
Li WEIGANG, Mayara Chew MARINHO, Denise Leyi LI, Vitor Vasconcelos DE OLIVEIRA
DOI: 10.1631/FITEE.2300384 Downloaded: 2073 Clicked: 1425 Cited: 0 Commented: 0(p.84-105) <Full Text><PPT> 297
机构:1华东交通大学,土木建筑学院,轨道交通基础设施性能监测与保障国家重点实验室,中国南昌,330013;2广州大学,工程抗震研究中心,广东省地震工程与应用技术重点实验室,中国广州,510006;3重庆大学,土木工程学院,中国重庆,400045;4福州大学,紫金地质与矿业学院,中国福州,350116
目的:在实际工程施工过程中,由于XCC桩属于挤土桩,其安装或沉桩过程将使桩周土体产生变形,而这种挤土荷载(尤其是侧向挤土位移)会对既有桩施加附加的桩身响应,从而导致桩基破坏。本文旨在探讨砂土中相邻XCC桩贯入对既有XCC桩的影响,研究贯入过程中不同土体相对密实度和既有桩截面几何形状的情形下既有桩侧向响应及桩周土体应力的发展规律。
创新点:1.探讨了相对密实度和截面几何形状对既有桩侧向响应的影响;2.揭示了贯入过程中既有桩桩周土体应力变化规律。
方法:1.基于沉桩加载模型试验系统,开展一系列砂土中相邻XCC桩贯入对既有XCC桩影响的1g模型试验;2.考虑土体相对密实度和既有桩截面几何效应的影响,获得砂土中相邻XCC桩贯入过程中既有XCC桩的侧向响应以及桩周土体应力变化的趋势。
结论:1.既有XCC桩侧向响应对相对密实度和截面几何效应的变化很敏感,主要表现为既有XCC桩的弯矩随着它们的增加而增大;2.既有XCC桩周围不同深度的土体径向应力随贯入深度的变化呈现出不同的发展趋势,而且由于既有桩的遮挡效应,土体的径向应力的变化不再表现出"h/R效应";3.径向应力峰值σ’r_max/σ’v0随着径向距离r/R的增加而以指数函数的形式减小,松砂中σ’r_max/σ’v0随r/R的衰减指数要大于中密砂和密砂中的衰减指数。
关键词组:XCC桩;贯入;模型试验;侧向响应;径向应力
Style-conditioned music generation with Transformer-GANs
Weining WANG, Jiahui LI, Yifan LI, Xiaofen XING
DOI: 10.1631/FITEE.2300359 Downloaded: 1395 Clicked: 1382 Cited: 0 Commented: 0(p.106-120) <Full Text><PPT> 337
华南理工大学电子与信息学院,中国广州市,510600
摘要:近年来,研究人员开发了各种算法来生成动听的音乐。然而,在生成过程中有时忽略了风格控制。音乐风格是指音乐作品呈现的具有代表性的特征,是音乐最突出的特质之一。本文提出一种创新的音乐生成算法,该算法能够根据指定的风格从零开始创作完整的音乐作品。算法引入了风格约束的线性生成器和风格鉴别器。风格约束生成器模拟MIDI事件序列,强调风格信息的作用。风格鉴别器应用对抗学习机制并引入两种创新的损失函数,以加强对音乐序列的建模。此外,本文首次建立了一个判别指标,以评估生成音乐与训练数据在音乐风格上的一致性。在现有公共数据集上,实验结果的客观和主观评价都表明我们的算法在音乐制作方面优于现有先进方法。
关键词组:音乐生成;风格调节;Transformer;音乐情感;
Yuxin HUANG, Huailing GU, Zhengtao YU, Yumeng GAO, Tong PAN, Jialong XU
DOI: 10.1631/FITEE.2300296 Downloaded: 1480 Clicked: 1566 Cited: 0 Commented: 0(p.121-134) <Full Text><PPT> 319
1昆明理工大学信息工程与自动化学院,中国昆明市,650504
2昆明理工大学云南省人工智能重点实验室,中国昆明市,650504
摘要:跨语言摘要是从源语言文档生成目标语言摘要的任务。最近,端到端跨语言摘要模型通过使用大规模、高质量数据集取得令人瞩目的结果,这些数据集通常是通过将单语摘要语料库翻译成跨语言摘要语料库而构建的。然而,由于低资源语言翻译模型性能有限,翻译噪声会严重降低模型性能。提出一种细粒度强化学习方法解决基于噪声数据的低资源跨语言摘要问题。引入源语言摘要作为黄金信号,减轻翻译后噪声目标摘要的影响。具体来说,通过计算源语言摘要和生成目标语言摘要之间的词相关性和词缺失度设计强化奖励,并将其与交叉熵损失相结合优化跨语言摘要模型。为验证所提出模型性能,构建汉语-越南语和越南语-汉语跨语言摘要数据集。实验结果表明,所提出模型在ROUGE分数和BERTScore方面优于其他基线。
关键词组:跨语言摘要;低资源语言;噪声数据;细粒度强化学习;词相关性;词缺失度https://doi.org/10.1631/FITEE.2300296
Controllable image generation based on causal representation learning
Shanshan HUANG, Yuanhao WANG, Zhili GONG, Jun LIAO, Shu WANG, Li LIU
DOI: 10.1631/FITEE.2300303 Downloaded: 1529 Clicked: 1404 Cited: 0 Commented: 0(p.135-148) <Full Text><PPT> 317
1苏州大学第一附属医院骨科,中国苏州市,215006
2宜兴市人民医院骨科,中国宜兴市,214299
3海安人民医院骨科,中国海安市,226600
4上海交通大学医学院附属苏州九龙医院骨科,中国苏州市,215028
摘要:骨关节炎(OA)是一种老年慢性进行性骨关节病。破骨细胞活化在早期骨关节炎软骨下骨丢失的发生中起着至关重要的作用。然而,骨性关节炎中破骨细胞分化的具体机制尚不清楚。在本研究中,从基因表达综合库(GEO)中筛选了与OA疾病进展和破骨细胞活化相关的基因表达谱。采用GEO2R和Funrich分析工具寻找差异表达基因(DEGs)。富集分析结果表明,化学致癌作用、活性氧和氧化应激反应主要参与OA软骨下骨的破骨细胞分化。此外,还鉴定了14个与氧化应激相关的DEGs。选择排名第一的差异基因血红素加氧酶1(HMOX1)进行进一步验证。相关结果显示,OA软骨下骨破骨细胞活化过程中伴随着HMOX1的下调。在体外实验中发现,鼠尾草酚通过靶向HMOX1,上调抗氧化蛋白的表达来抑制破骨细胞的形成。同时,在体内发现鼠尾草酚通过抑制软骨下骨破骨细胞的激活来减轻OA的严重程度。综上所述,软骨下骨氧化还原失稳态引起的破骨细胞活化是骨性关节炎进展的重要途径。在软骨下破骨细胞中靶向HMOX1可为早期OA的治疗提供新的见解。
关键词组:破骨细胞;氧化应激;骨关节炎(OA);血红素加氧酶1(HMOX1);鼠尾草酚
Deep3DSketch-im: rapid high-fidelity AI 3D model generation by single freehand sketches
Tianrun CHEN, Runlong CAO, Zejian LI, Ying ZANG, Lingyun SUN
DOI: 10.1631/FITEE.2300314 Downloaded: 2293 Clicked: 1558 Cited: 0 Commented: 0(p.149-159) <Full Text><PPT> 373
1浙江大学计算机科学与技术学院,中国杭州市,310027
2浙江大学软件学院,中国杭州市,310027
3湖州师范学院信息工程学院,中国湖州市,313000
摘要:人工智能生成内容(AIGC)在语言和图像领域的崛起值得注意,但由于其复杂性和缺乏训练数据,基于人工智能生成三维模型仍未被充分探索。通过计算机辅助设计(CAD)创建三维内容的传统方法需大量人力和专业知识,这对于新手用户来说具有挑战性。为解决此问题,提出一种基于草图的三维建模方法,名为Deep3DSketch-im,它利用单个手绘草图进行建模。由于草图的稀疏性和模棱两可性,这是一项具有挑战性的任务。Deep3DSketch-im使用一种称作"有符号距离场(SDF)"的新型数据表示,通过将隐式连续场整合至从草图到三维模型的过程,以及一个特别设计的可以捕捉点和局部特征的神经网络,改进从草图到三维模型的过程。进行了大量实验证明该方法的有效性,在合成数据集和真实数据集上均取得更优的性能。此外,用户研究报告显示,用户对Deep3DSketch-im生成的结果更加满意。我们相信,Deep3DSketch-im有潜力通过为新手用户提供直观易用的解决方案来彻底改变三维建模的过程。
关键词组:内容创作;草图;三维建模;三维重建;从X到形状;人工智能
TendiffPure: a convolutional tensor-train denoising diffusion model for purification
Mingyuan BAI, Derun ZHOU, Qibin ZHAO
DOI: 10.1631/FITEE.2300392 Downloaded: 969 Clicked: 1348 Cited: 0 Commented: 0(p.160-169) <Full Text><PPT> 317
1天津市第一中心医院泌尿外科,中国天津市,300192
2天津医科大学第一中心临床学院泌尿外科,中国天津市,300192
摘要:癌症免疫治疗已成为继手术、放疗和化疗之后的第四大主流治疗选择,并取得了令人鼓舞的成果。肿瘤免疫治疗通过调动或激发机体自身的免疫功能,从而抑制和杀伤肿瘤细胞。然而,肿瘤免疫治疗作为一种新兴的治疗手段,由于缺乏有效的免疫细胞传递途径以及具有较高的毒副作用,在临床上的应用受到限制。近年来,纳米材料和基因工程在保护抗原递送、激活靶向T细胞、调节免疫抑制的肿瘤微环境和提高治疗效果等方面显示出巨大的潜力。卡介苗是一种用于预防结核病的减毒牛分枝杆菌活疫苗,于1927年首次报道其抗肿瘤活性。卡介苗可通过诱导多种细胞因子和趋化因子激活免疫系统,其特异性免疫和炎症反应可发挥抗肿瘤作用。20世纪70年代,卡介苗首次作为治疗膀胱癌的膀胱灌注药物,有效地提高了免疫抗肿瘤活性,防止肿瘤复发。最近,纳米卡介苗和基因工程卡介苗因其能诱导更强且更稳定的免疫反应,被提出作为膀胱癌的治疗方案。在本研究中,我们概述了纳米卡介苗和基因工程卡介苗用于膀胱癌免疫治疗的发展,并回顾了它们的潜力和挑战。
关键词组:膀胱癌;卡介苗;纳米载体;基因工程;免疫治疗
Correspondence: Multistage guidance on the diffusion model inspired by human artists’ creative thinking
Wang QI, Huanghuang DENG, Taihao LI
DOI: 10.1631/FITEE.2300313 Downloaded: 905 Clicked: 1239 Cited: 0 Commented: 0(p.170-178) <Full Text><PPT> 298
1之江实验室跨媒体智能研究中心,中国杭州市,311500
2浙江大学计算机科学与技术学院,中国杭州市,310027
摘要:目前文本生成图像的研究已显示出与普通画家类似的水平,但与艺术家绘画水平相比仍有很大改进空间;艺术家水平的绘画通常将多个意象的特征融合到一个意象中,以表示多层次语义信息。在预实验中,我们证实了这一点,并咨询了3个具有不同艺术欣赏能力的群体的意见,以确定画家和艺术家之间绘画水平的区别。之后,利用这些观点帮助人工智能绘画系统从普通画家水平的图像生成改进为艺术家水平的图像生成。具体来说,提出一种无需任何进一步预训练的、基于文本的多阶段引导方法,帮助扩散模型在生成的图像中向多层次语义表示迈进。实验中的机器和人工评估都验证了所提方法的有效性。此外,与之前单阶段引导方法不同,该方法能够通过控制不同阶段之间的指导步数来控制各个意象特征在绘画中的表现程度。
关键词组:文本生成图像;扩散模型;多层次语义;多阶段引导