jnh免费AI“神器”第十三弹:会20种讲话的数字人爆火;呆板人能提前08秒预测

 行业动态     |      2024-04-20 19:12:11    |      小编

  免费AI“神器”第十三弹:会20种讲话的数字人爆火;呆板人能提前0.8秒预测人类神色|钛媒体AGI

  本日,钛媒体AGI梳理了免费 AI “神器”系列第十三弹,共五款,个中不少产物再一次拓宽了咱们对AI的设念力。

  产物音讯:Digen是由Digen AI研发的全新克隆数字人东西产物,称是操纵天生式 AI 技能创修面向异日的视频,接济众达20种讲话、40+种声响,手势、口型和语调一起同步一律,视频成就较量传神。

  产物性能:用户可通过官网申请内测,利用时免费实行脾气化头像天生,大约必要5-7天工夫,随后能够实行视频编辑和天生等操作,最终能够告终数字人视频状况jnh,声称为Digen in Real Motion 1.0。

  目前,Digen网罗免费版、创作家版、专业版三个版本,后两者每月计费区别为9.9 美元、19.9美元,倘使按年订阅代价会更低少少。公司称,免费安放的订阅者不受任何工夫局部,但每月只可创制总长度为2分钟的视频,视频数目没有局部。

  产物音讯:哥伦比亚大学革新呆板测验室不日推出一款能够预测人的神色,并能与人类同步做出神色的人脸呆板人。这款呆板人采用自我监视研习框架,运作道理相像于人类通过照镜子来操演面部神色。

  产物性能:EMO能够正在人类微乐前839毫秒预测即将到来的微乐,并通过模子与人类同时外达微乐。另外,Emo还能够预测颓丧、义愤和惊讶等神色,还能与人类实行眼神互动,但目前还不行做出人类的全豹神色。

  据清楚,Emo的眼睛里装有摄像头,硅胶皮肤下有26个电机,相像于人类面部的肌肉,可认为呆板人的面部神色供应动力。此外,该呆板人利用两个神经汇集,一个用来窥察人脸并预测神色,另一个咨议若何正在呆板人脸上形成神色。第一个神经汇集通过视频网站上的视频实行操练,第二个神经汇集让呆板人通过及时摄像机观察本人做的神色来操练。

  团队咨议职员外现,异日,他们还将拓宽呆板人的神色边界,祈望EMO能对人所说的话做出反映,而不是简陋仿效人类。另外,咨议职员正操纵大模子将讲话交换整合到Emo中,让Emo可能解答题目和对线、Domo AI 新性能上线:能让静态人像动起来

  产物音讯:Domo AI是映刻科技推出的一款将照片和视频动漫化的AI东西,该东西能够将用户上传的图片和视频转绘为动漫派头,过程接续迭代更新,Domo AI不日推出了图像天生视频新性能。

  产物性能:Domo AI的新性能勾结了深度研习和策画机视觉算法的前沿技能,通过智能识别和剖判静态照片中的人物特点,再与动态视频中的运动数据实行精准立室。正在壮大的算法驱动下,Domo AI可能奥妙地将照片中的人物“移植”到视频中,告终静态到动态的完善转换。

  比如,用户能够上传一张静态照片和一个参考的动态视频,Domo AI便可能奥妙地将静态照片中的人物交换成动态视频中的人物,告终惊人的视觉转换。

  Domo AI性能壮大,实用于众种场景和使用。不但可用于社交媒体上分享活泼兴趣的动态照片,还可认为影戏、逛戏或广告创制增添殊效,为用户供应无穷的创意空间。

  目前,Domo AI新性能仍然正在Discord频道上正式上线,用户只需正在频道内利用/move号令,即可轻松体验将静态照片变为动态视频的奇特经过。

  产物音讯:Ideogram是一款超强文字天生图像东西,旨正在天生包括能够大白阅读文本的图像。该模子由谷歌前员工构成的创业团队打制,团队成员曾介入开辟谷歌的 Imagen 图像天生软件和视频天生模子。

  产物性能:Ideogram的闭键性能为文生图性能,但与其他图像天生模子分歧的是,Ideogram擅长天生包括文本的图片,用户只需输入提示词,Ideogram就能够依据央求将文字融入天生的图片中,告终平面、悬浮以至立体文字成就。比方天生影戏、产物海报、T恤印花等图像,管理了生图AI正在图像文字天生上的痛点。

  近期上线版本正在无误显示文本方面有了明显晋升,天生的图像也越发传神,能够对繁复提示词实行准确反响。Ideogram 外现,介入测试的评估者对待 Ideogram 1.0 正在提示对齐、图像连贯性、团体偏好和文本烘托质地方面的偏好超越了 DALL·E 3 和 Midjourney V6。

  同时 Ideogram 1.0 还引入了 一个名为“妖术提示”的新性能,该性能能够依照用户的原始描写,编写更仔细的提示词,进而缔造出更面子且具创意的图像。

  另外,Ideogram 1.0版本还能分析冗长、繁复的提示词,天生大白、传神的图像,网罗动物、稀奇组合的展示,以及照片级传神的人物神色和手部作为。

  付费方面,用户每天能免费利用25个提示词,天生100张图。8美元月付用度户每天能够天生100个提示词,400张图。20美元月付用度户能够无穷利用。

  产物音讯:LaVi-Bridge是一个无需操练将分歧的讲话模子和天生视觉模子勾结起来,以告终文本到图像的天生的技能框架,该框架由香港大学、香港中文大学和香港科技大学的咨议团队合伙开辟。

  产物性能:通过利用LoRA(Low-rank Adaptation)和适配器,LaVi-Bridge供应了一种机动且即插即用的措施,无需编削原始模子的权重。这个框架兼容众种讲话模子和天生视觉模子,可能顺应分歧的构造。

  正在这一框架内,团队证实了通过整合更高级的模块(如更优秀的讲话模子或天生视觉模子)能够显明普及文本对齐或图像质地等本领,过程多量评估验证了LaVi-Bridge模子的有用性。