jnh免费AI“神器”第十三弹：会20种讲话的数字人爆火；呆板人能提前08秒预测

行业动态 | 2024-04-20 19:12:11 | 小编

　　免费AI“神器”第十三弹：会20种讲话的数字人爆火；呆板人能提前0.8秒预测人类神色｜钛媒体AGI

　　本日，钛媒体AGI梳理了免费 AI “神器”系列第十三弹，共五款，个中不少产物再一次拓宽了咱们对AI的设念力。

　　产物音讯：Digen是由Digen AI研发的全新克隆数字人东西产物，称是操纵天生式 AI 技能创修面向异日的视频，接济众达20种讲话、40+种声响，手势、口型和语调一起同步一律，视频成就较量传神。

　　产物性能：用户可通过官网申请内测，利用时免费实行脾气化头像天生，大约必要5-7天工夫，随后能够实行视频编辑和天生等操作，最终能够告终数字人视频状况jnh，声称为Digen in Real Motion 1.0。

　　目前，Digen网罗免费版、创作家版、专业版三个版本，后两者每月计费区别为9.9 美元、19.9美元，倘使按年订阅代价会更低少少。公司称，免费安放的订阅者不受任何工夫局部，但每月只可创制总长度为2分钟的视频，视频数目没有局部。

　　产物音讯：哥伦比亚大学革新呆板测验室不日推出一款能够预测人的神色，并能与人类同步做出神色的人脸呆板人。这款呆板人采用自我监视研习框架，运作道理相像于人类通过照镜子来操演面部神色。

　　产物性能：EMO能够正在人类微乐前839毫秒预测即将到来的微乐，并通过模子与人类同时外达微乐。另外，Emo还能够预测颓丧、义愤和惊讶等神色，还能与人类实行眼神互动，但目前还不行做出人类的全豹神色。

　　据清楚，Emo的眼睛里装有摄像头，硅胶皮肤下有26个电机，相像于人类面部的肌肉，可认为呆板人的面部神色供应动力。此外，该呆板人利用两个神经汇集，一个用来窥察人脸并预测神色，另一个咨议若何正在呆板人脸上形成神色。第一个神经汇集通过视频网站上的视频实行操练，第二个神经汇集让呆板人通过及时摄像机观察本人做的神色来操练。

　　团队咨议职员外现，异日，他们还将拓宽呆板人的神色边界，祈望EMO能对人所说的话做出反映，而不是简陋仿效人类。另外，咨议职员正操纵大模子将讲话交换整合到Emo中，让Emo可能解答题目和对线、Domo AI 新性能上线：能让静态人像动起来

　　产物音讯：Domo AI是映刻科技推出的一款将照片和视频动漫化的AI东西，该东西能够将用户上传的图片和视频转绘为动漫派头，过程接续迭代更新，Domo AI不日推出了图像天生视频新性能。

　　产物性能：Domo AI的新性能勾结了深度研习和策画机视觉算法的前沿技能，通过智能识别和剖判静态照片中的人物特点，再与动态视频中的运动数据实行精准立室。正在壮大的算法驱动下，Domo AI可能奥妙地将照片中的人物“移植”到视频中，告终静态到动态的完善转换。

　　比如，用户能够上传一张静态照片和一个参考的动态视频，Domo AI便可能奥妙地将静态照片中的人物交换成动态视频中的人物，告终惊人的视觉转换。

　　Domo AI性能壮大，实用于众种场景和使用。不但可用于社交媒体上分享活泼兴趣的动态照片，还可认为影戏、逛戏或广告创制增添殊效，为用户供应无穷的创意空间。

　　目前，Domo AI新性能仍然正在Discord频道上正式上线，用户只需正在频道内利用/move号令，即可轻松体验将静态照片变为动态视频的奇特经过。

　　产物音讯：Ideogram是一款超强文字天生图像东西，旨正在天生包括能够大白阅读文本的图像。该模子由谷歌前员工构成的创业团队打制，团队成员曾介入开辟谷歌的 Imagen 图像天生软件和视频天生模子。

　　产物性能：Ideogram的闭键性能为文生图性能，但与其他图像天生模子分歧的是，Ideogram擅长天生包括文本的图片，用户只需输入提示词，Ideogram就能够依据央求将文字融入天生的图片中，告终平面、悬浮以至立体文字成就。比方天生影戏、产物海报、T恤印花等图像，管理了生图AI正在图像文字天生上的痛点。

　　近期上线版本正在无误显示文本方面有了明显晋升，天生的图像也越发传神，能够对繁复提示词实行准确反响。Ideogram 外现，介入测试的评估者对待 Ideogram 1.0 正在提示对齐、图像连贯性、团体偏好和文本烘托质地方面的偏好超越了 DALL·E 3 和 Midjourney V6。

　　同时 Ideogram 1.0 还引入了一个名为“妖术提示”的新性能，该性能能够依照用户的原始描写，编写更仔细的提示词，进而缔造出更面子且具创意的图像。

　　另外，Ideogram 1.0版本还能分析冗长、繁复的提示词，天生大白、传神的图像，网罗动物、稀奇组合的展示，以及照片级传神的人物神色和手部作为。

　　付费方面，用户每天能免费利用25个提示词，天生100张图。8美元月付用度户每天能够天生100个提示词，400张图。20美元月付用度户能够无穷利用。

　　产物音讯：LaVi-Bridge是一个无需操练将分歧的讲话模子和天生视觉模子勾结起来，以告终文本到图像的天生的技能框架，该框架由香港大学、香港中文大学和香港科技大学的咨议团队合伙开辟。

　　产物性能：通过利用LoRA（Low-rank Adaptation）和适配器，LaVi-Bridge供应了一种机动且即插即用的措施，无需编削原始模子的权重。这个框架兼容众种讲话模子和天生视觉模子，可能顺应分歧的构造。

　　正在这一框架内，团队证实了通过整合更高级的模块（如更优秀的讲话模子或天生视觉模子）能够显明普及文本对齐或图像质地等本领，过程多量评估验证了LaVi-Bridge模子的有用性。

上一篇 : 金年会官方陪玩电子音信物业
下一篇 : 金年会官方陪玩人工智能何如变革天下？猿指示筑言人工智能大模子与培植调和进展