AI视频 – 躺着挣点钱 https://tzzdq.com 让AI干活 Fri, 12 Jan 2024 07:25:12 +0000 zh-Hans hourly 1 https://wordpress.org/?v=6.7.1 https://tzzdq.com/wp-content/uploads/2023/12/cropped-logo-32x32.jpg AI视频 – 躺着挣点钱 https://tzzdq.com 32 32 谷歌AI视频生成工具:VideoPoet https://tzzdq.com/1188/ Thu, 21 Dec 2023 05:23:07 +0000 https://tzzdq.com/?p=1188 VideoPoet 是 Google Research 在 2023 年 12 月 20 日发布的 AI 视频生成工具。它使用了多模态语言模型,可以根据文本描述生成视频。VideoPoet 可以生成各种类型的视频,包括动画、纪录片、新闻等。

VideoPoet 的优势在于,它可以生成高质量、逼真的视频。它使用了一种新的技术,可以将文本描述转换为视频的帧,然后再将这些帧合成在一起。这种技术可以生成更加自然、流畅的视频。

VideoPoet 目前还处于开发阶段,但已经可以生成一些非常逼真的视频。例如,它可以生成动画人物、虚拟场景、甚至是真实人物的视频。

VideoPoet 的发布,标志着 AI 视频生成技术又迈进了一步。它有可能在未来广泛应用于影视、游戏、教育等领域。

以下是 VideoPoet 的一些主要特点:

使用多模态语言模型,可以根据文本描述生成视频。
可以生成各种类型的视频,包括动画、纪录片、新闻等。
可以生成高质量、逼真的视频。

VideoPoet 的官网地址为:点击进入

]]>
OPenAI泄露GPT4.5信息:新模型支持AI视频和3D https://tzzdq.com/1181/ Thu, 21 Dec 2023 04:52:39 +0000 https://tzzdq.com/?p=1181 Twitter(X)上关于GPT4.5的一些泄露信息:

最先进的模型带来了跨语言、音频、视觉、视频和 3D 的多模态功能,以及复杂的推理和跨模态理解。
新型号:
• GPT-4.5
• GPT-4.5-64k
• GPT-4.5-音频和语音

巧合的是,关于谷歌新的AI视频生成大模型的消息也在互联网上流传。这意味着,在AI生成图片的功能取得快速进步之后,AI音视频领域的竞争,尤其是生成AI视频的竞争会越来越激烈。这对PIKA、Runway这样的初创公司而言并非好的消息。因为OpenAI和Google这样的巨头带着巨大的投入、完善的产品链、雄厚的技术底蕴杀入AI视频市场,会直接拉高竞争激烈度。

可以预见的是在明年,仅仅产生几秒钟小动画的视频生成技术将面临被淘汰的风险。需要复杂使用技巧,众多参数才能驾驭的AI图片、视频生成技术,除非有非常高的质量优势,否则会很快被淹没在通用聊天机器人的整合功能之中。

现在OpenAI的绘图功能,已经成为很多非专业人士的重要工作助手,能够满足大量的非专业需求。我们可以期待一下,明年的GPT4.5或者5.0,会给我们带来巨大的震撼,让我们在视频创作领域,可以真正用上AI,而不是现在这样,用几秒钟的DEMO抓抓眼球。

]]>
将EbSynth集成到Stable Dffusion生成动画 https://tzzdq.com/1091/ Mon, 18 Dec 2023 16:01:26 +0000 https://tzzdq.com/?p=1091 将EbSynth与Stable Diffusion集成的步骤涉及了利用这两个工具的功能来创建更加精致的动画和视觉效果。以下是基于我找到的信息的详细指南(如果你不熟悉这两个软件的安装,国内的大神们已经将它加入到秋叶整合包里,你可以阅读这篇文章,下载整合包):

  1. 安装必要的扩展和软件:
    • 在Stable Diffusion的WebUI上安装TemporalKit扩展。TemporalKit是为Stable Diffusion渲染添加时间稳定性的一体化解决方案。
    • 在您的系统上安装FFMPEG,这对于视频处理是必要的。
  2. 准备视频:
    • 创建一个用于处理文件的文件夹,并准备原始视频,注意其格式、分辨率和帧率。
  3. 从原始视频中提取帧:
    • 使用Stable Diffusion中的Temporal-Kit标签提取视频的帧。这涉及设置帧率、每个关键帧的帧数和分辨率等参数。
  4. 对关键帧进行图像到图像处理:
    • 使用Stable Diffusion的Img2img功能处理提取的帧。您需要设置输入目录、输出目录、噪声规模和去噪强度等参数。
  5. 准备EbSynth数据:
    • 使用Stable Diffusion处理帧之后,为EbSynth处理准备它们。这个步骤涉及选择关键帧并组织EbSynth的数据。
  6. 使用EbSynth处理:
    • 通过EbSynth运行处理过的帧,以将关键帧的风格外推到其余帧。
  7. 生成最终视频:
    • 一旦帧通过EbSynth处理后,生成最终视频。这可能涉及附加步骤,如混合剪辑和在像KdenLive这样的软件中编辑。
  8. 克服限制和挑战:
    • 注意相机运动和面部表情可能带来的挑战,因为它们可能导致帧不一致。解决方法包括拍摄最小相机运动的镜头,并尝试不同的提示和参数。
  9. 查看和分析结果:
    • 将转换后的帧导入像After Effects这样的软件中,查看和分析结果。
  10. 迭代过程和自定义:
  • 记住动画是一个主观过程,结果可能会有所不同。可能需要调整和微调,以达到理想的一致性和创意表达水平。

如果你对如何使用EbSynth感到迷惘,你可以参照Youtube视频:视频1  视频2。如果你不懂英文,选择字幕->自动生成->翻译成中文即可。

其他洞察

  • 了解EbSynth: EbSynth旨在基于关键帧外推帧,保持时间上的一致性。它不是为生成完全新的帧而设计,而是为了用一致的风格增强现有帧。
  • 了解Stable Diffusion: 这个工具是一个强大的图像操作工具,允许艺术家通过受控的方式混合像素来创建独特的视觉效果。

优化结果的技巧

  • 帧率和关键帧: 使用更高的帧率和/或更低的批处理数来减少伪影。关键帧越接近,动画中出现的涂抹或闪烁就越少。
  • 尝试不同的风格和提示: 在Stable Diffusion中尝试不同的风格和提示以实现特定的视觉效果,平衡真实和超现实的视觉效果。

将EbSynth和Stable Diffusion集成在一起,为创意视频动画和视觉效果打开了新的途径。这是一个需要实验和调整的迭代过程。

]]>
Ebsynth:将视频变为艺术风格的动画 https://tzzdq.com/1084/ Mon, 18 Dec 2023 15:39:18 +0000 https://tzzdq.com/?p=1084 EbSynth背后的技术采用了“基于示例的合成”技术(虽然我们也把它作为插件整合到Stable Diffussion里,然而它严格意义上来说,不是基于AI的技术)。这意味着用户提供一个视频和一个绘制的关键帧(作为风格的示例),EbSynth将这个画面分解成许多小块,像拼图一样,然后使用这些小块来组合(合成)剩余的视频帧。EbSynth始终只使用艺术家绘制的内容,并不引入关键帧中未展示的新元素,这样艺术家就可以控制最终动画的视觉风格。

产品特色

  • 保留细节:EbSynth在风格化视频帧时,能够保留纹理的一致性、对比度和高频细节。
  • 艺术家控制:通过修改关键帧中的小细节,艺术家可以改变最终动画的视觉风格。
  • 多关键帧支持:有时候一个关键帧就足够了,但通常需要更多,并且需要保持一致性。EbSynth允许使用多个关键帧来提高合成的准确性。
  • Alpha通道处理:EbSynth可以处理Alpha通道,提供透明背景的结果,方便将前景与背景分开处理。

基本用法

  1. 选择关键帧:选择一个尽可能展示场景多的关键帧,并对其进行绘制或编辑。
  2. 与视频帧匹配:确保绘画尽可能与视频帧匹配。不匹配的地方可能导致制作出来的动画出现不良效果。
  3. 处理多个关键帧:有时需要多个关键帧以确保一致性。可以利用EbSynth合成的第一次运行结果中的“破碎”帧作为新的关键帧。
  4. 混合多个关键帧:完成多个关键帧的合成后,需要将它们混合在一起。EbSynth可以将项目导出到After Effects,并准备初始的交叉淡入淡出,供进一步编辑。

开发历程与挑战

EbSynth的开发面临了许多技术挑战,如细节保留、时间连贯性和处理速度等。Secret Weapons公司希望将EbSynth推广给艺术家,并看看他们是否觉得它有用。基于反馈,他们不断改进产品,推出了更快速、更用户友好的Beta版本,并计划发布具有全新交互式用户界面的EbSynth 1.0版本,以使工作流程更加流畅高效。

总的来说,EbSynth是一款创新的视频风格转换工具,它使艺术家能够将自己的绘画风格应用到视频上,创造出独特且具有艺术性的动画作品

项目官网点击进入

]]>
DELL笔记本雷电4接口外接显卡坞跑开源AI程序,丝滑体验无损耗! https://tzzdq.com/1063/ Mon, 18 Dec 2023 09:16:46 +0000 https://tzzdq.com/?p=1063 视频文稿:

大家好,欢迎来到“躺着挣点钱”,我是老王。上一个视频中,我给大家讲解了如何在Windows上快速部署AI工具集。安装了一大堆AI工具之后,我们需要的就是有一台高性能的电脑来帮助我们生成内容。我有一个老的台式机和两个笔记本。老的台式机是四核心处理器,已经完全跟不上节奏了。两个笔记本都是DELL的Inspiron,一个是7610,一个是7620。这两个笔记本的处理器分别是I7-11800H和I7-12700H,内存都是16G,显卡都是RTX3060 6G版本。在运行AI程序的时候,显存经常不够,处理速度也相对比较慢。

我还有个苹果的M1笔记本,这个笔记本除了剪辑视频之外,基本上干不了任何其他事,我已经把它丢在抽屉里吃灰好久都没有用了。所以我就从京东上买了个显卡坞,外接了4060TI(16G)显卡。我还从京东上买了几根酷兽的16G内存条,150一根,非常的便宜。把笔记本的内存从16G升级到32G之后,基本上所有流行的AI开源程序都可以跑得非常丝滑。

我们来看一下我录制的视频,展示一下我这个新卡坞外接好之后是什么样的效果。现在这个就是显卡坞接好之后的样子。这个笔记本是我去年买的DELL Inspiron 16 7610,我给他接了一个磐镭的显卡坞,显卡坞上安装的是技嘉的RTX4060TI显卡,搭配的是鑫谷的额定功率750瓦的电源(完全用不到这么大)。然后我还给这个显卡外接了一个4K的显示器,这个显示器是惠科的,1000块钱在京东上买的,显示质量还不错,性价比非常高。这套系统我是放在我卧室的长桌上,看起来复杂,实际上安装是比较简单的。安装好之后,你只要去英伟达的官方以及英特尔的官方把这个显卡驱动以及雷电4的驱动更新到最新版本就可以了。

那么在需要的时候,你把显卡扩展坞通过雷电线跟笔记本连接起来,笔记本只要更新好驱动可以立刻识别。你不需要的时候把它拔下来,插到另外一台笔记本上,转换非常的方便。如果将来你想升级显卡,你只需要买一个更高级一点的显卡然后把它怼上去就可以了。

当前这些AI开源程序,包括AI绘画、图片说话、视频换脸、直播换脸、图片/视频高清修复上色、图片生成动画、AI写作、AI语音等等,这其中最消耗资源的就是AI换脸以及图片开口说话。以Sadtalker为例,如果你的显存低于6G,生成视频时长超过15秒,基本上显存100%会爆。同时由于要缓存大量图片以及文件,还要把模型载入到内存中,所以这些开源程序也非常的吃内存。把这个秋叶整合包跑起来之后,就是什么都不做,如果只是16G的内存的话,那么系统内存已经占用超过一半了。所以要想用得爽,必须升级内存以及显卡。内存很简单,京东上单条16G的内存条,无论是台式记的还是笔记本的,一般不超过200块钱。

那么显卡对于笔记本而言是没有办法升级的,只能通过扩展坞的方式。笔记本外接显卡主要有两种方式,一种是通过Oculink接口,这种接口带宽非常高(非旗舰)显卡性能几乎没有什么损失,无论是做AI运算还是玩游戏。

另外一种就是通过英卡的雷电接口。如果你的接口是雷电3,那么显卡的性能损失还是比较大的,尤其在玩游戏的时候。如果是雷电4的话,性能损失要小一点。如果你不玩游戏,仅仅是用来做AI运算的话,那么基本上是没有损失的。

接下来给大家演示一下我现在的这套系统,处理器I7-11800H,内存16G,显卡4060TI16G版本(4070 12G性价比也很好)。我们看它在执行开源AI程序中的表现。在录屏的时候,我开了这个虚拟人物头像以及OBS录屏软件。我这个虚拟头像是3D的,它还是非常占CPU资源的,但是不影响,因为大部分开源AI程序对CPU的要求是非常低的。

好,我们通过秋叶整合包打开stable diffusion的Web UI,来看看画图的效果如何。我对这个画图完全不懂,这经常画出来一些怪物,我也不知道大神们是怎么弄的,就演示一下。那么我们点击生成,10.1秒,3.5秒,3.6秒,3.6秒,3.5秒,那么它基本上稳定在3.5秒左右。除了第一次会慢一点,我昨天刚装好的时候,他是大概2秒多就可以生成的。但是我昨天没有开这个虚拟头像,也没有开录屏软件,不知道是不是对CPU性能有影响。那么反正就是这个效果,我感觉还是蛮不错的。

下面我们来演示一下让这个图片开口说话,也就是Sadtalker。这里,我们就选择万能君的这个一键整合包。啊,因为这个包的调试信息比较多,然后它运行起来也比较顺手,而且它可以进行高清修复。这个背后还是Sadtalker,在那个秋叶包里面也有。那么我们这里选择图片处理,找到这个特朗普的头像,点击它就开始工作了。因为我们在它的音频驱动目录里面放了它的默认音频,这个在上一个视频中讲解过,有不懂的可以去看一下。以前我的显卡在使用这个功能的时候,如果生成视频的时长超过15秒,它就会提显存不够,然后这个程序就崩溃了。

本次,我尝试直接生成一分钟长的图片开口说话视频,并选择了高清修复功能,以测试能否成功生成。显卡已开始工作,我调出任务管理器查看系统资源占用。CPU占用率超过60%,内存占用一半。由于我开启了虚拟头像和录屏软件,这部分占用了27%的CPU。使用Sadtalker时,CPU占用率提升了大约30%。显卡成功识别了外接的RTX 4060TI,并且已全力运行。

面部渲染耗时14分54秒,视频长度约50多秒,不到一分钟。目前正在进行高清修复,这可能需要较长时间。GPU占用率约80%,硬盘(USB3 机械盘)性能充足,内存竟然达到了28G,这是我意料之外的。昨天我用16G内存跑完了这个程序,感觉上并无太大差异。操作系统似乎会根据可用内存大小进行分配,这可能不是最佳调度方式。CPU占用率现在大约75%,其中30%为虚拟头像和OBS占用。如果不录屏,关闭这两个程序,CPU占用率大约为40%多,不到一半。暂时关闭录屏,等视频生成后再做汇报。

AI应用的浪潮实际上是在ChatGPT火爆之后,即2023年才真正兴起。2023年购买高端显卡如4090价格昂贵,建议购买价格适中的4060ti 16G版本(或4070 12G)来应对AI应用。一两年后,更高端的显卡如4090可能会降价,届时可升级。

对于自媒体工作者,无论是文本编辑还是视频创作,我强烈推荐使用笔记本而非台式机。笔记本便携且硬件整合良好,自带麦克风通常带降噪功能,录音效果好。而且英特尔或AMD的笔记本处理器与台式机性能差距已不大。大厂如戴尔、惠普、联想、小米等在生产笔记本时能获得成本优势。只需在轻薄本中选择性价比高的产品,适时升级内存。如需玩游戏,可以通过显卡坞接外置显卡,便于外出办公时拆卸,兼顾工作、学习和娱乐。将来不再使用时,处理笔记本也比台式机方便。

本期视频就到这里,希望对您有所帮助。我们下期再见!

]]>
图片开口说话:特朗普帮忙推荐YouTube频道 https://tzzdq.com/1055/ Mon, 18 Dec 2023 05:27:27 +0000 https://tzzdq.com/?p=1055 此短片为实践AI图片开口说话所作。

AI图片开口说话:SadTalker
AI语音模拟:Voice.ai
剪辑软件/动画特效:剪映

大家可以与我用Animaze所作的3D模拟特朗普效果对比:点击访问

 

]]>
Windows上一键部署Stable Diffusion等AI工具集 https://tzzdq.com/1002/ Sat, 16 Dec 2023 12:40:26 +0000 https://tzzdq.com/?p=1002 视频简略文稿:

现在流行的AI工具功能强大,种类繁多,覆盖了AI绘画、AI动画、图片/视频高清修复上色、图片开口说话、图片特效处理、AI语音克隆、文字生成图片、视频、音乐等领域。这些工具背后,往往有一个或多个流行的软件支持。安装这些软件的步骤通常复杂,对普通用户来说可能需要花费几天时间,而且容易在错误处理上卡壳,导致之前的努力白费。看到别人利用AI创造商机,自己却因难以安装而感到挫败。

安装本地AI工具的过程中,用户常常会遇到各种专业术语的“重击”,如.NET、Python、PIP、Conda、Git、CUDA、FFMPEG等。花费大量时间仅为了能够运行如Stable Diffusion的Web UI,却常常最终面对各种错误信息,令人沮丧。即使是像老王这样有编程背景的人,在使用开源程序时也经常遇到问题。对于那些对Python或系统环境变量一无所知的用户来说,通常很快就会放弃。

本文将介绍解决这些问题的方案,包括如何简单、快速地部署自己的本地AI工具集。要使用这些热门的AI工具,你需要准备以下东西:一台配置良好的电脑(最好是8核心处理器以上,内存大于16G,显卡RTX2060S以上的N卡,支持CUDA,显存达到6G;更好的配置是内存32G,显存12G以上,推荐4060TI 16G版本,性价比超高),良好的网络环境(百度网盘会员,没有的话可以借用朋友的),以及一个好的解压软件(如BANDZIP、7zip、winRAR,其中winRAR效率最高)。

接下来,你需要了解两位重要的人物:圈子里大名鼎鼎的秋叶大神和B站的万能君。秋叶大神的整合包是解决这个问题的最佳方案,也是许多其他高手二次创作的基础。万能君的软件库用简单的Windows窗口预设了复杂的技术参数,使得新手用户使用起来更加顺手。

首先介绍的是B站风影主播二次加工的秋叶整合包4.5版本加一些插件集,囊括了几乎所有好用的多媒体开源AI工具。接着是万能君的软件库,包括AI作画7.0版本和一键整合的换脸工具。如果你熟悉Stable Diffusion、Roop、SadTalker等开源工具的使用,只是难以安装,或者打算长期学习AI开源工具,那么下载秋叶整合包就足够了。如果你是技术小白,只想体验AI换脸、图片开口说话、文字转语音、图片视频高清修复上色等工具,那么选择万能君的两个包进行安装即可。

安装秋叶整合包后,需要进行简单的环境配置,安装.NET运行环境和FFMPEG,并将其添加到系统环境变量中。万能君的软件库安装则更为简单,直接解压即可使用,无需额外设置。这些软件集包含了从AI绘画、图片说话到视频高清修复等多种功能,适用于不同技术水平的用户。尽管面对初期的安装难题,但一旦完成设置,你将能够轻松使用最流行的AI软件,创造出令人惊叹的内容。

==========================

本视频安装的工具包包含以下开源工具:Stable diffussion、Ebsynth,roop,、rope, FaceSwapLab,SadTalker,OpenPose、EasyPhoto、Dreambooth、DeForum、Depth Library等,解压后简单配置,甚至无需配置即可运行。

下载工具集合:

秋叶整合包4.5+插件集
https://pan.baidu.com/s/1c6-oUG8bhRDEyjEHDBKwtg?pwd=qt45 提取码qt45

AI换脸工具Roop Rope整合包4.1
win10、win11 V4.1
夸克网盘链接【仅包含启动包】:https://pan.quark.cn/s/cadcdc64e501
提取码:ZUpY
百度网盘链接【启动包+模型包】:https://pan.baidu.com/s/1uhpL3x-FWAqQBJ86C6WBvg 提取码:u6rn

mac苹果电脑版V1.4
(1)百度网盘链接:https://pan.baidu.com/s/122lA1xV4oipOBghGE8feYg 提取码:k5g6

(2)天翼网盘链接:https://cloud.189.cn/t/by2yqafuIjiu (访问码:bn1n)

AI作画离线版V7.0版,附带各种AI小工具
方式一:百度网盘

https://pan.baidu.com/s/1B0g4MPFe_drP_hRjgEnKGg 提取码:95kh

方式二:123网盘(速度挺快)

https://www.123pan.com/s/H3GRVv-pjFLh.html 提取码:JSsP

作者:万能君的软件库 https://www.bilibili.com/read/cv28408489/?spm_id_from=333.999.0.0

秋叶整合包V4.5原版
SD-WebUI 整合包 v4.5
百度盘:https://pan.baidu.com/s/1MjO3CpsIvTQIDXplhE0-OA 提取码: aaki

模型包
链接:https://pan.baidu.com/s/1W-UIuOww38HrIjNWqPh0Rw 提取码:aaki

整合包使用7z压缩格式,解压请下载 7zip:https://www.7-zip.org/
不要直接在b站点开网盘链接,复制出去在浏览器里打开!否则会提取码错误!
不要用第三方网盘下载器,否则容易出现压缩包损坏

]]>
Stable difussion秋叶整合包4.5+WebUI 1.6.1+插件集成 https://tzzdq.com/945/ Thu, 14 Dec 2023 11:48:15 +0000 https://tzzdq.com/?p=945 这次升级的整合包修正了一些插件的兼容问题,同时增加了新的换脸插件等(因为面向大众,插件集成比较多,各位朋友下载后,若对某些插件不用,可卸载一些,以加快启动速度。

下载: 百度网盘:https://pan.baidu.com/s/1c6-oUG8bhRDEyjEHDBKwtg?pwd=qt45 提取码:qt45

作者,B站风影
整合包大神:秋叶

]]>
AI实验:马斯克谈如何躺着挣钱 https://tzzdq.com/944/ Thu, 14 Dec 2023 11:31:18 +0000 https://tzzdq.com/?p=944 本视频为AI实验,内容是采访马斯克,谈如何“躺着挣点钱”。使用到的主要工具分别是:

AI图片开口说话:SadTalker
AI语音模拟:Voice.ai
剪辑软件/动画特效:剪映

]]>
Pictory:AI视频制作利器 https://tzzdq.com/866/ Tue, 12 Dec 2023 15:18:25 +0000 https://tzzdq.com/?p=866 Pictory 是一个基于云的视频编辑和制作平台,它使用户能够轻松创建、编辑和分享视频。Pictory 的主要特点是它的简便性和自动化功能,这使得即使是没有视频编辑经验的人也能快速制作出专业质量的视频。

Pictory 的主要特点和功能包括:

  1. 文本到视频:Pictory 允许用户将文本内容(如博客文章或脚本)转换为视频。它通过自动选择相关的图像、视频片段和背景音乐来完成这一过程。
  2. AI驱动的编辑:Pictory 使用人工智能来帮助用户编辑视频,包括剪辑、添加字幕和优化音频质量。
  3. 视频摘要:这个功能可以从较长的视频中自动生成摘要,适用于创建社交媒体帖子或高亮片段。
  4. 定制选项:用户可以添加自己的音乐、品牌元素(如徽标和颜色方案)和文本叠加,以个性化他们的视频。
  5. 易于使用的界面:Pictory 提供一个直观的用户界面,使用户能够轻松导航和使用其各种工具。
  6. 云基础设施:作为一个基于云的平台,Pictory 允许用户在任何设备上访问和编辑他们的项目,不需要强大的硬件支持。

Pictory 广泛用于内容营销、社交媒体管理、教育和企业培训。通过简化视频制作过程,Pictory 使得视频内容的创建更加可访问和高效。

]]>