见知的小伙伴们大家好,新的一期巡山报告教你用AI一句话拍大片,各种风格统统拿捏,真正做到“ Say it , see it ” ,AI大导离淘汰人类,又近了一步!
1. Runway引领文本生成视频
Runway是一家专注于AI视频编辑工具的创业公司,曾参与了文本生成图像Stable Diffusion模型初始版本的开发。今年2月,Runway发布了首个AI视频编辑模型Gen-1;3月20日,Runway宣布了其新的视频生成模型Gen-2,该模型可以根据用户输入的文本提示,生成相应内容与风格的视频片段。
Gen-1:一秒编辑视频风格
Gen-1是一个基于结构和内容感知的视频扩散模型,其目标是在保留视频结构的同时编辑视频内容,在示例图像或文本的指导下修改视频。视频内容是指描述视频外表和语义的特征,如目标物体的颜色、风格;视频结构则是指描述视频几何和动态的特征,如目标物体的形状、位置以及时间变化。
Gen-1模型结构图示
在模型训练过程中,使用了一个由未加字幕的视频和配对的文本-图像数据构成的大规模数据集,用单目深度估计(MiDaS)来表示结构s,用预训练的神经网络预测的嵌入来表示内容c,通过对图像和视频上的联合训练,将潜在扩散模型扩展到了视频生成领域,实现对视频结构和内容保真程度的控制。
相较于图片,视频片段多了时序变化信息,其编辑的难点在于保持画面时间的一致性。模型通过时间引导尺度ω 对编辑视频的时间一致性进行了显式控制,如上图所示:随着时间引导尺度 ω 的增大,连续帧的时间一致性单调增加(蓝色折线),连续帧之间的均方误差单调减少(黄色折线),从而能获得更平滑的视频画面。
Gen-1示例:保留输入视频(中间)结构的同时,基于文本提示或参考图像生成的视频(上及下)
Gen-2:一句话生成大片
Gen-1 主要是对现有视频素材进行转换,Gen-2 则专注于从零开始生成视频,输入文本提示就能生成任意风格的大片,无论是写实风格的镜头特写还是宏大的自然风光,Gen-2都能轻松实现。
一个跟随徒步旅行者穿过丛林的镜头
无人机拍摄的山脉画面
此外,Gen-2还能实现诸如根据给定的图片拓展成一段视频等多种功能。
示例:根据左图拓展成视频片段
尽管目前这些演示片段的时间短、画质还不够细腻逼真,但它展示了文本生成视频的巨大潜力和创造性机会,为非影视技术人员和创意人员打开了创作的大门。同时,我们也需要注意这项技术可能带来的虚假信息误导和滥用等风险。正如 Midjourney 创始人 Holz 所说:
AI 如水,虽然有危险,但却是文明的驱动力,知道如何与水相处,才能生活得更好。
2. ChatPDF — PDF文件阅读神器
PDF文件处理是大多数人日常工作中必不可少的一部分。然而,相信很多人也像我一样,为了查找某个特定信息翻阅了整个PDF文档,急需一个能够快速查找和分析文件的PDF处理工具。
智能问答
ChatPDF正是这样一个强大的工具,它使用了OpenAI的GPT-3技术,能够高效地识别和理解人类语言,拥有强大的问答功能。无论你需要查找一个特定的信息,还是对整个文档进行细致的总结,ChatPDF都能够快速解析PDF文件内容,生成准确的答案来回答问题,帮助你从冗长的PDF文件中解脱出来,能更加专注于自己的核心工作。
示例:总结英文学术文献的创新点
实现过程
智能问答功能的实现依赖ChatGPT的调用,然而使用ChatGPT问答时存在上下文最大长度的限制,这是为了模型更好地理解输入内容并生成更准确的响应。因此需要对上传的PDF文件进行预处理,以便能找到与问题最相关的分段,具体实现过程如下:
3. 将找到的最相似的分段与问题一起作为提示输入,调用OpenAI的Completion API,让ChatGPT学习分段内容后,再回答对应的问题,最后将ChatGPT生成的答案返回给用户,完成一次查询。
目前ChatPDF提供了免费账户注册,使用免费账户每天即可上传3个PDF文件(最大支持120页),支持50轮问答,感兴趣的小伙伴们不妨去官网体验一下!
3. 航拍+AI识别助力法国政府收税
在欧元区国家,如果你想做一些可以提高房产的价值的改造,例如增加一个游泳池或阁楼,那么政府将增加房主缴纳的税收。比如,一个30平方米的游泳池可能会让你每年多交200欧元的税,人们被要求主动申报这些类型的改造,但很多人都瞒着不报,以避免支付更多的税。
为了抓到这些改造自己房子但是逃税的人,法国税务部门测试了一款新系统:利用AI软件分析航拍图像,扫描人们后院的游泳池,确定他们的地址,再通过查看数据库来检查他们是否进行过申报。到目前为止,该软件已经揭露了20356个秘密游泳池,相当于法国政府可以多收到1000万欧元的税收。
这款AI软件目前最大的问题在于容易被太阳能板误导,太阳能电池板阵列可能会迷惑计算机视觉软件,导致它被标记为游泳池,如果泳池藏在阴影中或被树木覆盖,有时候也无法识别出来。与此同时,工程师们正在努力扩大该AI软件的应用范围,以寻找不同类型的住宅改造。
无人机航拍+AI识别在其他领域同样大放异彩,例如,在野生动物聚集保护区,通过深度学习算法对无人机进行航拍采集的照片和视频进行分析识别,可以实现对野生动物的识别和数量统计。在森林防火领域,基于火焰识别、烟雾识别的AI模型,可以从航拍照片和视频中及时找到火灾的苗头。
参考文献:
1、https://baijiahao.baidu.com/s?id=1760318831432446439&wfr=spider&for=pc 「瞬息全宇宙」背后的 AI 公司
2、 https://baijiahao.baidu.com/s?id=1760960456265238406&wfr=spider&for=pc Gen-2震撼发布,科幻风日系风统统拿捏
3、https://research.runwayml.com/gen2 Runway官网
4、https://www.chatpdf.com/ ChatPDF官网
5、https://baijiahao.baidu.com/s?id=1760793217143291717&wfr=spider&for=pc ChatPDF:一个让你爱上PDF文件的工具
6、https://mp.weixin.qq.com/s/Uac6K-HixmSAPRYTBgH5oQ 航拍+AI识别,法国发现2w+未上税私人游泳池