切换到宽版
开启辅助访问
登录
立即注册
搜索
搜索
搜索
首页
Portal
论坛
同城
人才网
工具
菲龙网工具
个人中心
关于我们
每日签到
本地新闻
时事评论
华人世界
中国新闻
新闻视频
国际新闻
娱乐新闻
科技新闻
菲龙广场
房产网
菲龙速聘
二手交易
便民电话
美食餐厅
旅游签证
物流速运
商品买卖
二手车市场
严选
话费充值
便民电话
贺词页面
瀑布流页
汇率查询
APP下载
每日签到
我的任务
道具商店
每日签到
我的任务
道具商店
更改用户名
关于菲龙网
About US
联系菲龙网
活动回顾
加入我们
本版
用户
菲龙网
»
论坛
›
新闻频道
›
科技新闻
›
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已 ...
菲龙网编辑部7
有 744 人收听 TA
147081
主题
147098
回复
173190
积分
收听TA
发消息
加好友
本文来自
科技新闻
订阅
|
收藏
(
2953
)
菲龙网编辑部7发布过的帖子
0/49
从容应对市场起伏,平安理财“新安鑫灵活策略”打造“固收+”标杆丨机警理财日报
0/43
太保服务·纪录片|夕阳正暖 老有长护
0/46
全国人身险营销员跌回281万人
0/45
新旧准则并行期,险企财报“颠簸”前行
0/46
资金回流黄金ETF,关注止跌反弹机会
0/54
数量从6家扩容至27家,险企参与个人养老金市场还需供需两端发力
0/49
“固收为王”遇困,银行理财破局
0/45
对第二轮经济刺激的思考:关键在落地
0/50
马斯克值多少钱
查看TA的全部帖子>>
TikTok 乱拳打死老师傅:硅谷大厂还在发论文,它产品已经上线了
时间:2022-8-16 10:32
0
531
|
复制链接
|
互动交流
显示全部楼层
阅读模式
直达楼层
马上注册,结交更多好友
您需要
登录
才可以下载或查看,没有账号?
立即注册
x
解释最新科技进展,报道硅谷大事小情
中国速度感受一下。
文|杜晨 编辑|VickyXiao 题图来源:TikTok
突然间,AI 文字转图片成为了全球科技业的一大流行技术趋势。
几周前我们报道了一个脑洞十分清奇的文字转图片 AI 小工具。当时我们也提到, 包括谷歌、OpenAI 等大公司和顶级研究机构都在开发相关模型,就连时尚杂志《COSMO》都采用 AI 来设计杂志封面。
图片来源:COSMO 杂志
然而令许多人没想到是:
就在各家硅谷大厂斥巨资研发、砸了无数的人力、发了无数的论文,却还在测试相关技术的时候,TikTok 居然异军突起,首先把 AI 文字转图片做到了产品里,而且直接交到了全球十亿用户的手上……
| 乱拳打死老师傅,中国速度太快了
在 TikTok 的特效菜单下,最近增加了一个名叫“AI 绿幕” (AI Greenscreen) 的新选项。
点击这个选项,然后在屏幕中间的对话框里输入一段文字描述,只用不到5秒的时间,TikTok 就可以根据文字描述生成一张竖版画作,用作短视频的背景:
图片来源:硅星人截图
TikTok 用的这个文字转图片模型,还是非常简单的。
硅星人测试了几个含义大相径庭的提示,生成的图片可以说都十分的“迷幻",没有任何写实色彩。
但这并不是缺点缺点——正相反,生成结果具有 非常强的水彩/油画感觉,风格迁移 (style transfer) 的痕迹明显,而且用的颜色也都鲜亮明快,给人一种耳目一新的感受。
图片来源:TechCrunch 截图
我特别想单独说一下我自己生成的两张图片:
下图左边的提示字段是知名游戏“最后生还者”。生成结果的辨识度太高了,这不正是游戏主角 Ellie 被泥浆血水浸湿的头发吗?
右图更有意思,提示是“轰炸”:我完全没有想到如此“不和谐”的字段,TikTok 的模型居然生成的结果却相当的“自洽”,特别是图中的“轰炸机”反而看起来像是代表和平的“白鸽”——是否你也能读出一点讽刺的意味?
图片来源:硅星人截图
当然话说回来,这些只是我自己的解读和感受,绝不可能是模型的“本意”。但是有趣的艺术作品不正应该是这样嘛,让人能够发现一些巧妙的“彩蛋”,甚至浮想联翩,解读出另外的含义。
从这一角度,我还是非常认可 TikTok 目前部署的这个模型的。
模型的质量也值得一提。The Verge、TechCrunch 等美国媒体测试了一些特殊的敏感字段,AI 绿幕生成结果更加抽象了,显示出字节部署的模型在争议字段上可能已经做出了提前规避。
要知道 AI 文字生成图片本来就不是简单的技术,避免争议/道德风险更是一项相当复杂的工作。
图片来源:The Verge 截图
正如文章前面提到,谷歌、OpenAI 等巨头公司和知名机构开发的 AI 文字生成图片模型,目前都处于刚刚发布或者小范围测试,还在“纸上谈兵”的阶段。
这边 TikTok 不仅很快跟进推出了同类模型,更厉害的是已经将其投放到全球十亿用户量级别的产品里了。
本来以为 AI 艺术创作的潮流还是几个硅谷大厂在引领,没想到字节跳动居然“乱拳打死老师傅”——
必须给中国互联网科技公司的工作速度和质量点赞了。
| AI创作成潮流,
硅谷大厂挤破头
早在2020年,全球知名的人工智能基础科研机构 OpenAI 发布了一个名为 GPT-3 语言模型。 当时 OpenAI 的论文题为“Language Models are Few-Shot Learners ” ,直接点出了超大规模语言模型在多种非训练人物上具备强大、快速的学习和掌握能力。
GPT-3 也完全没令人失望 ,在小 范围开放 测 试 A PI 之 后, 外界人士用它开发出了各种各样神奇的 demo,
“AI 文字生成图片” 也是这些能力的其中一项。
图片来源:硅星人
包括 O pen AI、谷歌、 Midjourney、Stability AI 等一众 大小 公司 ,已经开发出了多个 文字转图片生成模型,展示出神经 网络模型具备令人惊讶的艺术创作能力。
从 AI 文字转图片生成技术开始得到公众关注,到今天各路大厂和小公司挤破头也要掺和,各种不开放的、开放的、收费和免费的模型层出不穷……也就过去了一年左右的时间。
在这些模型当中,OpenAI 的 DALL·E 是最著名的一款。该模型一代于2021年推出,今年刚刚更新到了二代。用户只需提供
自然语言描述,模型就能够生成非常写实 (photorealisitic) 的图片。
图片来 源:OpenAI
除了从零开始生成全新照片,DALL·E 2 还有更多功能,适合现实中多种艺术工作场景。
比如它的编辑能力,可以在一张已经存在的照片中,在用户任选的位置“删除”或者“添加”物体,并且编辑后的效果仍然很写实:
图示:在照片的不同位置添加“火烈鸟”。图片来 源:OpenAI
再比如 DALL·E 2 还具备“启发”的能力,能够根据一张已经给定的图片,生成风格近相同的新照片:
图片来 源:OpenAI
顺便一提:有个跟 OpenAI 没关系的**开发者,自己仿着 DALL·E 做了一个图片生成模型,还给免费开放了,取名为 DALL·E mini。
结果这个“仿制品”比正品还受欢迎,在社交网络 Twitter 上专门搬运这个模型生成的奇怪图片的账号,粉丝量都破了百万。甚至逼得 OpenAI 专门出来澄清跟它没关系,要求开发者做出改变。现在这个免费小工具已经改名为 Craiyon 了。
(听说此事之后,粉丝们还做了一张梗图,嘲笑 OpenAI 那边还在控制测试权限,这边 DALL·E mini 早就给全网玩嗨了……)
图片来 源:FALSEKNEES
而在硅谷大厂的行列当中,现在谷歌是已知动作最快的,在 DALL·E 2 出来不久后也发布了自己的模型,名为 Imagen。
就像 DALL·E 的根源是语言超大模型 GPT-3,Imagen 的根源也是谷歌开发的泛用型超大语言模型 T5。至于 Imagen 的这个命名,其实是图片 (image) +生成 (generate) 的混成词。
图片来 源:Google Research
虽然做的比 DALL·E 晚,同样作为硅谷知名 AI 研究型公司的谷歌,还是非常不服 OpenAI 的,宣称找人做了一堆同类模型的盲测,结果是受试者更喜欢 Imagen 生成的结果,认为其在“生成质量”和“文字描述还原度”上都更胜一筹。
——当然,究竟是 DALL·E 2 和 Imagen 谁的生成结果更好,还是一个很主观的,见仁见智的事情。在技术实现上,这两家其实大同小异,都是用了 Diffusion(扩散)模型生成,然后再用 Super-Resolution(超分辨率) 技术来让生成结果更加清晰。
图片来源:Google Research
还有更多规模更小的新创公司也在做 AI 图片生成和艺术创作这件事。
其中一家比较有意思的公司就是 Midjourney,
其创始人是原知名动作感应技术公司 Leap Motion 创始人 David Holz;公司的投资人和顾问团队更是相当强大,都是苹果、特斯拉、AMD、GitHub 等知名公司的核心人物。
Midjourney 跟 OpenAI、谷歌的写实方向背道而驰,而是在抽象、艺术性、独特风格之间寻求某种巧妙的结合点,这也是这家公司和其模型比较特别之处。另外 Midjourney 开放模型技术的做法也很“年轻化”,不是发布 API 和文档,而是把服务接口做到了聊天软件 Discord 里。
图片来源:Midjourney
说完这些比较知名的公司,再来看一家名不见经传,但是和 TikTok 一样出手极快的美国公司:Stability AI。
这家公司总部位于硅谷 Los Altos,在上周刚刚发布了一个可以免费使用的 AI 图片生成产品 Stable Diffusion。
图片来源:Stability AI
Stable Diffusion 和前面介绍的几个写实派模型没有太大不同。但是和产品、公司名称里的“稳定”正相反,这个模型在有害/争议字段的处理上,可以说完全没有任何作为。而又因为产品是完全免费提供给公众的,已经有很多用户用它制作 deepfake、暴力、恐怖主义、虚假新闻图片等有害的内容了……
最近大半年,AI 图片生成已经成为了一个名副其实的科技行业“热词”,只是没想到,Open AI 和谷歌做了这么多年,却被 TikTok 给悄无声息地跑赢了。接下来,应该会有更多的科技公司也参与其中,不少全民应用背后的大厂估计又要忙活着把这项技术加到产品中了。
注:封面图来自于 TikTok,版权属于原作者。如果不同意使用,请尽快联系我们,我们会立即删除。
2)分享到你的朋友圈和群里
3)赶快关注硅星人吧!
关注硅星人,你就能了解硅谷 最新的科技进展和湾区的大事小情,变身最in技术潮人
回复
举报
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
点我进行验证
本版积分规则
发表回复
回帖后跳转到最后一页
关闭
站长推荐
/1
【点击免费下载】菲龙网移动APP客户端
【点击免费下载】菲龙网移动APP客户端,新闻/娱乐/生活资讯生活通,带你了解菲律宾多一点!
查看 »
扫码添加微信客服
快速回复
返回列表
返回顶部