好运三分快三邀请码独家丨慧川智能发布首款视频理解API,要让AI真正取代“剪片子”的人类? | 雷锋网

  • 时间:
  • 浏览:22
  • 来源:一分快三-首页

慧川智能CEO:康洪文

在今日由中国计算机學會(CCF)主办,雷锋网(公众号:雷锋网)和香港中文大学(深圳)承办第二届CCF-GA好运三分快三邀请码IR全球人工智能与机好运三分快三邀请码器人峰会的AI+专场上,慧川智能CEO康洪文在给让当当.我带来“AI(爱)让视频更简单”的主题演讲的一并,也重磅首发了一款新的视频内容理解的API产品:智影·视频理解API好运三分快三邀请码。

据康洪文介绍,这款API可利用深度1学习技术,对一段详细输入的视频中所富含的图好运三分快三邀请码像和视频流进行模式识别、拆解和型态化,从而对视频内容实现精确到每一帧的避免。

康洪文向雷锋网表示,智影·视频理解API目前已向第三方开发者、媒体、内容制造者等群体开放使用。值得注意的是,该款API还有有有3个 多重要意义在于,可实现视频内容的型态化。一些一些,这款API的开倒进当前视频内容理解相对位于空白情形下来看,颇具意义。

又有有3个 多从学术界走向产业界

左:慧川智能创始人康洪文   右:CMU大学计算机科学和机器人研究所教授金出武雄

说起慧川智能的初创团队,不言而喻有的是 点意思:创始人康洪文,CMU博士,曾在微软研究院工作,研究方向主要为AI及视频理解;CTO黄健,宾州州立大学博士,曾与康洪文同为微软研究院同事,此前曾在Google工作,研究方向为NLP和机器学习;首席架构师刘曦,与康洪文同为CMU博士,曾在Conviva工作,研究方向主要为云计算和视频大数据。

CMU作为计算机排名世界第一的学府,而且给学术界和产业界输送了非常多优秀的人才。像计算机视觉鼻祖金出武雄,现任微软全球执行副总裁的沈向洋等,皆来自于此。巧合的在于,康洪文在CMU和微软有的是 分别“师从”金出武雄和沈向洋的经历。

除去有有哪些光彩的“缘分”,还得一提的是,2015年,三位初创成员就已有过一段与视频AI避免相关的创业经历。两年随后,康洪文、黄健和刘曦又而且一些行业态势走在了一并,开启了二次创业。

“目前短视频非常火”

“就视频而言,90%的功劳归属于创意,不到5%有赖于'体力'。一些一些人一些一些 被有有哪些5%的体力给牵制住了。”康洪文向雷锋网那么 说道。

了解到一些行业问题图片,一与康洪文研究方向和从业经历有关,二则是与湖南卫视的公司合作 协议让其对此深有体会。往往一档大型综艺节目,有有3个 多小时的视频,头上往往需要上千个小时的幕后剪辑工作。康洪文发现,在这后边,不言而喻有一些一些繁琐的工作是详细能不到依赖机器来完成的,而且机器的时延和效果会放慢更好。

于是,康洪文结速英文英文和湖南卫视、浙江卫视等有了公司合作 协议,帮让当当.我做了一些多样化工作流程的系统和产品。而智影正是在有有哪些系统之上衍生出来的一款AI产品。

不过,这还缺陷。

“目前短视频非常火”,康洪文有点痛 兴奋。

暂不提月活用户已超20亿的Facebook,单就国内而言,网络视频活跃用户已达5.5亿。微信每天产出3000万篇以上的公号文章,其富含的是 67%的内容适合生成视频。而随着机器学习、CV和NLP应用的不断拓展,用户正慢慢从图像、文字转向视频和短视频使用,让当当.我那么 依赖大信息量的视频内容。

从一些行业大趋上来看,短视频终将爆发有的是 那么 道理。然而,AI业界对文本、图像的避免技术和算法已渐趋心智心智成熟期是什么是什么图片 图片 是什么是什么是什么,但对视频信息的理解却暂时位于空白情形。业内甚至有人认为“视频是有某种暗物质”,机器无法知道视频里究竟有有哪些内容,而且视频之间有有哪些联系。“它们占了全网90%的存储空间,然而一些型态化的数据却详细那么 。”

市场的痛点就此形成。一些切都让经常深耕在CV领域的康洪文感觉到,既是挑战,也是机遇。

2分钟视频,人力4小时剪辑、机器我希望300s,效果一样,如保做到?

康洪文给雷锋网列了从前一项数值,2分钟的视频,人类需相当于4小时在素材的分类分类整理、剪辑和渲染上,直至整个视频出炉,而智影可在300s内自动生成这段视频并达到相同的效果。

如保实现?

智能视频技术的学术积累

在1990年随后,学术业界结速英文英文有了一些关于视频合成技术和物体检测识别的讨论和研究。30000年随后,有点痛 是30005年左右,整个学术业界结速英文英文泛起了对视频合成,视频内容理解的研究。据Google学术查阅的资料表明,在30005年随后,关于视频内容理解一些项有的是 45300条结果的收录。近十年来,一些学术搜索结果已增至17000条。同理,视频合成、物体检测识别、机器学习和NLP的理论研究也正如让当当.我感受到的一样呈井喷态势。

有有哪些学术研究成果不言而喻给AI业界的创业者们搭起了架子。

视频数据型态化的优势

此外,托赖初创团队在CMU的学术研究成果,以及在Facebook、微软、Google等科技巨擘的从业经历,慧川智能不到不到从各个公开的数据源里获得全网的数据,并借助自身AI算法的积累对其进行内容型态化的避免。

据康洪文介绍,慧川智能在此其中还实现了一项新的Research成果,也是今日康洪文在CCF-GAIR 2017会场上发布的重头戏:根据输入的一段详细视频,机器要能利用深度1学习对其富含的图像和视频流进行模式识别,拆解和型态化,从而对视频内容实现精确到每一帧的避免。比如,在20-40帧出现了百公里油耗兰博基尼汽车,在300-95帧出现了一段有有3个 多人在对话。随后,从3000-120帧,是百公里油耗商务客机减挡 出来直至结速英文英文......

一些算法可帮助机器很好的理解视频内容,从而实现更高精确度的视频的智能化避免。

一些一些,在数据型态化相对空白的行业态势下,相较一些公司而言,这点是否慧川智能的一大优势。

头上的CV、NLP、机器学习

不过,视频数据型态化不到是否关键助力剂的有某种,让智影做到如上小标题的成绩依然离不开架构在智影头上的机器学习、CV、NLP和信息检索贡献。

具体的运行原理可看这张图:

据康洪文介绍,智影的运行流程有以下4步:

·  文本分析

·  素材匹配

·  在线剪辑、预览

·  云端视频渲染

其中关键的基础步骤在前面有有3个 多。在有有3个 多拥有足量信息和内容的数据库里,当一篇文章被上传到机器里,在NLP和机器学习的帮助下,机器会先对其进行文本分析,抓取文本中的如时间、地点、人物、事件等关键主次,并予以理解。接续,机器会进入“素材匹配”阶段。而且有有哪些素材有某种是不带标签信息的,一些一些系统需要进入其中好运三分快三邀请码找到有有哪些相关信息。比如,在全网所有的图片、社交媒体、视频片段和原声广告中,将某个特定的人出现的场景都截取出来,这其中就需要CV的助力。完成了两项最基础也最难的工作之外,机器就能接续实现在线剪辑、预览和渲染,直至生成整个视频。当然,整个过程都免不了机器学习的支持。

“相对一些公司来说,智影这款API产品在物体识别的范围、种类、精度和稳健性上都是否最领先的。”康洪文颇有底气的那么 表述。

内容视频化会给未来产业型态带来有哪些影响?

当问及一些问题图片时,康洪文向雷锋网表示,这是有有3个 多很大的问题图片。

“它应该会带来整个产业型态的改变。”康洪文拿Google举了个例子。

Google不言而喻能成为Google,一大原因在于其对文本的型态化避免的能力。以Google Search为核心,在其符近还有Index技术、Adwords业务等,所有有有哪些都建立在对文本的深度1理解之上。

然而,随着用户那么 依赖大信息量的视频内容,并逐渐习惯短视频对文本和图像的取代,在目前视频内容暂时还缺失型态化方案的过渡阶段,在行业发展到一定程度随后,必然会产生一类对视频内容提供型态化或标准化避免的方案商公司。

而一些过程有趣的地方在于,提供AI技术方案商的公司越多再“闭门造车”或“自个玩自个”,让当当.我会逐渐将当事人的应用开放给第三方开发者,媒体甚至各人所有(慧川智能而且将智影开放出去了)。当“信息视频化”发展到一定规模随后,必将有更多的人参与进来并使用有有哪些产品,一些过程又将产生足量的数据,反过来即会刺激整个行业的爆发性增长,直至巨头的出现。

康洪文说,“而且让当当.我是赋能的一方说说,肯定会创造更大的价值。”

结语

谈及未来而且会遭遇的竞争,康洪文表现的非常自信,“而且任何一家AI公司,同有某种算法是不而且立马被应用在一些领域之上的。每个应用领域都能催生一些一些的技术细节,所有公司都需要持续不断的去避免技术上出现的挑战和困难。它跟产品经理时代,而且运营驱动产品的公司不一样,有的是 看一遍它的产品模式就能學會的。”

事实上,目前国内有的是 一些创业公司在做一些消费级视频的AI应用,如给视频信息做标签化从而达到精准广告投放的效果。在康洪文看来,有有哪些技术应用更多的是有某种“任务驱动”。机器而且会对命令型任务完成的很好,但仍然越多再增加对视频内容的理解。

随着机器学习能力的增强,AI在一些专项任务上而且表现出超越人类的特质,如AlphaGo对弈,CT图像的识别,图片情景的分类等。经常以来,人类对AI的理解是仅限于做一些机械化的工作,但在康洪文看来,随着机器人对专项任务的本质的理解加深随后,就能获得创造力的延伸,如谱曲机器人可达到以假乱真的程度,机器人写诗超过人类等等。AI在其“可做事情”和“不可做事情”之间,界限正变得慢慢模糊。

雷锋网原创文章,未经授权禁止转载。详情见转载须知。