抖音是怎么识别视频是搬运还是原创的呢?
2024-06-24
[摘要] 抖音未对外公布过算法,以及判定行为的逻辑,一切都是猜测,包括,上热门大家都在说的那些内容,那我们就大胆来猜测,抖音是如何判定原创还是搬运的。最简单,最古老的方法,自然是视频的MD5编码,这个只要我们不用软件去修改,无论下载保

抖音未对外公布过算法,以及判定行为的逻辑,一切都是猜测,包括,上热门大家都在说的那些内容,那我们就大胆来猜测,抖音是如何判定原创还是搬运的。


最简单,最古老的方法,自然是视频的MD5编码,这个只要我们不用软件去修改,无论下载保存转发多少次,他的编辑始终不会改变的,但是,视频内容只要经过一丁点的修改,在进行保存,这个MD5编码就会重新生成,所以,这只是判定原创与否的第一重检测手段,并不是最主要的。


我们用压缩包工具就可以看到视频的MD5编码,在菜单中选择操作,属性,如上图,现在这一套早就过时了,修改编码太简单了,所以,抖音有更先进的技术派判断。


那么又是如何判断的呢,我们知道在很多年前,图片相似度对比技术就已经很成熟了,抖音就是通过这个技术来判断视频是否原创的,当然,系统不能完全判断,那是因为数据太大,服务器负载不了,而且,条件也不允许,所以,一定要人工配合才可以,这就是为什么我们上传视频的时候,系统还给推荐,达到上千赞以后,被判定违规的原因,接下来我们分析抖音的抖音判定标准。


有过剪辑经验的用户都明白,中国视频的码率是每秒25帧,当然,也有人拍摄视频为每秒30帧,这样画面的流动会更佳细腻,我们知道了视频是通过图片的连续流动播放产生的,那么,它就可以被拆分成为图片,每一帧就是一张图片,而我们上传作品的时候,抖音会对视频进行合成,这个前台有提示的,其实这个合成并不是上传,而是在中转服务器进行质量压缩,在这个过程中,系统已经把视频拆分或者未拆分,截取样张保持起来,可能每个视频截图5-10张,开始和结束画面,都会至少截图一张图片,其他图片不详。


当我们上传作品的时候,系统至少会做四个动作,压缩视频减小体积,音乐单独剥离,截取样张,样张对比,其中样张对比,不仅是对服务器里面的视频是否重复进行判断,还会对视频样张中的图片是否包含广告,以及敏感内容进行判断,系统不是人眼,他无法知道什么是违规,什么是广告,什么是重复的内容,只是在对数据图片进行对比,和服务器图片像素度高的保留记录。


上过小热门的朋友都知道,作品播放量过万的时候,就会推荐给人工复核,人工怎么会知道这个作品是搬运还是原创的呢,这个还是得靠系统推荐的,刚才说过,我们上传视频进行合成的时候,系统已经把这些数据全部对比过一次了,那么,相似度高的内容就会被列举出来,比如,相似度91%,相似度85%,相似度80%,这些作品列出来,前五个或者前十个,工作人员只要在符合作品的时候,点击相似度查看,就能轻而易举的识别,这个作品是原创还是搬运的了。


识别广告和违规内容也是一样的,系统计算出结果,列表出来,人工进行数据对比,这也是为什么从来不上热门的账号,后期备查搬运和违规的概率很低,大家明白是怎么回事了吧。


有人会问了,抖音里还流传这样一句话呢,发二次会火,第二次不就是搬运了么,按照你的逻辑来推理,系统直接就能百分之百的判定,这个是搬运的作品,不管第几张图片,和服务器截取对比数据都是一模一样,没错,是这样的,但是你忘了一点,第二次会火是有一个前提的,就是同一个人发布两次,才算第二次,这种不会被判定为搬运的,因为抖音系统记录了视频上传者的身份,自己的作品再次发布,不算搬运行为。


平台注册入口