你的位置：首页 > 业界 > 基于python实现的vip电影爬虫

基于python实现的vip电影爬虫

业界 admin 2025-01-30 40浏览 0评论

顺便推荐这个很好地网站，里面东西非常多。（我当时用的时候还好好的，时隔半年，它现在要关注微信公众号才能顺利使用了·····，顺便一提，现在大多数资源都要关注公众号，而且理由都是恶意爬虫、恶意盗用接口等等，也不知道真的还是想恰个饭。。。。）

选择OK接口（当时了，现在不行的话随机应变自己找找吧）

此时就可以观看该电影，嗯，用过的应该知道，m3u8格式的视频不在大网站上的话，非常容易卡，十分影响观影体验，于是我们选择下载电影。那么，重点就来了。

对于m3u8格式，简单来说就是将一个大视频（几个小时）切割成上千个小的视频片段，后缀为ts，可以跟正常的MP4一样播放。然后你看视频的时候就一个个片段渲染，更详细的可以直接在CSDN或者百度搜搜，这里不赘述（其实是我也没有深入了解嘿嘿嘿）。

所以我们的思路就是：

**0.**在解析网站中获取m3u8文件（or php）

**1.**把所有的网址提取出来，剔除‘#’开头的没用数据

**2.**遍历获取每一个视频片段

**3.**然后将所有的视频片段合并成一个大的电影文件

**4.**删除下载的每一个视频片段

**#**补充

**5.**编写一个下载ts片段的函数，用于开创线程池，加快速度

**6.**下载过程可能会失败，所以一定要设置最长get时间，并且限定次数防止由于资源问题程序卡死

都是血与泪教训，一步一步探索出来的东西。

第一步，打开右键打开检查，在network（网络）里找到m3u8文件

打开检查，选中XHR，然后解析播放（切记顺序不要乱），就会刷新出许多文件

****

名称多为index.m3u8，没有的话就找后缀为m3u8的文件双击，就会下载到本地一个文档，打开之后就是这个样子的

大概有两千多行吧。。。。

嗯，这个文件能看到许多的https网址，就是每一个视频片段，ts格式的。

第二步，编写python代码

ok，思路清晰了以后，就开始编写代码了。话不多说上代码（也不算长）

#导入模块

import requests

import os

import time

from concurrent.futures import ThreadPoolExecutor

 

start = time.time()

#准备下载路径
m3u8 = \[\]

with open('play.php','r') as file:

    lst = file.readlines()

    for i in lst:

        i = i.strip()

        if i.startswith('#'):

            continue

        else:

            m3u8.append(i)

print(f'目标文件数共{len(m3u8)}个')

#下载一个ts文件的函数

def download\_ts(i):

    for \_ in range(10):

        try:

            with open(f'{i}.ts','wb') as file:

                  resp = requests.get(m3u8\[i\]，timeout=15).content

                  file.write(resp)

            print(f'第{i}个ts片段已下载完成!')

            break

        except:

            print(f'第{i}个ts文件下载失败，重新下载！')

            continue

with ThreadPoolExecutor(100) as t:

    for i in range(len(m3u8)):

        t.submit(download\_ts,i)

    t.shutdown()

#补录程序
with ThreadPoolExecutor(50) as f:

    for i in range(len(m3u8)):

        with open(f'{i}.ts','rb+') as file:

            if file.read():

                continue

            else:

                f.submit(download\_ts,i)

    f.shutdown()

print('ts文件下载完毕')

#ts文件的合并

print('ts文件开始合并....')

with open('罗小黑战记.mp4','wb') as file:

    for i in range(len(m3u8)):

        with open(f'{i}.ts','rb') as f:

            f\_view = f.read()

            file.write(f\_view)

print('ts文件合并完毕!')

#ts文件的删除操作

print('开始删除ts文件....')

for i in range(len(m3u8)):

    try:

     os.remove(rf'C:\\Users\\我的电脑\\Desktop\\python学习\\python爬虫项目\\vip电影全解\\罗小黑战记番剧\\{i}.ts')

    except FileNotFoundError:

        continue

print('ts文件删除完毕！')

print('电影完美下载！')

end = time.time()

print('本次下载共耗时长：',end-start,'s')

headers****是反爬，在这里不加也没有影上面的程序开了线程池（ThreadPoolExecutor），所以一部电影三分钟就能下载下来，不开的话就非常的慢，遍历下载得一个多小时才行。

另外，由于网络爬虫可能存在各种错误，所以在downlaod函数和后续删除ts片段中都用try-except捕获异常，并且开了一个线程池做补录，下载第一次未能顺利下载下来的内容。

time模块用来反馈下载电影所用时间，也可以不用。

在XHR里找m3u8，预览里一般都可以看到上千行的网址，如上图。

四.AES加密的的m3u8文件

所用到的模块：requests，re，AES，os，time，concurrent（非必须）

比较进阶一点的爬虫的（真的就是一点点）

在**（三）**中，我们学会了如何下载m3u8格式的视频，但并非所有的m3u8都是那么的纯洁，有些网站非常的狗，对文件设置了加密（我只见过AES加密的，but据说有其他加密模式反正我没见到），所以这里我们只讨论如何解决有AES加密的视频。

**1.**首先，我们需要判断是否有加密

**2.**其次，既然是加密，我们就需要秘钥（key），获取他

**3.**通过秘钥（key)来解析获取ts文件

**#**其实就是比（二）多了个解密模块嘛

我们这里选取B站会员（最难处理的就它了，傲娇的要死）的罗小黑战记（37-40集），作为范例。

**first.**我们需要下载每一集的目录（m3u8文件）

按照**（三）**中的方法下载就完了。

b站大会员选ok接口（很显然，现如今如果变动了的话随机应变都是可以解决的）

#导入模块

import requests

import os

from Crypto.Cipher import AES     #AES解密模块

import time

from concurrent.futures import ThreadPoolExecutor

import re

 

start = time.time()

#准备下载路径
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64'

                        'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36 Edg/92.0.902.73'}

 

 

def download\_ts(i):

    for \_ in range(10):

        try:

            with open(f'{i}.ts', 'wb') as file:

                response = requests.get(m3u8\[i\], headers=headers, timeout=15).content

                cryptor = AES.new(key, AES.MODE\_CBC, key)

                file.write(cryptor.decrypt(response))

                print(f'第{i}个ts片段已下载完成!')

                break

        except:

            print(f'第{i}个ts文件下载失败，重新下载！')

            continue

for \_ in range(4):

    m3u8=\[\]

    with open(f'index ({\_+7}).m3u8','r+',encoding='utf-8') as file:

        r = file.read()

        obj = repile(r'URI="(?P<url>.\*?)"',re.S)

        keyurlx = obj.finditer(r)

        for x in keyurlx:

            keyurl = x.group('url')

        file.seek(0,0)

        lst = file.readlines()

        for i in lst:

            i = i.strip()

            if i.startswith('#'):

                continue

            else:

                m3u8.append(i)

    print(f'目标文件数共{len(m3u8)}个')

    respn = requests.get(keyurl,headers=headers)

    key = respn.text.encode('utf-8')

    with ThreadPoolExecutor(100) as t:

        for i in range(len(m3u8)):

            t.submit(download\_ts,i)

        t.shutdown()

    #补录程序
    with ThreadPoolExecutor(50) as f:

        for i in range(len(m3u8)):

            with open(f'{i}.ts','rb+') as file:

                if file.read():

                    continue

                else:

                    f.submit(download\_ts,i)

        f.shutdown()

    print('ts文件下载完毕')

    #ts文件的合并

    print('ts文件开始合并....')

    with open(f'实验vip电影{\_}.mp4','wb') as file:

        for i in range(len(m3u8)):

            with open(f'{i}.ts','rb') as f:

                f\_view = f.read()

                file.write(f\_view)

    print('ts文件合并完毕!')

    #ts文件的删除操作

    print('开始删除ts文件....')

    for i in range(len(m3u8)):

        try:

            os.remove(rf'C:\\Users\\我的电脑\\Desktop\\python学习\\python爬虫项目\\vip电影全解\\罗小黑战记番剧\\{i}.ts')

        except FileNotFoundError:

            continue

    print('ts文件删除完毕！')

    print('电影完美下载！')

    end = time.time()

    print('本次下载共耗时长：',end-start,'s')

 

#很显然，除了一下下载几集之外，唯一的不同点就是解密，直接套用解密模板就行了。

response = requests.get(m3u8\[i\], headers=headers, timeout=15).content

                cryptor = AES.new(key, AES.MODE\_CBC, key)

                file.write(cryptor.decrypt(response))

就像这样。

由于这个是几集，所以key我们选择从下载的m3u8文件里提取，这里就用到了一点点的re（正则表达式）内容，当然也可以手动提取粘贴到代码里，就是对于好几集的剧来说太麻烦了。不过正则在提取每个ts文件网址的时候还是要用的。emmm除非你跟我一样精，调用字符串startswich函数。。。。

key获取之后一定要编码成utf-8的格式，要不然程序会报错（python这个笨逼他读不懂其他编码格式的数据）

最后：关于Python技术储备
学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！
包括：Python激活码+安装包、Python web开发，Python爬虫，Python数据分析，人工智能、自动化办公等学习教程。带你从零基础系统性的学好Python！
点击领取 100%免费！

Python所有方向的学习路线
Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末
Python70个实战练手案例&源码
光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

Python副业兼职路线&方法
学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

#导入模块

import requests

import os

import time

from concurrent.futures import ThreadPoolExecutor

 

start = time.time()

#准备下载路径
m3u8 = \[\]

with open('play.php','r') as file:

    lst = file.readlines()

    for i in lst:

        i = i.strip()

        if i.startswith('#'):

            continue

        else:

            m3u8.append(i)

print(f'目标文件数共{len(m3u8)}个')

#下载一个ts文件的函数

def download\_ts(i):

    for \_ in range(10):

        try:

            with open(f'{i}.ts','wb') as file:

                  resp = requests.get(m3u8\[i\]，timeout=15).content

                  file.write(resp)

            print(f'第{i}个ts片段已下载完成!')

            break

        except:

            print(f'第{i}个ts文件下载失败，重新下载！')

            continue

with ThreadPoolExecutor(100) as t:

    for i in range(len(m3u8)):

        t.submit(download\_ts,i)

    t.shutdown()

#补录程序
with ThreadPoolExecutor(50) as f:

    for i in range(len(m3u8)):

        with open(f'{i}.ts','rb+') as file:

            if file.read():

                continue

            else:

                f.submit(download\_ts,i)

    f.shutdown()

print('ts文件下载完毕')

#ts文件的合并

print('ts文件开始合并....')

with open('罗小黑战记.mp4','wb') as file:

    for i in range(len(m3u8)):

        with open(f'{i}.ts','rb') as f:

            f\_view = f.read()

            file.write(f\_view)

print('ts文件合并完毕!')

#ts文件的删除操作

print('开始删除ts文件....')

for i in range(len(m3u8)):

    try:

     os.remove(rf'C:\\Users\\我的电脑\\Desktop\\python学习\\python爬虫项目\\vip电影全解\\罗小黑战记番剧\\{i}.ts')

    except FileNotFoundError:

        continue

print('ts文件删除完毕！')

print('电影完美下载！')

end = time.time()

print('本次下载共耗时长：',end-start,'s')