写了一个下载图片和视频的python小工具
csdh11 2024-12-23 09:26 24 浏览
?
谁先掌握了 AI, 谁就掌握了未来的“权杖”。
?
在网上冲浪时,总会遇到一些好看的视频和图片,情不自禁地想“据为己有”。于是,就有了下载图片和视频的需求。
浏览器插件
工欲善其事,必先利其器。要做一件事,首先得找到对应的工具。下载网络图片或视频,当然首选浏览器插件了。
使用 Microsoft Edge Dev 版,安装如下插件即可(安装插件的方法网上搜下即可):
Python 小工具
「需求场景」
有了浏览器插件,为什么我还要写这个小工具呢?
我的需求场景是,有一个入口页面(如下图所示),这个页面有一系列子页面和链接,每个子页面有一个视频。我想批量下载这些子页面的视频。使用浏览器插件,我得一个个点击子页面,子页面比较多时,是个繁琐的事情。
能不能用程序来实现呢?说干就干。
「思路说明」
(1)使用 selenium 来模拟打开页面,因为有些页面需要完全打开,否则内容会获取不到或者获取不完整;
(2)使用元素选择器来定位网页链接元素和资源元素;
(3)元素选择器可以通过命令行指定,使用更加灵活方便;
(4)由于定位链接元素和资源元素都可以采用同一种办法,又不想再加一个选项去定位资源元素,因此这里复用了 -s 选项去定位资源元素。这块还得再想想。这个程序的重点就是如何准确定位链接和资源元素;
(5)视频下载使用了现有程序(Mac 上的 you-get),调用 shell 命令的方式来实现。因为通常不会下载太多的图片和视频,因此对性能没有作考虑。读者可以替换这个地方。
最基本的元素选择器:
选择器名称选择的内容示例ID 选择器具有特定 ID 的元素。单一 HTML 页面中,每个 ID 只对应一个元素,一个元素只对应一个 ID#my-id,选择 <p id="my-id"> 或 <a id="my-id">类选择器具有特定类的元素。单一页面中,一个类可以有多个实例.my-class,选择 <p class="my-class"> 和 <a class="my-class">属性选择器拥有特定属性的元素img[src],选择 <img src="myimage.png"> 但不是 <img>
「安装与用法」
用法和例子在程序里已经给出了。要使用这个工具,需要:
(1)安装如下 python 模块:
pip3 install selenium requests beautifulsoup4 Pillow
(2) 下载对应的 chromedriver ,chromedriver 与 chrome 的版本要保持对应。
# download corresponding version of chromedriver in https://chromedriver.chromium.org/downloads
# unzip and cp chromedriver to /usr/local/bin/ then chmod +x /usr/local/bin/chromedriver
「程序实现」
#!/usr/bin/python3
#_*_encoding:utf-8_*_
import os
import random
import string
import json
import time
import argparse
import traceback
import subprocess
import requests
from bs4 import BeautifulSoup
from PIL import Image
# 下载目录设置
save_path = '/Users/qinshu/Downloads'
img_width_threshold = 500
img_height_threshold = 500
def usage():
usage_info = '''
This program is used to batch download pictures or videos from specified url.
search and download pictures or videos from network url by specified rules.
// ...省去部分代码
print("number of links: %s" % len(links))
if len(links) > 0:
for link in links:
if sourcetype:
time.sleep(1)
download_source(link, sourcetype, css)
与 ChatAI 高效协作
这个程序的主要还是我写的,只是一些功能使用了 AI 给出的程序。实际上,这还不算一种高效的与 AI 协作的方式。
如何与 ChatAI 高效协作呢?一种简单的方式是,你问我答。但是,简单的提问,往往得不到理想的回答。读者不妨试试以下几种提问,看看 ChatAI 给出什么答案:
- 写一个 python 程序,下载页面 https://tu.heiguang.com/works/12_%E6%A3%AE%E7%B3%BB.html 中 class=tk_photo_img 的链接列表;
- 能够使用 -c 来指定 classname;
- 使用模块化的方式来编写这个程序;
- 使用 -k --keyword 来指定一个关键字,链接包含该关键字才输出;
- 写一个模块化的 python 程序,获取页面 https://tu.heiguang.com/works/12_%E6%A3%AE%E7%B3%BB.html 中 class=tk_photo_img 中的链接列表;可以使用 -c 来指定 classname, 使用 -k 来指定一个关键字,链接包含该关键字才输出;如果指定了 -t type ,则下载指定类型的资源。type 可以取 img 或 video;
- 写一个模块化的 python 程序,获取页面 https://tu.heiguang.com/works/12_%E6%A3%AE%E7%B3%BB.html 中 class=tk_photo_img 中的链接列表;可以使用 -c 来指定 classname, 使用 -k 来指定一个关键字,链接包含该关键字才输出;如果指定了 -t type ,则下载指定类型的资源。type 可以取 img 或 video,要求使用 selenium 来模拟打开页面并写成函数,获取链接也写成一个单独的函数,下载资源也写成单独的函数。
- 写一个模块化的 python 程序,获取页面 https://tu.heiguang.com/works/12_%E6%A3%AE%E7%B3%BB.html 中 class=tk_photo_img 中的链接列表。要求如下:
(1) 可以使用 -c 来指定 classname;
(2) 可以使用 -s 来指定 css 选择符;
(3) 可以使用 -a 来指定自定义属性;
(4) -c -s -a 可以自由组合;
(5) 使用 -k 来指定一个关键字,链接包含该关键字才输出;
(6) 如果指定了 -t type ,则下载指定类型的资源。type 可以取 img 或 video;
(7) 要求使用 selenium 来模拟打开页面并写成函数,获取链接也写成一个单独的函数,下载资源也写成单独的函数。
请直接给出完整程序。是不是体会到了出题者的乐趣?
AI 给出的程序如下:
import argparse
import os
import re
import requests
from bs4 import BeautifulSoup
from selenium import webdriver
def open_browser(url):
'''使用 selenium 打开指定页面,并返回 driver 对象'''
options = webdriver.ChromeOptions()
options.add_argument('--headless')
//省去部分代码...
for link in image_links:
if args.type:
if args.type == 'img' and link.endswith(('jpg', 'jpeg', 'gif', 'png')):
download_media(link, 'Image', args.output)
elif args.type == 'video' and link.endswith(('mp4', 'avi', 'wmv', 'flv')):
download_media(link, 'Video', args.output)
else:
download_media(link, 'Image', args.output)
if __name__ == '__main__':
main()
虽然 AI 写出的程序还需要“调教”一下,但是,—— 我写出程序花费了 4 个小时,而 AI 只花费了不到一分钟。要知道,我是有着十年开发经验的工程师啊!就算 python 不太熟练,这个倍数也不会少多少。
我似乎看到了程序员面临的一次可怕的危机和可贵的机遇。可怕的危机我就不说了。可贵的机遇在于,熟练的开发者,完全可能单人单周从零构建起一个应用。也就是说,创业的技术基础已经形成,程序员需要更多学习商业、运营、财务、心理学相关的知识和技能。
对于初入行业的程序员,我的忠告是:尽可能早地掌握使用 AI 来协作。如果能善用 AI 的力量,他的成长速度和工作效率可能是其他人的数倍之多。
相关推荐
- 用Python轻松修改Word文件的作者和时间,打造自己的专属效率工具
-
你是否曾经遇到过需要批量修改Word文件的作者、创建时间或修改时间的情况?手动操作不仅费时费力,还容易出错。可以用Python编写一个小工具,轻松解决这个问题!无论你是编程新手还是有一定经验的...
- 插件开发js代码划分(js插件编写)
-
在开发Chrome插件时,将JavaScript代码拆分成多个模块而非集中放置,主要基于性能优化、可维护性提升和浏览器插件特性适配等多方面的考量。以下是具体原因及区别分析:一、拆分的核心原因...
- 5分钟掌握Python中的标准输入、标准输出、标准错误
-
读取用户输入从标准输入获取输入:user_input=input("Impartyourwisdom:")print(f"Youshared:{user_input}")...
- 高大上的解答:在 'packages.pyi' 中找不到引用 'urllib3'
-
DeepSeek的一句代码:...
- Flask 入门教程(flask快速入门)
-
目录什么是Flask?环境配置与安装第一个Flask应用:HelloWorld路由与视图函数模板与Jinja2表单处理与用户输入...
- 每日一库之 Go 语言开发者的神器—Gotx
-
点击上方蓝色“Go语言中文网”关注我们,领全套Go资料,每天学习Go语言简介Gotx是一个Go语言(Golang)的解释器和运行环境,只有单个可执行文件,绿色、跨平台,无需安装任何Go语言环境就可...
- MySQL性能调优工具包制作(mysql性能调整)
-
一、最终工具包内容mysql_tuning_toolkit/├──scripts/#核心脚本│├──sysbench-pro.sh#...
- 掌握TensorFlow核心用法:从安装到实战的完整指南
-
一、为什么TensorFlow值得学习?作为全球使用最广泛的开源机器学习框架,TensorFlow已累计获得超过17万GitHub星标,支撑着Google搜索、Waymo自动驾驶、NASA卫星图像分析...
- 如何把PY 打包成EXE安装文件(pypy 打包exe)
-
将Python脚本打包成EXE文件通常使用第三方工具实现,以下是详细步骤和注意事项:...
- Pygame Zero 详细使用教程(python zerorpc)
-
PygameZero是一个基于Pygame的简化游戏开发框架,特别适合初学者和快速原型开发。它隐藏了许多底层的复杂性,使得开发者可以更专注于游戏逻辑的实现。本文将通过分析提供的代码,详细介绍如...
- Stable diffusion AI画图辅助脚本 Script 的使用(二)
-
本篇为脚本使用介绍的第二部分,主要介绍Promptmatrix提示词矩阵以及UltimateSDUpscale终极SD放大这两个脚本,同时也简单介绍一下如何编写自己的脚本。1、Promp...
- 一文明白Python 的import如何工作
-
Pythonimport系统的基础知识Python的import系统是该语言设计的关键部分,允许模块化编程和代码的轻松重用。了解这个系统对任何Python程序员都很重要,因为它决定了代码的结构...
- Highlight.js - 前端的代码语法高亮库
-
千辛万苦写了篇技术分享,贴了一堆代码,兴高采烈地发到了自己的博客网站上。结果却发现代码全是白底黑字,字体还难看得很,你瞬间就没了兴致。能不能让网页也能像IDE那样,做带语法高亮的炫酷显示呢?来看一...
- xbox xsx/s ps2模拟器 战神12,北欧女神2 配置教程
-
xsxxss下载PS2独立模拟器,Retroarch全能模拟器地址。...
- RetroArch 着色器、金手指怎么用? 重返复古游戏萤幕滤镜效果
-
自从上次分享RetroArch模拟器的一些技巧后,许多模拟器新用户对老旧游戏机感到好奇,为什么游戏画面看起来会有很多马赛克。这主要是因为当年的游戏开发商是针对当时的屏幕进行设计的,所以在现在的高分辨率...
- 一周热门
- 最近发表
-
- 用Python轻松修改Word文件的作者和时间,打造自己的专属效率工具
- 插件开发js代码划分(js插件编写)
- 5分钟掌握Python中的标准输入、标准输出、标准错误
- 高大上的解答:在 'packages.pyi' 中找不到引用 'urllib3'
- Flask 入门教程(flask快速入门)
- 每日一库之 Go 语言开发者的神器—Gotx
- MySQL性能调优工具包制作(mysql性能调整)
- 掌握TensorFlow核心用法:从安装到实战的完整指南
- 如何把PY 打包成EXE安装文件(pypy 打包exe)
- Pygame Zero 详细使用教程(python zerorpc)
- 标签列表
-
- mydisktest_v298 (34)
- document.appendchild (35)
- 头像打包下载 (61)
- acmecadconverter_8.52绿色版 (39)
- word文档批量处理大师破解版 (36)
- server2016安装密钥 (33)
- mysql 昨天的日期 (37)
- parsevideo (33)
- 个人网站源码 (37)
- centos7.4下载 (33)
- mysql 查询今天的数据 (34)
- intouch2014r2sp1永久授权 (36)
- 先锋影音源资2019 (35)
- jdk1.8.0_191下载 (33)
- axure9注册码 (33)
- pts/1 (33)
- spire.pdf 破解版 (35)
- shiro jwt (35)
- sklearn中文手册pdf (35)
- itextsharp使用手册 (33)
- 凯立德2012夏季版懒人包 (34)
- 反恐24小时电话铃声 (33)
- 冒险岛代码查询器 (34)
- 128*128png图片 (34)
- jdk1.8.0_131下载 (34)