使用docker自定义python爬虫镜像

简介

使用docker的自定义镜像做一个专用于python爬虫环境的镜像,并在pycharm中通过on docker环境使用。

此镜像的依赖requirements.txt都是我平常使用的python虚拟环境中导出而来。

自定义镜像步骤

我本地的目录结构:

1
2
3
4
5
6
E:/MyDockerImages/SpiderProject/
├── Dockerfile
├── requirements.txt
├── entrypoint.sh
└── hello.py

所有文件我已上传到我的GithubGitee需要的自行下载

  1. 准备好Dockerfile文件后,执行命令构建镜像,确保你在当前文件的SpiderProject位置。
1
docker build -t pyspider .
  1. 验证镜像是否存在
1
docker images
  1. 运行容器
1
docker run --name spider-project -p 8000:8000 -v E:/MyDockerImages/SpiderProject:/app pyspider:latest

到此就没问题了,如果想进入容器就执行

1
docker exec -it spider-project sh

可以输入 exit 命令来退出容器 shell,或者关闭终端窗口。

在pycharm中使用docker

点击file -> settings -> Project: -> Python Interpreter 下拉菜单选择Show All… 点击add -> on docker 在这一步可以选择构建好的image和选择dockerfile让pycharm来帮助构建镜像

image-20240622184504677

之后下一步就能看到容器中环境:

image-20240622184602710

到此就大功告成了。

效果:

image-20240622184948824

可以看到我们执行js的代码也是没有问题的,因为在自定义的镜像中添加了nodejs。


使用docker自定义python爬虫镜像
https://redballoom.github.io/posts/使用docker自定义python爬虫镜像/
作者
redballoom
发布于
2024年6月22日
许可协议