没有流量,要删库跑路了,分享一个自用的自动采集任务的脚本

零流量 5天前 422

* 针对Liunx,Windows自行扩展。

* 需要Python3支持。


* 首先根据 https://www.seacms.net/thread-938.htm 设置密码


* 脚本目录

├── README.md
├── data
│   └── job-data.txt
├── logs
│   └── job-log-2019-08-12.log
└── sbin
    └── job.py

1.data目录 job-data.txt 文件为需要采集的url地址的参数部分,一行一条 如:

    ?ac=day&rid=33uudy&url=http://cj.156zy.me/inc/seacmsapi.php&password=你的密码

    ?ac=day&rid=zuikzy&url=http://cj.zuikzy.com/inc/seacmsapi.php&password=你的密码

2.sbin目录 job.py 为脚本文件:

#!/usr/bin/python
# -*- coding: utf-8 -*-
import datetime
import requests
web_site = 'http://你的域名/你的后台地址/admin_reslib2.php'
to_day = datetime.datetime.now()
content_str = "location.href='"
def get_content(url):
    # print('get_content: ---> url: ---> %s' %(url))
    r = requests.get(url)
    content = r.content.decode('utf-8')
    # print('get_content: ---> return: ---> %s...' %(content[0 : 10]))
    index_of = len(content_str) + content.index(content_str)
    next_url = content[index_of : ]
    next_url = next_url[ : next_url.index("'")]
    return next_url
fo = open("../data/job-data.txt", "r")
f = open("../logs/job-log-%s.log" %(to_day.strftime('%Y-%m-%d')), "a")
for line in fo.readlines():
    web_param = line.strip()
    if web_param != '':
        while web_param[0 : 1] == '?':
            f.write('main: ---> web_param: ---> %s%s\n' %(web_site, web_param))
            print('main: ---> web_param: ---> %s%s' %(web_site, web_param))
            try:
                web_param = get_content(web_site + web_param)
            except Exception as err:
                web_param = ''
                print('%s ---> ERROR ---> %s' %(to_day.strftime('%Y-%m-%d %H:%M:%S'), err))
                f.write('%s ---> ERROR ---> %s' %(to_day.strftime('%Y-%m-%d %H:%M:%S'), err))
        else:
            f.write("%s ---> done\n" %(to_day.strftime('%Y-%m-%d %H:%M:%S')))
            print("%s ---> done" %(to_day.strftime('%Y-%m-%d %H:%M:%S')))
f.close()
fo.close()


* 设置定时任务

1.下载解压附件脚本

2.如果是宝塔



* 可根据个人环境适当修改,不做赘述。



上传的附件:
最新回复 (7)
  • wzc 3天前
    0 引用 2
    这个东西很不错!,可以采集第二页吗?
  • zhhacker 3天前
    0 引用 3
    我试过了 可以采集第二页 巨牛皮  现在用的爽歪歪
  • 0 引用 4
    这个文件上传宝塔什么地方
  • zhhacker 1天前
    0 引用 5
    海洋真的强 这个文件上传宝塔什么地方
    首先安装Python3  可以放在网站根目录 必须给予777权限 你就是放在另外一个宝塔里面都行 
  • 0 引用 6
    zhhacker 首先安装Python3 可以放在网站根目录 必须给予777权限 你就是放在另外一个宝塔里面都行
    python3在哪安装
  • zhhacker 22小时前
    0 引用 7
    自行搜索 装起来比较麻烦 很多坑  
  • 0 引用 8
    zhhacker 自行搜索 装起来比较麻烦 很多坑
    装好了 但是采集不了,没有详细的教程
返回
发新帖