阅读:1884回复:4

我利用宝塔上面的操作来进行定时采集操作失败

楼主#
更多 发布于:2021-01-15 06:55
我在网络上面看到海洋采集教程 还发了一个SHELL命令,但是我在宝塔里面该修改的都修改的  但是不行
我在全自动设置好像也不行 但是是什么问题啊老大,看看代码这个是我设置的


#!/bin/bash########################################################
# 程序名称: 海洋CMS自动采集脚本# 版本信息:seacmsbot/ v2.0
# 发布链接: https://www.seacms.net/post-update-92579.htm# 使用方法:直接复制代码到宝塔计划任务shell脚本内容里添加每小时任务使用
# 更新时间:2019.9.26##########################################################
# ①请修改下面的网站域名及管理目录web_site = "https://xxx.xxx.xxx/admin_reslib2.php"

# ②请修改下面项内容为"admin_reslib2.php"里设置的访问密码(默认为系统设置的cookie密码)
web_pwd = "8888e82e85bd4540f0defa3fb7a8e888"

# ③下面项内容为资源站每日采集链接地址列表,请自行修改,每行一条,可添加多个,前后需添加引号。# 每日采集链接获取方法:选择"后台-采集-资源库列表",复制资源站右边的"采集每天"的链接地址,去掉?前面的内容。
web_api = ( '?ac=day&rid=6&url=https://xxx.xxx.com/api.php/Seacms/vod/') #我把地址给隐蔽掉了,但是我当天的采集的格式就是VOD/目录的形式, 没有你们那样s_ldgm3u8_sea.php这样的文件格式# 模拟用户浏览器ua,请勿随意修改,以免被目标防火墙拦截!
web_ua = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko)Chrome / 76.0
.3809.100
Safari / 537.36seacmsbot / 1.2;
"

# 采集单页function
get_content(){
    echo"正在采集第$page页..."
# echo  " get_content: --->url:--->$1"cResult =$(curl - -connect - timeout 10 -m 20  -k -s   -L -A "$web_ua"  "$1")
echo $cResult | grep - q"采集"
# echo  -e  "$1\n$cResult"if ["$?" = "0"]; then
next_content"$cResult"
elseecho - e
"采集失败,请检查设置!\n失败链接-->$1\n返回信息-->$cResult\n采集结束,共0页"fi
}# 采集下页
functionnext_content()
{    # 统计数据
    Result =$(echo "$1" | tr "
" "\n")a =$(echo "$Result" | grep -c  "采集成功")
b =$(echo "$Result" | grep -c  "更新数据")c =$(echo "$Result" | grep -c  "无需更新")
d =$(echo "$Result" | grep -c  "跳过")echo
"采集成功-->已更$c部,新增$a部,更新$b部,跳过$d部"let
add +=$alet
update +=$blet
none +=$clet
jmp +=$d# 检测并采集下页
next_url =${1  ##*location.href=\'}next_url =${next_url % %\'*}
# echo $next_urlif ["${next_url:0:1}" = "?"]
thenlet
page + +get_content
"$web_site$next_url"else
echo"采集结束,共$page页"
fi}
# 脚本入口echo
"海洋CMS自动采集脚本开始执行 版本:v1.2"starttime =$(date +% s)
update = 0  # 更新add = 0  # 新增
none = 0  # 无变化jmp = 0  # 跳过
for url in ${web_api[@]};do
if[[! -z $url]]then
web_param="$web_site$url&password=$web_pwd"page=1
echo "开始采集:$url"get_content $web_param
fidone
endtime=$(date + % s)echo "============================"
echo "入库-->$add部"echo "更新-->$update部"
echo "跳过-->$jmp部(未绑定分类或链接错误)"echo "今日-->$[none+add+update]部"
echo "============================"echo  "全部采集结束,耗时$[endtime - starttime]秒"
1楼#
发布于:2021-01-19 02:40
还是没人能说一下全自动采集的这个功能吗?采集的这个基本都无法实现能不能更新一下这个定时采集的 在没有能无人看的情况下自动更新
2楼#
发布于:2021-01-19 12:40
该功能一切正常,不能使用全部是因为个人不够细心的原因,另外部分人的Python环境有问题。懒得一一解释了。
3楼#
发布于:2021-08-25 01:48
没有安装宝塔的可以用我给新手写的软件挂机 帖子跳转地址 https://www.seacms.net/p-482
业务联系Q(24334542) https://www.dw700.com/
4楼#
发布于:2024-05-13 11:00
更换浏览器UA后测试采集成功
游客

返回顶部