一般做站的人基本上都知道采集,尤其是做站群或者做论坛的人。但是现在网上的采集工具基本上都是收费的。而且不光软件收费,采集规则还收费。真是羊毛一把把的薅啊。像火车头这个软件,现在已经到 v9 了,但是经典款还是 v7.6 ,至于为什么,你们自己心里应该有数。一般采集内容大家都会,直接定义起始点和结束点就可以了。而火车头带的这个 Web发布配置管理就有点麻烦了。今天 Forece 教大家如何用设置火车头采集器 v7.6 的Web发布配置管理。针对的是 Discuz X3.2 / X3.3 / X3.4
1. 打开Web发布配置管理
打开火车头采集器 v7.6 - 工具 - Web发布配置管理
2. 新建规则
3. 网站自动登录配置
弹出一个新窗口,我们一个一个配置,先来这个登陆配置,点击自动抓取登陆数据包
4. 获取发布数据包
在之后弹出的窗口中输入 Discuz 论坛的地址(Forece 用的本地测试),然后登陆你注册过的用户。在 Post 数据框那里应该可以看到数据,然后点击确定。当然如果有的网站无法使用自动登录获取 POST 数据的话,你可以用 Fiddler 来获取 Post 数据。然后在上一个窗口中,选择粘贴 Post 数据。
Post 数据一般是长这个样的:
1 | fastloginfield=username&username=forece&password=xxxxxxxxxxxxxx&quickforward=yes&handlekey=ls |
点击确定后,你可以看到大部分表格都已经填写完毕了
我们还需要再做一下修改,需要将 username 和 password 的表单值改为 [用户名] 和 [密码],另外还需要加一个登陆失败标志码码和登陆成功标志码。
登陆失败标志码
登录失败
登陆成功标志码
1 | <script type="text/javascript" reload="1"> |
最后截图如下:
5. 网页随机值获取
然后我们进入下一个 Tab ,网页随机值获取。获取这个数值的原因是因为 Discuz 有一个叫做 formhash 的东西。这玩意还不是固定的,每次都变。
然后依次填入以下数据:
获取页面:
1 | /forum.php?mod=post&action=newthread&fid=2 |
来源页面
1 | /forum.php?mod=post&action=newthread&fid=2 |
随机值前字符串
1 | name="formhash" value=" |
随机值后字符串
1 | " |
然后将 每次请求都使用第一次获取的网页随机值 的选项关掉。
PS: 获取页面和来源页面是你发布帖子的页面。大家看到我后边的 fid=2 是我的版块名称,请根据自己 Discuz 论坛的情况配置。
最后设置截图如下:
6. 内容发布参数
内容发布参数的设置和登陆的有点类似,也是需要获取 Post 数据
登陆进论坛 - 选择发帖 - 填写标题 - 内容 - 按发帖 - 获取 Post 数据 - 按确定
Post 数据应该是这样的:
1 | formhash=9c552f8e&posttime=1507576154&wysiwyg=1&subject=%E7%81%AB%E8%BD%A6%E5%A4%B4%E8%8E%B7%E5%8F%96+Post+%E6%95%B0%E6%8D%AE%E6%B5%8B%E8%AF%95%E5%B8%96&message=by+Forece&replycredit_extcredits=0&replycredit_times=1&replycredit_membertimes=1&replycredit_random=100&readperm=&price=&tags=&rushreplyfrom=&rushreplyto=&rewardfloor=&replylimit=&stopfloor=&creditlimit=&allownoticeauthor=1&usesig=1&save= |
按完确定后,表单数据获取完毕,我们还是需要修改一些表单。
formhash: [网页随机值1]
posttime: [系统时间戳]
subject: [标签:标题]
message: [标签:内容]
发表错误标志码
抱歉,您的请求来路不正确或表单验证串不符,无法提交
抱歉,您尚未输入标题或内容
成功标志码
帖子地址复制成功
最后截图如下:
7. HTML 转换为 UBB 标签
其实到现在这个Web发布规则已经配置完毕,但是因为 Discuz 用的是 UBB 标签而不是 HTML 标签,所以我们再稍微使这个发布规则更完美一些。进入高级功能,选择操作类型,标签填写 [标签:内容] ,CMS 选择 Discuz , 按确定。
然后回到内容发布规则里,将表单message里边的值替换成{0}
8. 命名规则
9. 保存配置
按照自己的情况来配置,是 UTF-8 就填写 UTF-8,是 GBK 就填写 GBK 别搞混了。
PS: 不知道为什么保存完规则后网页随机值消失不见了,我测试的时候一直无法发布内容,重新把网页随机值加进去就好了。