这个网站:
www.jszwfw.gov.cn/jsjis/front/login.do?uuid=qvCwgZCSeRbz&gotoUrl=aHR0cDovL3h6endmdy5qc3p3ZncuZ292LmNuL3h6empjc21od3ovZXBvaW50empjcy9wYWdlcy9hZ2VudFNwYWNlX3NlcnZpY2Uvd2FpdEJpZGRpbmc%2FendkdHV1aWQ9ZGI4NmIzNzUtYjU4NS00MmY5LWE0MjktODI4NjUyMzE2MjA2
验证码 url 是固定的,但返回结果每次都变:
www.jszwfw.gov.cn/jsjis/component/verifyCode.do?code=4&var=rand&width=162&height=55&random=0.34837298861771937
我目前是用自动化用 selenium ,识别 ocr 是腾讯云,请问怎么样才能实现 自动化填验证码?

很刑

ddddocr

直接买服务,根据难度,会比较贵。
破解验证码本身就能赚钱,技术含量也比爬虫高,甚至可能是里面技术含量最高的内容。

gov.cn ……这个不敢碰

既然都 selenium 了,直接拿到页面图片文件送进 ocr 就行了,不用关心他怎么获取的。
顺便,gov.cn 域名,你最好别搞。

V2 真是什么样的人才都有

水平越初,胆子越大

GOV.CN 你也敢弄,果然很刑

很刑很可拷

兄弟,这个 uuid 要是根据客户端生成的,你有点自我暴露了就

你想想为啥人家要弄一下验证码? 本来可以不用弄验证码的,就是因为楼主这样的憨憨 进去太多了

很刑,出来了给大家讲讲里边的生活

爬虫把政务网站搞挂被判刑的事你是没听说过?

肉身在国外随便搞,在国内老老实实。

疯了吧你。

一、找打码平台,租接口。
二、逆向网页 js ,尝试绕过对应逻辑,使其拿到对应的算法与出入参数,模拟 success 请求。类似中间人。
三、黑掉对方服务器,直接提取数据。
四、自己训练 ocr 模型。
五、放弃。

提供技术咨询,有意联系

爬政府网?你在想什么呢

刚看完新闻,年底了进去一堆爬虫小子…我还想哪来二的猛人爬个网站把自己送进去。这不就看到,有哥们急着进去吃年夜饭。

这个牛逼

狠人大帝都没你狠,怼着政府网站爬

注意原则

不要犯罪

你好,已将您的行为投递到对应网信办。

爬虫不爬 gov 这是底线

robtos.txt 没有禁止的呢,一天只读一次的呢,这种大家没有接触过吗

这种验证码没难度,但是这类网站很刑

gov 级别比 robtos.txt 制定者的级别要高,所以在 gov 眼前一切更低标准都不适用

目测这个验证码没什么难度,用 10 年前的打码技术都能轻松搞定,更何况现在有些 AI 识别和人工打码了。

还有,验证码哪个不是随机变化的,我还以为是那种 GIF 的动态验证码呢

0 难度,但是不敢

果然很刑

GOV ?老哥干的是体制内的活?
我只知道以前大学老师会去干这个

截图识别啊

放过自己吧,你看他验证码连基本的干扰都不做,随便识别的。搞 gov 很容易吃国家饭的。

大把这样的服务商,比如 www.jfbym.com/
非要自己写的话用 OCR+AI 自己调教一下也够了

建议不搞,政府的网站,你也知道的,性能不可能很好,万一被你刷崩了,估计要吃牢饭。

直接买服务,不要再验证码上折腾,掉服务商的 API 就行了。

即使你可能是某个地市或者啥的供应商,但是你用爬虫把省数据局的网站搞崩了,作为维护系统的乙方,为了能继续拿到这个项目,他们肯定想方设法甩锅,然后你一定会揪出来。然后恭喜你,你可能得进去了。

www.jszwfw.gov.cn/jsjis/component/verifyCode.do?code=4&random=0.41377034550816183
通过随机数后端计算返回验证码图片,上 OCR 吧