www.cbirc.gov.cn/cn/view/pages/ItemList.html?itemPId=923&itemId=931&itemUrl=zhengwuxinxi/xingzhengchufa.html&itemName=%E8%A1%8C%E6%94%BF%E5%A4%84%E7%BD%9A

需求:想要获取 2020 年-2023 年金融监管总局(含地方分局)所有处罚公开表
问题 1:看了下格式好像不完全统一,大部分是表格,也有全文本,保存为什么格式比较好,会不会比较难搞?
问题 2: 合理收费大概是多少

敢爬 gov ,纯属作死

按年收费

建议不收费

有啥问题吗1. 公开信息2. 没违反网站数据使用说明3. 没侵权行为

弱弱问下,这种 gov.cn 的公开数据真的不能被爬嘛?老美的*.gov 应该随便爬吧

有机构专门做过监管处罚分析的,所以肯定都有人爬过的 www.pwccn.com/zh/insurance/publications/analysis-regulatory-penalties-insurance-dec2021.pdf

粗略看了一下,有 JSON 数据,有附件文件,没验证码,代码没啥加密,不包含后期统一格式数据提取的话,150-300 可接受,超 500 就纯大冤种了,按我自己的时间性价比的话 200-250 (我不接单!!!我不接单!!!我不接单!!!我只是有爬虫经验)
好的,谢啦,如果有大佬能接单也欢迎联系哈

我知道的风险有两个:1. 如果没控制好请求频率,导致网站无法访问.那就是严重破坏计算机系统罪.2. 如果网站有漏洞,能爬到一些不能公开发布的文件.那就是非法取得国家秘密罪.建议找个境外的老哥接单.🤣

做爬虫被判刑的又不在少数,建议去了解下

中国讲这些是没用的,说你犯法就犯法

然后被承德的老哥们接单

风险太高。刑不可知,威不可测

那么大风险才几百块,懒得接,哈哈哈

爬着爬着 处罚名单里面应该就有自己的信息了

码农先做爬虫最好就是免费,一收费风险会直线上升。一个没任何加密的爬虫项目顶天收 1~2k ,你也发不了财,直接变成一个潜在的背锅侠。

主要是含表格,而且各地分局不一样,这个比较扯。TB 和 XY 都有商务接单,去询个价格呗。

兄弟胆子有点大啊👍

别在网上乱说,用个代理爬,谁知道你爬的,没啥风险,而且这种数据公开的

爬取数据须遵规 www.spp.gov.cn/llyj/202202/t20220210_543998.shtml从三个方面划定数据爬虫技术合法使用的边界:一是合法的网络数据爬取应限于对开放数据的获取。如果网络爬虫获取非开放的数据,便涉嫌违法甚至犯罪;二是合法使用的数据爬虫技术不应具有侵入性,可以说,爬虫的侵入性是其违法性的主要体现;三是数据爬取应当基于正当目的,对开放数据的获取可能因不符合正当目的而具有违法性。对开放的非商业性数据的爬取应当要求符合公共利益之根本目的。对开放的商业性数据的爬取则可借鉴版权法上的合理使用原则,要求基于合理利用目的。

不收费没风险,收了钱如果 OP 因为某些原因被抓,会顺着银行卡找过来。

做好自己这边的风险隔离,之后就干呗,做好爬虫的保险装置,gov 流氓级别,祝你好运

大多数是第二条,没控制好频率,搞成压力测试

坏消息:爬到自己了

博客园吐槽百度爬虫 mp.weixin.qq.com/s/UESyzaqT38dc2WWwQbDq2Q

关键频率一定要低你要知道, 政府网站大多都是 N 年前随便凑得系统根本没任何高并发能力, 可能 10 个并发就能拖垮, 到时候你就麻烦了

爬=攻击 等着那啥吧...

很多事都是秋后算账,当时你觉得没事,事后揪住这个小辫子搞你一波

政府小水管要是崩了必抓人

时间不值钱?写这种定制需求代码要稳定运行怎么也得一天吧,不是出于学习爬虫目的真懒得写,上班的很难为了几百块写这些代码

可以加我微信聊

1 分钟请求一次应该不要紧

还是留给你做吧.

可能水平问题吧,这样的网站,只抓数据的话,代码 + 调试,不超两小时。。。如果有明码 JSON ,不需要破解 JS 的情况下,这种网站我中途都不需要调试的,20-30 分钟写完代码,一次就过😂

这类单通常不具备完善的合同制或者压根没合同,而且从我这么久的经验来说,绝大部分人(客户)都对需求说明比较弱,很多东西说不清楚,所以需求沟通时间成本和中间各种琐碎皮毛的修改才是占用时间的大头,不是代码时间,核心代码 1/3 时间,其他沟通+修改 2/3 时间,这都常有的事。屁大点的爬虫,你以沟通等的理由说加钱吧,客户也不会接受,不加钱吧,自己也不划算。

为了几百块。。。属实没必要。。。

OP 这么久也不回复也不留账号,估计自己搞了吧

欲练爬虫,先学刑法

不懂就问。那如果比如有一个人闲的蛋疼,自己手动访问一个一个下载下来,这合法吗哈哈哈

#25 不知道博客园是啥,但是名字语义分析,结合这篇文章,感觉这博客园的技术实力好弱鸡的感觉……都不如我草台班子搞得巨型医院门户(以前带预约挂号 qps 起飞)

建议自学爬虫,为了这几百块爬国家网站,是多缺钱

这个收费千儿八百都正常,关键是 gov 没几个人敢碰而已。但是看了下量不大,手工复制粘贴都完事儿了= =

哪怕境外老哥接单你指挥和贩售你同样有问题的你永远不知道它的并发能有多低,随便写出一个 bug 导致崩了,人家直接甩锅给你,刑事责任