请教爬虫代理方案,成本太高了!
想做亚马逊爬虫,用国内隧道代理和国外动态数据中心 IP 、动态住宅 IP 进行了测试:国外动态住宅 IP 最优,但价格最贵;国外动态数据中心 IP 也可以,但价格也贵,普遍是 8 元/1GB ,这样我的成本是 0.004 元/1page ,成熟竞品售价是 0.001 元/1page ,哪怕是 2 元,我的成本也跟竞品的销售价一样!根本赚不了钱。还是说我需要考虑整体盈利模式?成熟竞品的收费模式大概是:1. 基本会员:几十元一个月,可以查询数据,不可以爬取数据。2. 付费购买流量进行爬取:98 元,可爬 10w 数据,0.001 元/1page ,每天最高可爬 10w 。对此我的理解是:让用户付费购买爬取,爬取的数据更新到数据库,这部分数据也可以通过会员费来实现一部分盈利。但我感觉数据肯定是要达到一定量才能收费,否则用户开了会员能查的数据不多,就没意义了。所以一开始只能做爬取,所以要想盈利,就只能考虑如何降低流量成本?也测试了快代理的国内隧道代理,偶尔能爬,昨天下午爬了 1500 页也没事,但是晚上就彻底不行了,各种重定向、响应超时,但是换国外 IP 就没问题。疑问:1. 有没有便宜的国外 IP 代理方案呢?2. 国内 IP 为什么爬不了,用了 Playwright 作为下载中间件也不行,难道国内 IP 容易被亚马逊反爬虫识别?3. 还是说我应该放弃这个爬虫方案?我看有些竞品是让用户自己电脑本地爬,但这样太慢了!但开发简单点,爬虫还要弄集群,负载均衡,数据量大了感觉数据库也是个问题,这方面都没做过,头大。爬虫新手,希望有大佬能解解惑,感激不尽!
我们两套方案 一套是用机场 后端不断自动切换 IP 还有一套就是买数据中心代理 买了很多家 然后做负载均衡轮训
国内 IP 毕竟还是会涉及到过墙问题,卡顿慢很正常做大的那些主要还是靠量来堆,以及提高代理 IP 重用率,用各种来源的 IP (甚至有不光彩的手段,比如盗用家宽),等等
2 楼说的对,业内大玩家基本都是通过肉鸡降成本的,这不是常规技术手段能解决的问题。
机场我也想到了,晚点试一试;数据中心的代理是包月吗还是按量?感觉对我这一个人瞎搞的成本还是太高了😂
好吧,我说他们成本怎么那么便宜,看来这比我想象中的复杂多了
#4 数据中心代理这个都有 主要是找相对便宜的
一般动态住宅 IP 都有无限制流量套餐,大概$200 一天,有并发数和总带宽限制。按照流量买的越多越便宜,一般在$0.8/gb 左右,还是推荐买动态住宅 IP 。
看看 ipv6 呢?
亮数据价格 get.brightdata.com/log
开 100 个 tor
可以试试 ipv6, 有些服务商的服务器 v6 都是给整个段的 还不贵但是不懂 ISP 的 ip 会不会有影响
op 代理 IP 哪家买的 可以推荐一下吗
aws 、digitalocean 、linode 这些 ip 能不能爬?他们的都可以很容易的换 IP比如用 aws ,可以创建一个实例负责调度和数据库其他的用 spot 实例,下载流量不算钱,同一个区域内的流量也是免费的
别拿一个 IP 连续爬,分布负载均衡一下。
好的谢谢 对个人来说还是太贵了 ipv6 不知道可不可行,晚点试试 tor 是啥?
我还没买,有些提供免费测试的 目前只是用代理的 api 返回的 ip 直接随机爬 感觉不可行啊,换 ip 的操作不麻烦吗?
可以通过 api 操作
亚马逊卖家, 他们基本都是用卖家精灵这些非常专业的工具.你需要考虑你的用户是谁? 国内的卖家么, 他们都很抠的希望能白嫖. 如果你的目标用户是国外的卖家, 他们的付费意愿还是比较强的, 但你需要解决如何获取流量并转化流量.
不是做后端的,看了一下文档挺复杂的,留作后备计划后续再了解了😂 流量转化这些问题是后面的事了,😂目前得先把这个可行性问题解决了
大佬国外的隧道代理在用哪家?我也参考一下
本文主要起因是,一次在微博上和朋友关于嵌套好几层的if-else语句的代码重构的讨论(微博原文),在微博上大家有各式各样的问题和想法。按道理来说这些都是编程的基本功,似乎不太值…
背景: 我是 iPhone / Android 双持用户, 有时候经常会用 Android 拍照,并不定期备份到电脑上。 但使用 Android File Transfer 时…
预算 1000-2000 左右(可以稍微超一点 备用机 现在 PE 系统停更了。选择 Los 吧。安卓刷机迟早要完 只要能解锁,不都能刷 gsi ,xda 刷机不还生龙活…