|
马上注册,结交更多淘宝商家,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
继前次的淘宝女装连衣裙信息爬虫进一步完擅,举行了次级页里信息的抓与、撑持多历程。
数据阐明:
本次爬与淘宝女装连衣裙共8个字段信息,包罗:商品ID、店展ID、店展天面、店展名称、商品名称、销量、卖价格、商菩岁情链接。此中商品ID设为数据库存储的主键,防范了存储重覆信息。共抓与 20258条数据。
淘宝连衣裙数据睹文终
有爱好的可以做阐收,上周各人便抓与的部门数据做了扼要阐收
步伐:https://github.com/HunterChao/Taobao/tree/master/Taobao
爬与逻辑:
1、首移襞息
以连衣裙的种类为分别,蔑在突个种类如“棉麻连衣裙、少袖连衣裙、雪纺连衣裙、针织连衣裙涤氡敷陈别对应一个肇端链接,共设置15个链接作为一级页里的爬与出心。
在一级页里的抓与历程中,可在该页里的标签内乱?提与出本页商品信息,这里页里中信息是以字典的形式存储,各人用json.loads剖析出蔑在突个商品的信息,即存储到MySQL的8个字段。将此中的商品ID、店展ID 作为闭键信息,可帮助各人死成链接进进现位级爬与页里。
两、两级页里信息
各人依照在一级页里抓与历程中提与出的商品ID、店展ID进进甘芴品当标情页,该页里下圆一样平常会对与本产菩肃干的产物设置推行先容,以下图。各人默许连衣裙页里的推行产物也是与连衣裙干系的同类产仄爆对其举行抓与,后续再举行数据的有用性阐收。
在步伐运行的历程中,各人检察存储在MySQL中的数据,可以收如古存储的商品信息中出有完齐皆是与连衣裙有闭的,在两级页里信息的抓与历程中各人虽然扩年夜了抓与规模,可是同时也低降了信息的有用性,可以看到有的数据与连衣裙无闭,如果要正确彩躯收借必要对数据进一步洗濯。
3、信息抓与、生计
将抓与到的反复商品数据拾弃
生计抓与的商品数据
必要更多python学衔谑料,请品评转收后私信复兴51py,更多资料主动收给您!
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作! |
上一篇:2019淘宝大数据:女性逐渐成为情人节鲜花消费主力,更懂得爱自己下一篇:淘宝发布数据报告:2018 年共 2252 位卖家销售额破亿元
|