博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
使用python获取微医数据
阅读量:4983 次
发布时间:2019-06-12

本文共 533 字,大约阅读时间需要 1 分钟。

用到的包:

  • BeautifulSoup
  • pymysql
  • requests
  • json

碰到的问题:

1.医生查询分页数据不能超过38页,超过无法返回数据

2.某些字段对应的html元素包含一些无效的class,导致通过BeautifulSoup获取不到该字段

3.按地区搜索医院列表的分页数据不能超过100页,超过返回的重复数据,导致需要手工删除hospital,department两张表code重复的记录

4.一个医生可能出现在多个科室,所以按科室获取医生列表并插入数据库时需要判断重复

5.按地区查找医院时,香港、澳门两个城市的地区查出来的是广东的医院,导致产生大量重复的医院,需要手工删除

6.患者评论数据分页数据  需要获取签名+时间戳才能取到下一页数据,并且未登录只能获取前5页数据,要获取所有数据需要登陆, 登陆以后最多能取60页数据

7.登陆页面需要滑动验证,如果不想花时间研究登陆,可以直接在浏览器中登陆一个微医账户,然后把登陆后的cookie保存下来传给request请求

附代码:https://github.com/xienb/weiyi.git

转载于:https://www.cnblogs.com/xienb/p/11328483.html

你可能感兴趣的文章
Spring Controller RequestMapping
查看>>
socket
查看>>
小程序 跳转问题 (来源见注明)
查看>>
JBPM4入门——9.自动节点单线执行
查看>>
//停止关联的进程
查看>>
SQL 生成公曆和農曆對照數據,公曆查找農曆和農曆查找公曆函數
查看>>
为何场效应管要用UGD与UGS(off)来比较判断夹断情况?
查看>>
.pem证书转xml格式字符串(.net)
查看>>
js构建ui的统一异常处理方案(二)
查看>>
三线程连续打印ABC
查看>>
ECharts
查看>>
初识网络爬虫
查看>>
git push 时不用每次都输入密码的方法
查看>>
54点提高PHP编程效率 引入缓存机制提升性能
查看>>
编解码-marshalling
查看>>
CDN原理
查看>>
java.lang.outofmemoryerror android
查看>>
coding
查看>>
省市联级(DataReader绑定)
查看>>
20165219 课上内容补做
查看>>