【python爬虫案例】爬了上千条m端微博签到数据

news/2024/6/17 22:25:20 标签: python, 爬虫, python爬虫, 微博爬虫

一、爬取目标

大家好,我是@马哥python说,一枚10年程序猿。

今天分享一期python爬虫案例,爬取目标是新浪微博的微博签到数据,字段包含:

页码,微博id,微博bid,微博作者,发布时间,微博内容,签到地点,转发数,评论数,点赞数

经过分析调研,发现微博有3种访问方式,分别是:

  • PC端网页:https://weibo.com/
  • 移动端:https://weibo.cn/
  • 手机端:https://m.weibo.cn/

最终决定,通过手机端爬取。

这里,给大家分享一个爬虫小技巧。当目标网站既存在PC网页端,又有手机移动端,建议爬取移动端,原因是:移动端一般网页结构简单,并且反爬能力较弱,更方便爬虫爬取。

二、展示爬取结果

通过爬虫代码,爬取了“环球影城”这个关键字下的前100页微博,部分数据如下:
爬取结果
一共翻页了100页,大概1000条左右微博。

三、讲解代码

首先,导入需要用到的库:

python">import os  # 判断文件存在
import re  # 正则表达式提取文本
import requests  # 发送请求
import pandas as pd  # 存取csv文件
import datetime  # 转换时间用

然后,定义一个转换时间字符串的函数,因为爬取到的时间戳是GMT格式(类似这种:Fri Jun 17 22:21:48 +0800 2022)的,需要转换成标准格式:

python">def trans_time(v_str):
    """转换GMT时间为标准格式"""
    GMT_FORMAT = '%a %b %d %H:%M:%S +0800 %Y'
    timeArray = datetime.datetime.strptime(v_str, GMT_FORMAT)
    ret_time = timeArray.strftime("%Y-%m-%d %H:%M:%S")
    return ret_time

定义一个请求头,后面发送请求的时候带上它,防止反爬:

python">headers = {
    "User-Agent": "Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.51 Mobile Safari/537.36",
    "accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9",
    "accept-encoding": "gzip, deflate, br",
}

打开chrome浏览器,在m端网址搜索"环球影城",选择地点,选择第一条搜索结果"北京环球影城",如下:
搜索地点

获取地点对应的containerid,后面会用到,爬虫代码如下:

python">def get_containerid(v_loc):
    """
    获取地点对应的containerid
    :param v_loc: 地点
    :return: containerid
    """
    url = 'https://m.weibo.cn/api/container/getIndex'
    # 请求参数
    params = {
        "containerid": "100103type=92&q={}&t=".format(v_loc),
        "page_type": "searchall",
    }
    r = requests.get(url, headers=headers, params=params)
    cards = r.json()["data"]["cards"]
    scheme = cards[0]['card_group'][0]['scheme']  # 取第一个
    containerid = re.findall(r'containerid=(.*?)&', scheme)[0]
    print('[{}]对应的containerid是:{}'.format(v_loc, containerid))
    return containerid

点击第一个地点"北京环球影城",跳转到它对应的微博签到页面:
微博签到页

首先打开开发者模式,然后往下翻页,多翻几次,观察XHR页面的网络请求:
开发者分析

根据分析结果,编写请求代码:

python"># 请求地址
url = 'https://m.weibo.cn/api/container/getIndex'
# 请求参数
params = {
    "containerid": containerid,
    "luicode": "10000011",
    "lcardid": "frompoi",
    "extparam": "frompoi",
    "lfid": "100103type=92&q={}".format(v_keyword),
    "since_id": page,
}

其中,since_id每次翻页+1,相当于页码数值。
请求参数,可以在Payload页面获取:
请求参数
下面开始发送请求并解析数据:

python"># 发送请求
r = requests.get(url, headers=headers, params=params)
print(r.status_code)  # 查看响应码
# 解析json数据
try:
    card_group = r.json()["data"]["cards"][0]['card_group']
except:
    card_group = []
定义一些空列表,用于后续保存数据:
time_list = []  # 创建时间
author_list = []  # 微博作者
id_list = []  # 微博id
bid_list = []  # 微博bid
text_list = []  # 博文
text2_list = []  # 博文2
loc_list = []  # 签到地点
reposts_count_list = []  # 转发数
comments_count_list = []  # 评论数
attitudes_count_list = []  # 点赞数

以"微博博文"为例,展示代码,其他字段同理,不再赘述。

python"># 微博博文
text = card['mblog']['text']
text_list.append(text)

把所有数据保存到Dataframe里面:

python"># 把列表数据保存成DataFrame数据
df = pd.DataFrame(
    {
        '页码': page,
        '微博id': id_list,
        '微博bid': bid_list,
        '微博作者': author_list,
        '发布时间': time_list,
        '微博内容': text2_list,
        '签到地点': loc_list,
        '转发数': reposts_count_list,
        '评论数': comments_count_list,
        '点赞数': attitudes_count_list,
    }
)

最终,把所有数据保存到csv文件:

python"># 表头
if os.path.exists(v_weibo_file):
    header = False
else:
    header = True
# 保存到csv文件
df.to_csv(v_weibo_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
print('csv保存成功:{}'.format(v_weibo_file)))

说明一下,由于每次保存csv都是追加模式(mode=‘a+’),所以加上if判断逻辑:

如果csv存在,说明不是第一次保存csv,不加表头;
如果csv不存在,说明是第一次保存csv,加上表头。

如此,可避免写入多次表头的尴尬局面。

整个代码中,还含有:正则表达式提取博文、爬取展开全文、从博文中提取签到地点、数据清洗(删除空数据、去重复)等功能,详细请见原始代码。

四、同步视频

演示视频:https://www.bilibili.com/video/BV1Pj411K7Xr/

五、同步公号

首发公号:【python爬虫案例】爬了上千条m端微博签到数据!


您好,我是@马哥python说,全网累计粉丝数万,欢迎一起交流python技术!

各平台搜索 马哥python说,获取完整源码:知乎、哔哩哔哩、博客园、稀土掘金、51CTO、小红书、新浪微博。


http://www.niftyadmin.cn/n/4959681.html

相关文章

arcgis:画一幅自己城市的shp地图

首先打开ArcGis10.6,点击带黄底的小加号,添加底图。 可以选择中国地图彩色版,然后双击,转动鼠标滑轮找到属于自己的城市。 点击-目录,在新建的文件夹里右击-新建-shapefile。 格式选择折线,先把主要河流道路…

PSP - 蛋白质结构预测 AlphaFold2 的结构模版 (Template) 搜索与特征逻辑

欢迎关注我的CSDN:https://spike.blog.csdn.net/ 本文地址:https://spike.blog.csdn.net/article/details/132427617 结构模版 (Template) 是一种已知的蛋白质结构,可以作为 AlphaFold2 蛋白质结构预测的参考,AlphaFold2 可以从多…

Consistency Models终结扩散模型

最近看到一篇论文,觉得特别有意思,并且在学术界引起了不小的动静,他就是一致性模型,据说图像生成效果快、质量高,并且还可以实现零样本图像编辑,即不进行一些视觉任务训练,可以实现图像超分、修…

等级查询发布助手

考试成绩的发布是学校教学工作中的一项重要任务,传统的手工录入、统计和发布成绩的方式既耗时又容易出错。为了提高老师的工作效率和准确性,推荐老师们试一试易查分考试等级发布系统。 易查分是一个查询/发布发布平台 1. 快速高效:老师只需将…

使用 Feature Flags 与可观测工具实现数据库灰度迁移

场景描述 很多企业会遇到数据库升级、或数据库迁移的情况,尤其是在自建数据库服务向云数据库服务、自建机房向云机房、旧数据库向新数据库迁移等场景。 然而,我们需要在整个移植过程中保证其稳定性、避免数据遗失、服务宕机等情况,最常见的移…

LeetCode——二叉树篇(六)

刷题顺序及思路来源于代码随想录,网站地址:https://programmercarl.com 106. 从中序与后序遍历序列构造二叉树 给定两个整数数组 inorder 和 postorder ,其中 inorder 是二叉树的中序遍历, postorder 是同一棵树的后序遍历&…

6.ES基础概念及术语详细解读

一、Elasticsearch概述: ES是基于Lucene的搜索服务器,它提供了一个分布式多用户能力的全问搜索引擎,且ES支持RestFulweb风格的url访问。ES是基于Java开发的开源搜索引擎,设计用于云计算,能够达到实时搜索,…

网络货运平台盈利指南

8月17日,由中国物流与采购联合会主办的2023(第十五届)物流与供应链数字化发展大会在贵阳成功举办! 会议期间,数据宝作为中物联副会长单位受邀出席,并与菜鸟集团、中储、满帮、华润、货运中国、山东高速、德…