11.无代码爬虫八爪鱼采集器抓取网站信息的实操案例——选择目标网站、提取标题、发布时间、评论内容、作者昵称、点赞数量等字段

首先,多数情况下免费版本的功能,已经可以满足绝大多数采集需求,想了解八爪鱼采集器版本区别的详情,请访问这篇帖子: https://blog.csdn.net/cctv1123/article/details/139581468

八爪鱼采集器免费版和个人版、团队版下载icon-default.png?t=N7T8https://affiliate.bazhuayu.com/retrieve

今天我们以采集哔哩哔哩的评论作为八爪鱼采集器的案例进行讲解,提取一级评论中的发布者昵称、发布时间、评论内容、点赞数

首先采集三板斧我们回忆一下,翻页、循环、数据采集

受官方邀请做直播讲课的时候,做了一整套的ppt,如果需要可以联系我:tktk6622 免费索取

填入网址

预登陆

设定滚动翻页

使用自动识别网页内容或者执行添加滚动循环都可以

配置一些细节

设置循环列表

自动识别网页很多时候不能正确的获取到自己要点信息字段,那就手动修改吧

添加一个循环,调整到不固定元素列表,因为评论有一级评论和二级评论的区别,为了方便讲解,我们这边只提取一级评论(二级评论其实是可以采集的,也能够有关联的方式在一起采集)

一级评论的xpath代码是这个://div[@class="root-reply-container"]

提取循环中的数据字段

昵称xpath://div[@class="user-name"]

评论://span[@class="reply-content"] 

时间://span[@class="sub-reply-time"]

点赞://span[@class="reply-like"]

(*注意这是结合上一个循环的拼接xpath)

进行测试数据采集

查看导出的数据情况

采集的数据导出到表格全都正常,没有乱码。这个采集需求圆满搞定。

需要这个采集规则,可以在我的B站资源列表中下载

做个总结,这篇教程再次通过实例讲解工作流程如何设置翻页、循环、数据提取,并给出来循环列表的xpath。下一节课我们说说:二级页面数据提取与细节页面处理——点击链接进入详情


这贴是教程专栏的目录链接:

八爪鱼采集器入门基础教程,日常更新中-CSDN博客

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/716543.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

应变玻璃合金是航天产业重要弹性材料 研究开发意义重大

应变玻璃合金是航天产业重要弹性材料 研究开发意义重大 应变玻璃,是一种形状记忆合金,为纳米级材料,其短程有序晶格应变区域呈冻结状态,具有典型的玻璃化转变特征,可以对外界刺激产生应变反应,也称为应变玻…

有没有硅基生命?AGI在哪里?

摘要 随着科技的飞速发展,人工智能(AI)和生命科学的探索逐渐成为人们关注的焦点。其中,关于硅基生命的可能性与AGI(Artificial General Intelligence,即人工通用智能)的实现,更是引…

C++ -- 红黑树的基本操作

目录 摘要 基本规则 基本操作 利用Graphviz 库 总结 摘要 红黑树是一种自平衡的二叉搜索树,它在插入和删除节点时,通过颜色和旋转操作保持树的平衡,确保插入、删除和查找的时间复杂度都是 (O(log n))。红黑树的每个节点都有一个颜色属性…

umijs脚手架

node 16.9.1 注意node版本的问题 node 18.20.0 这个问题其实是node与中端连接出错,无法初始化TTY(终端设备),可以用cmd命令行来创建umi项目 nvm管理node https://github.com/coreybutler/nvm-windows/releases 这是nvm-window…

【CRASH】freelist异常导致的异常地址访问

freelist异常导致的异常地址访问 问题现象初步分析继续深入新的发现沙盘推演寻找元凶分析代码后记 问题现象 项目一台设备几天内出现了两次crash,都是异常地址访问导致。 [66005.261660] BUG: unable to handle page fault for address: ffffff8881575110初步分析…

哪个品牌台灯护眼效果好?几款护眼效果好的专业护眼灯品牌推荐

随着科技的不断发展和生活方式的改变,儿童青少年近视率的增长趋势引起了人们的关注。近视不仅对孩子们的视力健康构成威胁,还可能对他们的学习和日常生活带来不便。因此,如何有效地预防和改善儿童青少年的视力问题成为了一个亟待解决的课题。…

MES里面有质量模块,为什么还要实施质量管理软件(QMS)

为什么一些知名头部的大厂,已经有了MES , 却还都去实施了质量管理软件(QMS)? 答:是这些MES里面的质量模块不能满足客户的需求。 那么来看看,从质量管理的角度来看,QMS软件系统是什么样子的? …

《现代通信原理与技术》码间串扰和​​​​​​​无码间串扰的眼图对比实验报告

实 验:码间串扰和无码间串扰的眼图对比实验报告 摘 要: 在数字通信系统中,码间串扰(Inter-Symbol Interference, ISI)是影响信号质量和系统性能的重要因素之一。本实验通过MATLAB软件生成并对比了受码间串扰影响和未…

MBTI:探索你的性格类型

人不走空 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌赋:斯是陋室,惟吾德馨 目录 🌈个人主页:人不走空 💖系列专栏:算法专题 ⏰诗词歌…

VL53L4CD TOF开发(3)----检测阈值

VL53L4CD TOF开发.3--检测阈值 概述视频教学样品申请完整代码下载实现demo硬件准备技术规格系统框图应用示意图生成STM32CUBEMX选择MCU串口配置IIC配置 XSHUTGPIO1X-CUBE-TOF1app_tof.c详细解释主程序演示结果 概述 最近在弄ST和瑞萨RA的课程,需要样片的可以加群申…

RabbitMQ安装配置,封装工具类,发送消息及监听

1. Get-Started docker安装rabbitmq 拉取镜像 [rootheima ~]# docker pull rabbitmq:3.8-management 3.8-management: Pulling from library/rabbitmq 7b1a6ab2e44d: Pull complete 37f453d83d8f: Pull complete e64e769bc4fd: Pull complete c288a913222f: Pull complet…

第104天: 权限提升-Linux 系统环境变量定时任务权限配置不当MDUT 自动化

目录 案例一:Linux-环境变量文件配合 SUID-本地 案例二:Linux-定时任务打包配合 SUID-本地 案例三:Linux-定时任务文件权限配置不当-WEB&本地 案例四:Linux-第三方软件 MYSQL 数据库提权-WEB&本地 隧道出网 手工提权…

解决外网404:清除DNS缓存并配置host主机使用知名公共DNS服务

在 Windows 上清除/刷新 DNS 缓存 对于所有Windows版本,清除DNS缓存的过程都是相同的。你需要使用管理员权限打开命令提示符并运行ipconfig /flushdns。 浏览器清除DNS缓存 大多数现代的Web浏览器都有一个内置的DNS客户端,以防止每次访问该网站时…

男士穿什么内裤最透气?舒适透气的男士内裤推荐

作为一名专业的测评博主,我深知男士内裤对于日常穿着的重要性。因此,我决定深入挖掘男士内裤的细节之处,为大家带来最真实、最客观的评测体验。通过对比不同品牌、不同材质的男士内裤,我希望能帮助大家找到真正适合自己的那一款。…

Plonky3和Binius中的Brakedown多项式承诺协议解析及优化(3)

3.2 Expander Graph and Linear-Time Encodable Linear Code 线性时间编码是线性纠错码的一种,核心是扩展图(Expander Graph),如下图所示: Figure 3 Expander Graph Expander Graph是一种具有强连通性的稀疏图&#…

CV预测:快速使用DenseNet神经网络

AI预测相关目录 AI预测流程,包括ETL、算法策略、算法模型、模型评估、可视化等相关内容 最好有基础的python算法预测经验 EEMD策略及踩坑VMD-CNN-LSTM时序预测对双向LSTM等模型添加自注意力机制K折叠交叉验证optuna超参数优化框架多任务学习-模型融合策略Transform…

App首页,美不胜收呀,虽说app没落了,但设计思想通用呀。

一个精心设计的首页仍然能够吸引用户的注意力。一个美观而富有创意的首页可以提升用户体验,增加用户的留存率和活跃度。 当我们打开一个app时,首页是用户第一眼看到的界面,因此设计师需要在有限的空间内展示出app的核心功能和特点。一个好的首…

短视频五大要素:成都科成博通文化传媒公司

短视频五大要素:揭秘成功视频的关键 在数字媒体时代,短视频已成为人们生活中不可或缺的一部分。无论是社交平台的日常分享,还是品牌营销的重要工具,短视频都以其短小精悍、内容丰富的特点赢得了广泛的关注和喜爱。然而&#xff0…

《数据安全产品及服务购买决策参考》

“新全球化”下的数据安全威胁态势与挑战 随着中国企业数字化转型和数字经济的高速发展,数据要素和数据安全的战略价值正不断提升。 同时,在“脱钩”与“新全球化”的全球政治经济博弈中,中国作为全球重要的数据安全市场之一,其…

软件构造 | Equality in ADT and OOP

软件构造 | Equality in ADT and OOP 🧇1 Three ways to regard equality 1.1 Using AF to define the equality ADT是对数据的抽象, 体现为一组对数据的操作 抽象函数AF:内部表示→抽象表示 基于抽象函数AF定义ADT的等价操作&#xff0…