对于想要打造爆款的我们来说,对标分析优质笔记至关重要。然而,小红书PC端搜索关键词时,笔记数量通常限制在200条以内,难以满足我们深度挖掘的需求。下面我将分享如何利用借助开源软件进行小红书APP端数据采集的过程,突破条数限制,获取更多爆款灵感。
下面是采集小红书APP端的步骤,设备使用windows+ios,当然如果使用mac+ios也可以,但是手机目前只能使用苹果,因为ANDROID7以后默认都是用自带证书了,我们需要花更多时间去进行配置或者root,直接使用苹果手机更简单直接。
不用担心看到下面教程很长很繁琐,实际只有在初次使用的时候才会进行下面配置,之后采集的时候我们只需要简单修改下手机端的网络代理为手动即可,全过程不需要30s。本文不会提供我目前使用的完整代码,但是根据文中提到的代码使用GPT-4和Claude完全可以复现,因为我的完整代码就是完全通过Claude生成的,几乎无改动。我也会贴出与Claude的主要对话,如果你对此感兴趣,不妨自己复现一下,想必会带来更多的收获。
目前的实现仍然为半自动,需要人手动滑动才可以进行采集,下一步的目标是结合rpa自动化批量采集多个关键词。
以下为整体过程的分享
mitmproxy:APP数据采集利器
小红书APP采集我们使用的主要是 mitmproxy,它是一款开源的支持HTTP/HTTPS的抓包工具,它能够拦截、查看、修改和重放网络流量。更重要的是,mitmproxy 支持扩展Python脚本,我们可以编写脚本对抓取到的数据进行处理,例如提取笔记内容、作者信息、点赞数等等,导出为Excel文件,异步下载无水印图文/视频等,方便我们进行笔记分析。
首先,我们需要在电脑上安装mitmproxy,并在手机上设置好代理。这一步骤可以参考mitmproxy的官方文档,比较简单,在此不再赘述。
采集步骤:
1.电脑端代理启动:在电脑上下载并安装mitmproxy,并正确启动。
2.手机端连接:将手机与电脑连接至同一网络,并在手机上设置代理,指向电脑的IP地址和mitmproxy的端口号。
3.关键词搜索:打开小红书APP,搜索目标关键词,浏览笔记列表。
4.数据采集:mitmproxy会自动抓取手机与小红书服务器之间传输的数据,包括笔记信息。
5.Python脚本处理:利用Python脚本解析抓取到的数据,提取所需信息,并导出为Excel文件或进行其他操作,例如下载无水印图片。
电脑端代理启动
Windows
点击https://mitmproxy.org/downloads/进入官网
在这选择最新版点击即可,点击对应的下载链接即可进入下载界面。根据自己的操作系统选择对应的安装包,比如你的系统是64位的Windows,则选择”mitmproxy-10.2.4-windows-x86_64-installer.exe’
点击安装后,等待安装完成。默认情况下,mitmproxy会安装在”C:\\Program Files\\mitmproxy”目录下。安装完成后我们启动mitmweb即可,启动后如下:
移动端配置代理
为了获取移动端应用的网络请求,我们需要将移动设备的网络请求转发到mitmproxy,所以我们需要进行手机端配置了,请确保手机和电脑连接在同一个WiFi热点下,这样它们就在同一个局域网内了。如果手机还有其他的代理类软件,都需要关闭,否则会影响mitmproxy的代理设置。
苹果手机
ios设备配置代理,在iOS设备上打开设置(Settings)应用程序。
1.点击Wi-Fi,并找到你所连接的Wi-Fi网络。点击网络名称旁边的”i”图标以查看网络详细信息。
2.在网络详细信息页面中,向下滚动并找到”HTTP 代理”(HTTP Proxy)选项。选择“手动”(Manual)。
3.在“服务器”(Server)字段中输入第一步中显示的IP地址,并在”端口”(Port)字段中输入mitmproxy的监听端口,默认为8888。
4.保存设置,并关闭设置应用程序。
5.使用苹果自带的safari浏览器输入http://mitm.it/进行证书的安装。
注意如果没有出现下载证书的页面,只有可能是以下原因
本站收集的资源仅供内部学习研究软件设计思想和原理使用,学习研究后请自觉删除,请勿传播,因未及时删除所造成的任何后果责任自负。
如果用于其他用途,请购买正版支持作者,谢谢!若您认为「QCQ761.CN」发布的内容若侵犯到您的权益,请联系站长邮箱:wantaian@foxmail.com 进行删除处理。
本站资源大多存储在云盘,如发现链接失效,请联系我们,我们会第一时间更新。
暂无评论内容