我们可以从博客或论坛中提取什么样的数据用于网络抓取项目?
what kind of data can we extract from a blog or a forum for a web scraping project?
我即将从事一个关于 'analysing data from blog or forum' 的项目,所以我想知道我们可以从博客或论坛中提取什么样的数据,我应该如何开始
首先,您应该决定使用哪种编程语言。然后,您应该考虑使用网络抓取工具。
不同的编程语言有不同的。对于Java,例如有jsoup。
关于获取什么数据首先要考虑页面的格式。但我建议收集的数据包括:
用户名
网站上的照片
与用户名相关的数据(加入日期、post 人数、高级会员状态、照片、Phone 号码、E-mail 地址、全名、地址等(如果适用)),
博客标题 posts,
在论坛上提出的问题,
每个问题的答案数,
博客中的错别字 post,
日期相关信息。
我即将从事一个关于 'analysing data from blog or forum' 的项目,所以我想知道我们可以从博客或论坛中提取什么样的数据,我应该如何开始
首先,您应该决定使用哪种编程语言。然后,您应该考虑使用网络抓取工具。
不同的编程语言有不同的。对于Java,例如有jsoup。
关于获取什么数据首先要考虑页面的格式。但我建议收集的数据包括:
用户名 网站上的照片 与用户名相关的数据(加入日期、post 人数、高级会员状态、照片、Phone 号码、E-mail 地址、全名、地址等(如果适用)), 博客标题 posts, 在论坛上提出的问题, 每个问题的答案数, 博客中的错别字 post, 日期相关信息。