mmxiaoma 发表于 2012-3-30 22:39

用什么工具能把整个论坛下载下来?

本帖最后由 mmxiaoma 于 2012-3-30 22:40 编辑

老大们不用惊慌 不是下载萍聚

是做论文需要英文论坛的数据来做分析需要一个英文论坛里所有的post(至少包括正文 发帖者 和回复关系等信息)
这种东西叫什么呢? forum crawler? 搜不到啊
国内倒是有狂人抓取器 不过只是针对于中文网站我需要一个能抓取vBulletin或者phpbb的工具

知道的同学请告我一下急用

或者有现成的样本数据库?

谢谢

萝卜土豆 发表于 2012-3-30 22:47

以前用过类似的软件,通过首页链接,设定级数,可以把相关页面,图片全部按结构下载的,当然论坛后台的数据库是下不了的。名字大约叫 Teleport Pro,你可以试试

mandriva 发表于 2012-4-1 14:03

是做论文需要英文论坛的数据来做分析需要一个英文论坛里所有的post(至少包括正文 发帖者 和回复关系等信息) 这些信息都是存储在数据库里面,你要做的是黑了该论坛的数据库,然后导入到本机的数据库服务器(mysql postgresql)就可以查看所有记录。有时候我也想分析某些论坛,因为某些论坛的管理员极其恶心,自己一个人注册100多个帐号,然后发自慰贴去整那些用户。发这些帖子貌似是想增加他自己的论坛的访问量,这种行为是极其恶心的,一般的用户看论坛根本就无法辨别真伪,以为就是真的,发帖啊回复啊,不仅浪费了自己的大量时间,而且做的这些事情根本就是没用的。因为这些帖子只是某些论坛的管理员的自慰贴,也就是子虚乌有的。

我说一句正确的题外话,不要指望这种办法能提高网站排名,恰恰相反,大的搜索引擎不仅拥有机械的程序属性,而且还拥有大量员工,运用自然人的属性去分析某些论坛,也就是只有真善美才能登大雅之堂。
整天在上面用这一类的自慰贴来激起用户吵架时没用的!定位决定一切。

但是回到问题上,你如果真要这么做,千万要不留痕迹,用openssl 和tor 来层层封装你的链接。否则人家如果发现了,人家可以给你造成麻烦。

cosailer 发表于 2012-4-1 17:21

FDM里面有个抓站工具,但是功能很简单。

mmxiaoma 发表于 2012-4-2 16:56

mandriva 发表于 2012-4-1 14:03 static/image/common/back.gif
这些信息都是存储在数据库里面,你要做的是黑了该论坛的数据库,然后导入到本机的数据库服务器(mysql postg ...

嗯你说的很对 是有很多这种自动的发帖机器 很恶心 虚假繁荣 呵呵

黑论坛不可取啊即使黑得了 数据也不能用在论文里啊没有论坛开放数据的吗
页: [1]
查看完整版本: 用什么工具能把整个论坛下载下来?