2017 © Pedro Peláez
 

application beanbun

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

image

kiddyu/beanbun

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

  • Wednesday, April 25, 2018
  • by kiddyu
  • Repository
  • 57 Watchers
  • 724 Stars
  • 1,977 Installations
  • PHP
  • 1 Dependents
  • 0 Suggesters
  • 165 Forks
  • 10 Open issues
  • 6 Versions
  • 17 % Grown

The README.md

, (*1)

Build Status License Sauce Test Status , (*2)

简介

Beanbun 是一个简单可扩展的爬虫框架,支持分布式,支持守护进程模式与普通模式,守护进程模式基于 Workerman,下载器基于 Guzzle。, (*3)

文档

https://github.com/kiddyuchina/Beanbun/blob/master/docs/chs/README.md, (*4)

广告

推荐一下最近发现的一个很好用的全球代理:SmartProxy
专业海外http代理商,有1亿真实住宅IP资源,覆盖全球,高匿稳定提供100%原生住宅IP,支持社交账户、电商平台、网络数据收集等服务。
匿名性很好,伪装度很高,IP限制问题轻松解决。
本人测试用过之后感觉很不错。
现春季价格优惠,动态住宅代理只要65折!, (*5)

, (*6)

特点

  • 支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)
  • 默认使用 guzzle 进行爬取
  • 支持分布式
  • 支持内存、Redis 等多种队列方式
  • 支持自定义URI过滤
  • 支持广度优先和深度优先两种爬取方式
  • 遵循 PSR-4 标准
  • 爬取网页分为多步,每步均支持自定义动作(如添加代理、修改 user-agent 等)
  • 灵活的扩展机制,可方便的为框架制作插件:自定义队列、自定义爬取方式...

, (*7)

安装

Beanbun 可以通过 composer 进行安装。, (*8)

$ composer require kiddyu/beanbun

快速开始

创建一个文件 start.php,包含以下内容, (*9)

``` php <?php use Beanbun\Beanbun; $beanbun = new Beanbun; $beanbun->seed = [ 'http://www.950d.com/', 'http://www.950d.com/list-1.html', 'http://www.950d.com/list-2.html', ]; $beanbun->afterDownloadPage = function($beanbun) { file_put_contents(DIR . '/' . md5($beanbun->url), $beanbun->page); }; $beanbun->start();, (*10)

在命令行中执行

$ php start.php ``` 接下来就可以看到抓取的日志了。, (*11)

插件

  • beanbun-parser 数据抽取插件 https://github.com/kiddyuchina/beanbun-parser

更多详细内容,请查看 文档, (*12)

The Versions

25/04 2018

dev-master

9999999-dev

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

  Sources   Download

MIT

The Requires

 

by Kidd Yu

crawler spider scraper

11/06 2017

1.0.4

1.0.4.0

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

  Sources   Download

MIT

The Requires

 

by Kidd Yu

crawler spider scraper

27/04 2017

1.0.3

1.0.3.0

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

  Sources   Download

MIT

The Requires

 

by Kidd Yu

crawler spider scraper

27/04 2017

1.0.2

1.0.2.0

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

  Sources   Download

MIT

The Requires

 

by Kidd Yu

crawler spider scraper

16/04 2017

1.0.1

1.0.1.0

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

  Sources   Download

MIT

The Requires

 

by Kidd Yu

crawler spider scraper

13/04 2017

1.0.0

1.0.0.0

Beanbun 是用 PHP 编写的多进程网络爬虫框架,具有良好的开放性、高可扩展性

  Sources   Download

MIT

The Requires

 

by Kidd Yu

crawler spider scraper