Crawler.Engine

爬虫框架

主要有4个模块组成：

Crawler.IDownloader

下载模块，结果传递给Crawler.IDownloadResultProcesser模块。

Crawler.IDownloadResultProcesser

结果处理模块。 1.找到所有的Url，传递到Crawler.IScheduler模块。 2.把结果传递到Crawler.IPipeline模块。

Crawler.IScheduler

Urls管理模块。

Crawler.IPipeline

结果处理管道。实现了树形管道。

使用:

using (new Engine(
    new Downloader(),
    new DownloadResultProcesser(),
    new Scheduler())
    .AddUrls(new List<string> { "https://www.baidu.com/" })
    .AddPipeline(
        new FindAllUrlsPipeline()
        .NextPipeline(new WriteUrlsToConsolePipeline())
        .NextPipeline(new WriteUrlsToFilePileline("urls.txt"))
    ).Run()) {

    while ('y' != Console.ReadKey().KeyChar) ;
}

当然，你需要写自己的管道逻辑来处理你的业务，你只需要继承AbstractPipeline即可，适当扩展，就可以。

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
Crawler.AbstractPipeline		Crawler.AbstractPipeline
Crawler.DownloadResultProcesser		Crawler.DownloadResultProcesser
Crawler.Downloader		Crawler.Downloader
Crawler.Engine		Crawler.Engine
Crawler.FindAllUrlsPipeline		Crawler.FindAllUrlsPipeline
Crawler.IDownloadResultProcesser		Crawler.IDownloadResultProcesser
Crawler.IDownloader		Crawler.IDownloader
Crawler.IPipeline		Crawler.IPipeline
Crawler.IScheduler		Crawler.IScheduler
Crawler.Model		Crawler.Model
Crawler.PageProcesser		Crawler.PageProcesser
Crawler.Scheduler		Crawler.Scheduler
Crawler.WriteUrlsToConsolePipeline		Crawler.WriteUrlsToConsolePipeline
Crawler.WriteUrlsToFilePileline		Crawler.WriteUrlsToFilePileline
Crawlwe.IPageProcesser		Crawlwe.IPageProcesser
Extend		Extend
TestCrawlerEngine		TestCrawlerEngine
.gitattributes		.gitattributes
.gitignore		.gitignore
Crawler.Engine.sln		Crawler.Engine.sln
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Crawler.Engine

Crawler.IDownloader

Crawler.IDownloadResultProcesser

Crawler.IScheduler

Crawler.IPipeline

使用:

About

Releases

Packages

Languages

quxian/Crawler.Engine

Folders and files

Latest commit

History

Repository files navigation

Crawler.Engine

Crawler.IDownloader

Crawler.IDownloadResultProcesser

Crawler.IScheduler

Crawler.IPipeline

使用:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages