Name		Name	Last commit message	Last commit date
Latest commit History 5 Commits
LICENSE		LICENSE
README.md		README.md
config.py		config.py
download_wikipedia.py		download_wikipedia.py
requirements.txt		requirements.txt

Repository files navigation

Wikipedia Dump Downloader

An efficient and reliable Python script for downloading Wikipedia database dumps. This tool supports multi-threaded downloads, resume functionality, and automatic retry with connection reduction in case of server errors.

Features

🚀 Multi-threaded downloading for faster speeds
⏸️ Resume capability for interrupted downloads
🔄 Automatic retry with connection reduction on 503 errors
✅ Checksum verification
🛠️ Configurable through command-line arguments or a YAML config file
📊 Detailed logging
🔍 Adaptive connection management

Requirements

Python 3.7+
Required Python packages:
- aiohttp
- aiofiles
- tqdm
- PyYAML

Installation

Clone this repository:

git clone https://github.com/yourusername/wikipedia-dump-downloader.git
cd wikipedia-dump-downloader

Install the required packages:
```
pip install -r requirements.txt
```

Configuration

You can configure the script using command-line arguments or a YAML configuration file. If not specified, default values will be used.

Command-line Arguments

Argument	Description
`--config`	Path to YAML configuration file
`--url`	URL of the Wikipedia dump
`--folder`	Download folder path
`--connections`	Number of concurrent connections
`--chunk-size`	Chunk size for downloading (in bytes)
`--max-retries`	Maximum number of retries for failed downloads
`--retry-backoff`	Backoff factor for retries
`--timeout`	Timeout for HTTP requests in seconds
`--checksum`	Expected checksum of the file (e.g., MD5, SHA256)
`--user-agent`	Custom user agent string for the download request

YAML Configuration File

Create a YAML file with the following structure:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Wikipedia Dump Downloader

Features

Requirements

Installation

Configuration

Command-line Arguments

YAML Configuration File

About

Releases

Packages

Languages

License

slyfox1186/wikipedia-database-downloader

Folders and files

Latest commit

History

Repository files navigation

Wikipedia Dump Downloader

Features

Requirements

Installation

Configuration

Command-line Arguments

YAML Configuration File

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages