PDF Processor

A powerful Electron desktop application that processes PDF files through OCR, applies intelligent text correction, and outputs clean Markdown files with real-time processing visualization.

Features

🔍 Advanced OCR Processing

High-quality text extraction using Tesseract.js
Support for multiple languages
Confidence-based quality assessment

🧠 Intelligent Text Correction

Automatic correction of common OCR errors
Column layout restoration
Spell checking with custom dictionaries
Natural language processing for improved readability

📝 Smart Markdown Generation

Automatic heading detection
List and table recognition
Proper formatting and structure
Metadata inclusion

⚡ Real-time Processing

Live progress tracking
Interactive text preview
Batch processing support
Error handling and recovery

Installation

Prerequisites

Node.js 18.x or higher
NPM or Yarn package manager

Setup

# Clone the repository
git clone <repository-url>
cd PDF-Processor

# Install dependencies
npm install

# Start the application in development mode
npm run dev

Build for Production

# Build the application
npm run build

# Create distributable packages
npm run dist

Usage

Add PDF URLs: Enter PDF URLs you want to process
Configure Settings: Adjust OCR language, correction settings, and output format
Select Output Folder: Choose where to save the processed files
Start Processing: Click the start button to begin processing
Monitor Progress: Watch real-time progress and preview results
Access Results: Find your processed Markdown files in the output folder

Batch Processing

Use "Batch Input" to add multiple URLs at once
Load URLs from text files
Process multiple PDFs simultaneously

Settings Configuration

OCR Settings

Language: Choose OCR language (English, Spanish, French, German)
Confidence Threshold: Set minimum confidence for text extraction
Layout Preservation: Maintain original document structure

Text Correction

Spell Checking: Enable/disable automatic spell correction
Aggressive Correction: More extensive error correction
Custom Dictionary: Add domain-specific terms

Output Settings

Format: Markdown, Plain Text, or HTML
Metadata: Include processing information
Formatting: Preserve original text formatting

Technical Architecture

Main Process Components

Main.js: Application lifecycle and window management
PDF Processor: Handles PDF download and conversion
OCR Worker: Manages Tesseract.js OCR processing
Text Corrector: Applies intelligent text corrections

Renderer Process

App.js: Main application logic and UI management
Components: Modular UI components for different features
Styles: CSS for modern, responsive interface

Processing Pipeline

PDF URL validation and download
PDF to high-resolution image conversion
OCR text extraction with confidence scoring
Multi-column layout restoration
OCR error pattern correction
Spell checking and grammar improvement
Markdown formatting and structure detection
Output file generation and metadata inclusion

Development

Project Structure

PDF-Processor/
├── src/
│   ├── main/                # Main process code
│   │   ├── main.js          # Entry point
│   │   └── workers/         # Background processing
│   ├── renderer/            # UI and frontend
│   │   ├── index.html       # Main interface
│   │   ├── js/              # JavaScript modules
│   │   └── styles/          # CSS styling
│   └── utils/               # Shared utilities
├── tests/                   # Test files
├── build/                   # Build configuration
└── dist/                    # Distribution files

Available Scripts

npm run dev          # Development mode with hot reload
npm test            # Run test suite
npm run build       # Build for production
npm run dist        # Create distributable packages
npm run lint        # Code linting
npm start           # Start built application

Contributing

Fork the repository
Create a feature branch (git checkout -b feature/amazing-feature)
Commit your changes (git commit -m 'Add amazing feature')
Push to the branch (git push origin feature/amazing-feature)
Open a Pull Request

Testing

# Run all tests
npm test

# Run specific test suites
npm test -- --grep "OCR"
npm test -- --grep "TextCorrection"

Configuration

Environment Variables

NODE_ENV: Development or production mode
LOG_LEVEL: Logging verbosity (debug, info, warn, error)

Settings Storage

Settings are automatically saved to the user's application data directory using electron-store.

Troubleshooting

Common Issues

OCR Not Working

Ensure Tesseract.js dependencies are properly installed
Check network connectivity for language data downloads
Verify PDF image quality and resolution

Processing Errors

Check PDF URL accessibility
Ensure sufficient disk space for temporary files
Verify output folder write permissions

Performance Issues

Reduce batch size for large PDFs
Lower OCR quality settings if needed
Close other memory-intensive applications

Logs

Application logs are available in:

Windows: %APPDATA%/pdf-processor/logs/
macOS: ~/Library/Logs/pdf-processor/
Linux: ~/.config/pdf-processor/logs/

Requirements

System Requirements

Operating System: Windows 10+, macOS 10.14+, or Linux (Ubuntu 18.04+)
Memory: 4GB RAM minimum, 8GB recommended
Disk Space: 500MB for application, additional space for processing
Network: Internet connection for PDF downloads and OCR language data

Supported PDF Types

Standard PDF documents
Scanned documents (images embedded in PDF)
Multi-page documents
Password-protected PDFs (with manual password entry)

License

This project is licensed under the GNU General Public License v3.0 - see the LICENSE file for details.

Acknowledgments

Tesseract.js for OCR capabilities
Electron for cross-platform desktop framework
pdf2pic for PDF to image conversion
Compromise for natural language processing
Natural for text processing utilities

Support

For support, bug reports, or feature requests:

Create an issue on GitHub
Check the documentation
Review troubleshooting guide above

Made with ❤️ for better document processing

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
src		src
temp		temp
.gitattributes		.gitattributes
.gitignore		.gitignore
DEPENDENCIES.md		DEPENDENCIES.md
LICENSE		LICENSE
README.md		README.md
SETUP_DEPENDENCIES.md		SETUP_DEPENDENCIES.md
claude-notes.md		claude-notes.md
claude.md		claude.md
eng.traineddata		eng.traineddata
package-lock.json		package-lock.json
package.json		package.json
test-tesseract.js		test-tesseract.js

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

PDF Processor

Features

Installation

Prerequisites

Setup

Build for Production

Usage

Batch Processing

Settings Configuration

Technical Architecture

Main Process Components

Renderer Process

Processing Pipeline

Development

Project Structure

Available Scripts

Contributing

Testing

Configuration

Environment Variables

Settings Storage

Troubleshooting

Common Issues

Logs

Requirements

System Requirements

Supported PDF Types

License

Acknowledgments

Support

About

Uh oh!

Releases

Packages

Languages

License

factus10/PDF-Processor

Folders and files

Latest commit

History

Repository files navigation

PDF Processor

Features

Installation

Prerequisites

Setup

Build for Production

Usage

Batch Processing

Settings Configuration

Technical Architecture

Main Process Components

Renderer Process

Processing Pipeline

Development

Project Structure

Available Scripts

Contributing

Testing

Configuration

Environment Variables

Settings Storage

Troubleshooting

Common Issues

Logs

Requirements

System Requirements

Supported PDF Types

License

Acknowledgments

Support

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages