O plug-in OCR .NET da Aspose.OCR extrai texto de PDFs escaneados ou os converte em documentos pesquisáveis, preservando imagens originais. Algoritmos avançados identificam com precisão textos e estruturas de tabelas, tornando-o sua solução principal para extração de texto de PDFs.
OcrInput
.Obtenha os arquivos de assembly respectivos nos downloads ou obtenha o pacote no NuGet para adicionar o Aspose.OCR diretamente ao seu espaço de trabalho.
Aspose.OCR.Metered metered = new Aspose.OCR.Metered(); | |
metered.SetMeteredKey("PublicKey", "PrivateKey"); | |
// This code recognize image | |
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr(); | |
// Add images to OcrInput object | |
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF); | |
input.Add("source1.pdf", 0, 3); // set start page and pages number | |
input.Add("source2.pdf"); // all pages for recognition | |
// Set recognition language | |
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings(); | |
recognitionSettings.Language = Aspose.OCR.Language.Latin; | |
// Recognize image | |
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings); | |
foreach(Aspose.OCR.RecognitionResult result in results) | |
{ | |
Console.WriteLine(result.RecognitionText); | |
} | |
//save as a file | |
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text); | |
//or | |
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results); |
Por padrão, o Aspose.OCR pode reconhecer automaticamente uma ampla gama de idiomas com base no alfabeto latino estendido. No entanto, fornecer um idioma específico pode aumentar significativamente a precisão do reconhecimento. Especifique explicitamente o idioma ao reconhecer textos cirílicos, chineses e hindi.
Aspose.OCR suporta formatos populares de scanners ou câmeras, incluindo PDF, JPEG, PNG e TIFF. Os resultados de reconhecimento são retornados em texto simples, HTML, Microsoft Word, PDF, JSON e XML.
Boa qualidade de imagem é crucial para OCR preciso. Use um scanner ou câmera de alta resolução. A biblioteca inclui filtros avançados para melhorar automaticamente a qualidade da imagem antes do reconhecimento.
Explore a nossa documentação online ou visite o repositório Aspose.OCR for .NET para exemplos de código e projetos de showcase.