1. Produtos
  2.   Aspose.OCR
  3.   De PDF digitalizado para Texto

Converter PDF digitalizado para texto OCR

Extraia texto de PDFs digitalizados ou converta-os em documentos pesquisáveis. Leia qualquer layout e estilo, defina com precisão a estrutura de texto e tabelas. Preserve imagens originais em segundo plano para retenção de conteúdo. Aspose.OCR - Sua solução de extração de texto de PDF para .NET.

Aspose.OCR Converter PDF Digitalizado para Texto para .NET

O plug-in OCR .NET da Aspose.OCR extrai texto de PDFs escaneados ou os converte em documentos pesquisáveis, preservando imagens originais. Algoritmos avançados identificam com precisão textos e estruturas de tabelas, tornando-o sua solução principal para extração de texto de PDFs.

Como Usar o Plugin PDF Escaneado para Texto

  • Instale o pacote Aspose.OCR a partir do NuGet ou de um arquivo baixado localmente.
  • [Defina suas chaves de licença.
  • Carregue uma imagem digitalizada no objeto OcrInput.
  • Crie uma instância do motor de reconhecimento Aspose.OCR.
  • Extrair texto de um PDF digitalizado.
  • Exibir o texto reconhecido ou salvá-lo em um arquivo.

Obtenha o Plugin Conversor de PDF Digitalizado para Texto.

Obtenha os arquivos de assembly respectivos nos downloads ou obtenha o pacote no NuGet para adicionar o Aspose.OCR diretamente ao seu espaço de trabalho.

  • Compatível com o Microsoft Windows ou um sistema operacional compatível com o .NET Standard 2.0
  • Requer um ambiente de desenvolvimento como o Microsoft Visual Studio.


Aspose.OCR.Metered metered = new Aspose.OCR.Metered();
metered.SetMeteredKey("PublicKey", "PrivateKey");
// This code recognize image
Aspose.OCR.AsposeOcr recognitionEngine = new Aspose.OCR.AsposeOcr();
// Add images to OcrInput object
Aspose.OCR.OcrInput input = new Aspose.OCR.OcrInput(Aspose.OCR.InputType.PDF);
input.Add("source1.pdf", 0, 3); // set start page and pages number
input.Add("source2.pdf"); // all pages for recognition
// Set recognition language
Aspose.OCR.RecognitionSettings recognitionSettings = new Aspose.OCR.RecognitionSettings();
recognitionSettings.Language = Aspose.OCR.Language.Latin;
// Recognize image
List<Aspose.OCR.RecognitionResult> results = recognitionEngine.Recognize(input, recognitionSettings);
foreach(Aspose.OCR.RecognitionResult result in results)
{
Console.WriteLine(result.RecognitionText);
}
//save as a file
results[0].Save("result.txt", Aspose.OCR.SaveFormat.Text);
//or
Aspose.OCR.AsposeOcr.SaveMultipageDocument("result.pdf", Aspose.OCR.SaveFormat.Pdf, results);
view raw pdf-to-text.cs hosted with ❤ by GitHub

Recursos Adicionais

  • Suporte para PDFs de múltiplas páginas para extrair texto de cada página.
  • Configurações de reconhecimento de texto personalizáveis para maior precisão.
  • Integração com outras bibliotecas Aspose para processamento de documentos avançado.

Requisitos do Sistema

  • .NET Standard 2.0 ou superior é necessário para executar o plugin.
  • Compatível com sistemas operacionais Microsoft Windows.
  • Memória e espaço em disco adequados para desempenho ideal.


Perguntas Frequentes

É necessário especificar um idioma?

Por padrão, o Aspose.OCR pode reconhecer automaticamente uma ampla gama de idiomas com base no alfabeto latino estendido. No entanto, fornecer um idioma específico pode aumentar significativamente a precisão do reconhecimento. Especifique explicitamente o idioma ao reconhecer textos cirílicos, chineses e hindi.

Quais formatos de arquivo são suportados?

Aspose.OCR suporta formatos populares de scanners ou câmeras, incluindo PDF, JPEG, PNG e TIFF. Os resultados de reconhecimento são retornados em texto simples, HTML, Microsoft Word, PDF, JSON e XML.

Como alcançar o melhor resultado?

Boa qualidade de imagem é crucial para OCR preciso. Use um scanner ou câmera de alta resolução. A biblioteca inclui filtros avançados para melhorar automaticamente a qualidade da imagem antes do reconhecimento.

Onde encontrar mais informações e exemplos?

Explore a nossa documentação online ou visite o repositório Aspose.OCR for .NET para exemplos de código e projetos de showcase.

  

Recursos de Suporte e Aprendizado

  
 Português