← Kembali ke katalog
SShow HN: Smelt – Extract structured data from PDFs and HTML using LLM logo

Show HN: Smelt – Extract structured data from PDFs and HTML using LLM

4.3editorial
Gratis
Diluncurkan pada 2026

Sobre

I built a CLI tool in Go that extracts structured data (JSON, CSV, Parquet) from messy PDFs and HTML pages.<p>The core idea: LLMs are great at understanding structure but wasteful for bulk data extraction. So smelt uses a two-pass architecture:<p>1. A fast Go capture layer parses the document and detects table-like regions 2. Those regions (not the whole document) get sent to Claude for schema inference — column names, types, nesting 3. The Go layer then does deterministic extraction using the i

Casos de uso

  • Extração de dados estruturados de PDFs e HTML
  • Análise de dados em documentos
  • Extrair informações de relatórios

Como funciona

Smelt usa LLM para extrair dados estruturados de PDFs e HTML

Exemplo de uso

Extrair informações de contato de um PDF de currículo

Kelebihan

  • +Extrai dados estruturados de PDFs e HTML com eficiência
  • +Utiliza uma arquitetura de dois passos para otimizar o processo de extração
  • +Suporta saídas em JSON, CSV e Parquet

Kekurangan

  • Requer conhecimento em Go para customização
  • Pode ser lento para documentos muito grandes

Perguntas frequentes

O que é o Show HN: Smelt – Extract structured data from PDFs and HTML using LLM?
O Show HN: Smelt – Extract structured data from PDFs and HTML using LLM é uma ferramenta de inteligência artificial especializada em áudio e voz e programação. I built a CLI tool in Go that extracts structured data (JSON, CSV, Parquet) from messy PDFs and HTML pages.<p>The core idea: LLMs are great at understanding structure but wasteful for bulk data extraction. So smelt uses a two-pass architecture:<p>1. A fast Go capture layer parses the document and detects table-like regions 2. Those regions (not the whole document) get sent to Claude for schema inference — column names, types, nesting 3. The Go layer then does deterministic extraction using the i
O Show HN: Smelt – Extract structured data from PDFs and HTML using LLM é gratuito?
Sim, o Show HN: Smelt – Extract structured data from PDFs and HTML using LLM é totalmente gratuito para usar.
Quais são as melhores alternativas ao Show HN: Smelt – Extract structured data from PDFs and HTML using LLM?
As principais alternativas ao Show HN: Smelt – Extract structured data from PDFs and HTML using LLM são: flowise, show-hn-youtube-mcp-give-any-ai-agent-access-to-youtube, show-hn-chatgpt-exporter-local-dom-to-wordpdf-parser. Compare todas as opções no FindMyAI para escolher a ideal para o seu caso de uso.

Você também pode gostar