S
Show HN: Smelt – Extract structured data from PDFs and HTML using LLM
4.3editorial
Miễn phí
Ra mắt năm 2026
Sobre
I built a CLI tool in Go that extracts structured data (JSON, CSV, Parquet) from messy PDFs and HTML pages.<p>The core idea: LLMs are great at understanding structure but wasteful for bulk data extraction. So smelt uses a two-pass architecture:<p>1. A fast Go capture layer parses the document and detects table-like regions 2. Those regions (not the whole document) get sent to Claude for schema inference — column names, types, nesting 3. The Go layer then does deterministic extraction using the i
Casos de uso
- →Extração de dados estruturados de PDFs e HTML
- →Análise de dados em documentos
- →Extrair informações de relatórios
Como funciona
Smelt usa LLM para extrair dados estruturados de PDFs e HTML
Exemplo de uso
Extrair informações de contato de um PDF de currículo
Điểm mạnh
- +Extrai dados estruturados de PDFs e HTML com eficiência
- +Utiliza uma arquitetura de dois passos para otimizar o processo de extração
- +Suporta saídas em JSON, CSV e Parquet
Điểm yếu
- −Requer conhecimento em Go para customização
- −Pode ser lento para documentos muito grandes
Perguntas frequentes
O que é o Show HN: Smelt – Extract structured data from PDFs and HTML using LLM?
O Show HN: Smelt – Extract structured data from PDFs and HTML using LLM é uma ferramenta de inteligência artificial especializada em áudio e voz e programação. I built a CLI tool in Go that extracts structured data (JSON, CSV, Parquet) from messy PDFs and HTML pages.<p>The core idea: LLMs are great at understanding structure but wasteful for bulk data extraction. So smelt uses a two-pass architecture:<p>1. A fast Go capture layer parses the document and detects table-like regions 2. Those regions (not the whole document) get sent to Claude for schema inference — column names, types, nesting 3. The Go layer then does deterministic extraction using the i
O Show HN: Smelt – Extract structured data from PDFs and HTML using LLM é gratuito?
Sim, o Show HN: Smelt – Extract structured data from PDFs and HTML using LLM é totalmente gratuito para usar.
Quais são as melhores alternativas ao Show HN: Smelt – Extract structured data from PDFs and HTML using LLM?
As principais alternativas ao Show HN: Smelt – Extract structured data from PDFs and HTML using LLM são: flowise, show-hn-youtube-mcp-give-any-ai-agent-access-to-youtube, show-hn-chatgpt-exporter-local-dom-to-wordpdf-parser. Compare todas as opções no FindMyAI para escolher a ideal para o seu caso de uso.