Unstructured einfach selbst hosten

Unstructured einfach selbst hosten

Yulei Chen - Content-Engineerin bei sliplane.ioYulei Chen
6 min

Unstructured ist eine Open-Source API zur Dokumentenverarbeitung, die strukturierte Daten aus PDFs, Bildern, Word-Dateien, HTML und dutzenden anderen Formaten extrahiert. Sie treibt RAG-Pipelines und Model-Fine-Tuning Workflows an, indem sie unstrukturierte Dokumente in saubere, strukturierte Daten verwandelt. Die gehostete Unstructured Platform funktioniert super, aber ab einem gewissen Volumen sparst du mit Self-Hosting Geld und behältst die Kontrolle über deine Daten.

Sliplane ist eine Managed Container Platform, die Self-Hosting einfach macht. Mit One-Click Deployment bekommst du die Unstructured API in Minuten zum Laufen - kein Server-Setup, kein Reverse Proxy, keine Infrastruktur die du managen musst.

Voraussetzungen

Vor dem Deploy brauchst du einen Sliplane Account (kostenlose Testphase verfügbar).

Schnellstart

Sliplane bietet One-Click Deployment mit Presets.

SliplaneDeploy Unstructured >
  1. Klick auf den Deploy-Button oben
  2. Wähl ein Projekt aus
  3. Wähl einen Server aus (wenn du dich gerade erst angemeldet hast, bekommst du einen 48-Stunden Testserver)
  4. Klick auf Deploy!

Über das Preset

Der One-Click Deploy oben nutzt Sliplanes Unstructured Preset. Das Preset ist für ein produktionsreifes Setup konfiguriert:

  • Offizielles Unstructured API Image (unstructured-io/unstructured-api)
  • Spezifischer Version-Tag (0.1.5) für Stabilität
  • API-Key Authentifizierung standardmäßig aktiviert
  • Healthcheck auf /healthcheck für automatisches Monitoring
  • Kein persistenter Storage nötig (die API ist stateless und verarbeitet Dokumente on the fly)

Nächste Schritte

Sobald die Unstructured API auf Sliplane läuft, erreichst du sie über die Domain, die Sliplane dir zugewiesen hat (z.B. unstructured-xxxx.sliplane.app).

Authentifizierung

Das Preset generiert einen zufälligen UNSTRUCTURED_API_KEY für dich. Du brauchst diesen Key, um API-Requests zu authentifizieren. Du findest ihn in den Umgebungsvariablen deines Services auf Sliplane.

Füg den Key in deine Requests über den unstructured-api-key Header ein:

curl -X POST https://unstructured-xxxx.sliplane.app/general/v0/general \
  -H "unstructured-api-key: YOUR_API_KEY" \
  -F "files=@mydocument.pdf"

Python SDK verwenden

Du kannst auch das Unstructured Python SDK nutzen, um mit deiner selbst gehosteten API zu interagieren:

from unstructured_client import UnstructuredClient

client = UnstructuredClient(
    api_key_auth="YOUR_API_KEY",
    server_url="https://unstructured-xxxx.sliplane.app",
)

Umgebungsvariablen

Hier sind die wichtigsten Umgebungsvariablen, die du anpassen kannst:

VariableBeschreibungStandard
UNSTRUCTURED_API_KEYAPI-Key für Authentifizierung(generiert)
UNSTRUCTURED_PARALLEL_MODE_ENABLEDParallelverarbeitung aktivierenfalse
UNSTRUCTURED_PARALLEL_MODE_THREADSAnzahl paralleler Threads3

Logging

Die Unstructured API loggt standardmäßig nach STDOUT, was super mit Sliplanes integriertem Log Viewer funktioniert. Für allgemeine Docker Log Tipps schau dir unseren Post über Docker Logs an.

Troubleshooting

Falls die API bei bestimmten Dateitypen Fehler zurückgibt, prüf ob dein Server genug RAM hat. Dokumentenverarbeitung (besonders OCR für Bilder und gescannte PDFs) kann speicherintensiv sein. Überleg dir ein Upgrade auf einen größeren Server, wenn du regelmäßig große Dateien verarbeitest.

Kostenvergleich

Du kannst die Unstructured API auch bei anderen Cloud-Anbietern selbst hosten. Hier ist ein Preisvergleich der gängigsten Anbieter:

AnbietervCPURAMDiskMonatliche KostenHinweis
Sliplane22 GB40 GB€9 (~$10.65)Flatrate, 1 TB Bandwidth, SSL inklusive
Fly.io22 GB40 GB~$18Disk und Bandwidth separat berechnet
Render12 GB40 GB~$35100 GB Bandwidth, Disk separat berechnet
Railway22 GB40 GB~$67 + $20 PlanPro Plan Minimum, nutzungsbasiert, Bandwidth separat berechnet
Klick hier um zu sehen, wie diese Zahlen berechnet wurden.

(Angenommen eine always-on Instanz mit 730 Stunden/Monat)

  • Sliplane: pauschal €9/Monat für den Base Server. Unbegrenzte Services auf dem gleichen Server, 1 TB Egress und SSL inklusive.
  • Fly.io: shared-cpu-2x 2 GB = $11.83/Mo + 40 GB Volume × $0.15/GB = $6 -> ~$17.83/Mo. Egress separat berechnet ($0.02/GB in EU).
  • Render: nächste Entsprechung ist Standard ($25, 1 vCPU / 2 GB) plus 40 GB Disk × $0.25/GB = $10 -> ~$35/Mo. Upgrade auf Pro (2 vCPU / 4 GB) kostet $85/Mo + Disk.
  • Railway (Pro Plan): CPU 2 × $0.00000772/s × 2,628,000 s = $40.57; RAM 2 × $0.00000386/s × 2,628,000 s = $20.29; Volume 40 × $0.00000006/s × 2,628,000 s = $6.31 -> ~$67/Mo Compute, plus der $20/Mo Pro Plan Floor und $0.05/GB Egress.

Bandwidth-Kosten können bei nutzungsbasierten Anbietern schnell steigen. Nutz unser Bandwidth Kostenvergleichs-Tool um zu sehen, was dein Egress bei jedem Anbieter kosten würde.

FAQ

Welche Dateitypen unterstützt Unstructured?

Unstructured kann PDFs, Word-Dokumente (.docx), PowerPoint (.pptx), HTML, Markdown, Plain Text, Bilder (mit OCR), E-Mails (.eml, .msg), EPUBs und viele weitere Formate verarbeiten. Schau in die Unstructured Dokumentation für die vollständige Liste unterstützter Formate.

Wie verbinde ich Unstructured mit meiner RAG Pipeline?

Richte dein RAG Framework (wie Langflow oder LangChain) auf deine Sliplane Domain als Unstructured API Endpoint. Nutz den API Key aus deinen Umgebungsvariablen zur Authentifizierung. Unstructured übernimmt das Parsen der Dokumente, und du kannst den Output direkt in deine Vektordatenbank wie Qdrant einspeisen.

Wie update ich Unstructured?

Ändere den Image-Tag in deinen Service-Einstellungen und deploye neu. Schau auf der Unstructured API GitHub Releases Seite nach der neuesten stabilen Version.

Gibt es Alternativen zu Unstructured?

Ja, beliebte Optionen sind Apache Tika (Java-basierte Dokumentenextraktion), Docling (IBMs Document Parser) und LlamaParse (cloudbasiert, Teil des LlamaIndex Ökosystems). Jede hat unterschiedliche Stärken je nach Anwendungsfall. Wenn du Tika zusammen mit Open WebUI einrichten willst, schau dir unseren Post an: Apache Tika mit OpenWebUI einrichten.

Kann ich große Dokumente oder Batches verarbeiten?

Ja, aber behalte den Speicherverbrauch im Auge. Für große Batch-Verarbeitung aktiviere den Parallel-Modus mit UNSTRUCTURED_PARALLEL_MODE_ENABLED=true und überleg dir ein Upgrade auf einen Server mit mehr RAM und CPU. Die API verarbeitet Dokumente synchron, also brauchen große Dateien länger bis die Antwort kommt.

Unstructured jetzt selbst hosten - ganz einfach!

Sliplane bietet dir One-Click Deploy für die Unstructured API, ganz ohne Server-Setup.