Audio-KI

Offline-Sprachdiktat

Systemweites Push-to-Talk-Diktat, ohne Netzwerk

Gebaut von Nicholas Falshaw · Systemweites Push-to-Talk auf Windows · Komplett offline

Das Problem

Windows Voice Access ist cloud-basiert, unzuverlässig und verliert Kontext. Dritt-Tools verlangen entweder ein Abo oder schicken jedes gesprochene Wort auf einen fremden Server. Für vertrauliche Arbeit — Kundennotizen, medizinisch, rechtlich, Security-Research — geht beides nicht.

Was ich gebaut habe

Eine Electron-Tray-App, die einen globalen Hotkey registriert (Standard F9). F9 halten, sprechen, loslassen — der transkribierte Text erscheint in der gerade aktiven Anwendung, wo auch immer der Cursor steht. Kein Internet nötig. Keine Telemetrie. Kein Abo.

Architektur

  • Tray-Prozess

    Electron, minimale UI, persistentes Tray-Icon, globale Konfiguration

  • Hotkey-Hook

    uIOhook für echtes System-globales Key-Capture (funktioniert auch, wenn kein Fenster fokussiert ist)

  • Audio-Capture

    Node.js-Audio-Input, 16 kHz Mono PCM, aufgenommen während der Hotkey gehalten wird

  • Transkription

    whisper.cpp mit GPU-Beschleunigung (CUDA / Metal / CPU-Fallback), konfigurierbare Modellgröße (tiny/base/small/medium)

  • Textnormalisierung

    Satzzeichen-Wiederherstellung, Korrektur häufiger Phrasen, konfigurierbares Wörterbuch

  • Ausgabe

    Per Zwischenablage in die aktive Anwendung, oder simulierte Tastatureingaben für Apps, die Paste blockieren

Tech-Stack

ElectronNode.jsTypeScriptwhisper.cppuIOhookWASAPI

Ergebnis

F9 in jeder Anwendung — Terminal, Browser, E-Mail, Texteditor — sprechen, loslassen, Text ist da. Keine Netzwerk-Calls. Keine Cloud. Tägliche Nutzung für technische Notizen und längere Texte. Median-Latenz unter einer Sekunde pro Phrase auf Consumer-GPU.

Rogue AI • Production Systems •