Systemweites Push-to-Talk-Diktat, ohne Netzwerk
Gebaut von Nicholas Falshaw · Systemweites Push-to-Talk auf Windows · Komplett offline
Windows Voice Access ist cloud-basiert, unzuverlässig und verliert Kontext. Dritt-Tools verlangen entweder ein Abo oder schicken jedes gesprochene Wort auf einen fremden Server. Für vertrauliche Arbeit — Kundennotizen, medizinisch, rechtlich, Security-Research — geht beides nicht.
Eine Electron-Tray-App, die einen globalen Hotkey registriert (Standard F9). F9 halten, sprechen, loslassen — der transkribierte Text erscheint in der gerade aktiven Anwendung, wo auch immer der Cursor steht. Kein Internet nötig. Keine Telemetrie. Kein Abo.
Tray-Prozess
Electron, minimale UI, persistentes Tray-Icon, globale Konfiguration
Hotkey-Hook
uIOhook für echtes System-globales Key-Capture (funktioniert auch, wenn kein Fenster fokussiert ist)
Audio-Capture
Node.js-Audio-Input, 16 kHz Mono PCM, aufgenommen während der Hotkey gehalten wird
Transkription
whisper.cpp mit GPU-Beschleunigung (CUDA / Metal / CPU-Fallback), konfigurierbare Modellgröße (tiny/base/small/medium)
Textnormalisierung
Satzzeichen-Wiederherstellung, Korrektur häufiger Phrasen, konfigurierbares Wörterbuch
Ausgabe
Per Zwischenablage in die aktive Anwendung, oder simulierte Tastatureingaben für Apps, die Paste blockieren
F9 in jeder Anwendung — Terminal, Browser, E-Mail, Texteditor — sprechen, loslassen, Text ist da. Keine Netzwerk-Calls. Keine Cloud. Tägliche Nutzung für technische Notizen und längere Texte. Median-Latenz unter einer Sekunde pro Phrase auf Consumer-GPU.