CHAPTER 02

よくある質問

短く正直な答え。何かが不足している場合は、GitHub で問題をオープンしてください。

№ 01 どのブラウザが動作しますか?

クロムベースのものなら何でも: Chrome、Edge、Brave、Arc、Vivaldi、Opera。 Safari は、音声付きの getDisplayMedia をまだ確実にサポートしていません。 Firefox は画面をキャプチャできますが、オーディオのサポートは限られており、Chromium が最適です。

№ 02 私の Mac はタブオーディオのみをキャプチャし、Zoom や Spotify はキャプチャしないのはなぜですか?

macOS ブラウザは、ブラウザタブ内からのみオーディオをキャプチャできます。システム全体のオーディオ (Zoom、Spotify、Skype など) をキャプチャするには、BlackHole (無料のオープンソース仮想オーディオデバイス) をインストールし、それを通じてアプリのオーディオをルーティングします。 Windows と Linux では、これは画面共有を介して「機能」します。

№ 03 Groq API キーを取得するにはどうすればよいですか?

console.groq.com にアクセスしてサインアップし (Google ログインが機能します)、/keys にアクセスしてキーを作成します。約60秒かかります。無料利用枠では、キーごとに 1 日あたり約 8 時間の文字起こしが可能です。

№ 04 私の音声はあなたのサーバーに送信されますか?

いいえ、サーバーはありません。このアプリは、Cloudflare Pages の静的 HTML/JS バンドルです。オーディオチャンクはブラウザから直接 Groq の API に送られます。翻訳されたテキストはブラウザから Google / Microsoft / DeepL / MyMemory に直接送信されます。 /app ページにはログも分析もありません。オプトアウトするものがないため、オプトアウトの切り替えもありません。

№ 05 実際のところ、どれくらいプライベートなのでしょうか？

ブラウザと Groq を信頼するのと同じくらいプライベートです。 Groq キーは localStorage にあります。トランスクリプトは localStorage に保存されます。静的ファイルを提供する以外のインフラストラクチャがないため、インフラストラクチャには何も保存されません。

№ 06 どの言語がサポートされていますか?

音声認識: Whisper Large v3 がサポートするすべての言語 (~100)。英語、ベトナム語、中国語、日本語、韓国語、フランス語、スペイン語、ドイツ語、ロシア語、アラビア語、ヒンディー語、タイ語、インドネシア語、ポルトガル語、さらに Google フォールバック経由による翻訳。

№ 07 翻訳はどの程度正確ですか?

Google の無料エンドポイントは日常会話に適しています。技術、法律、または医療コンテンツの場合は、DeepL API キー (無料枠 500,000 文字/月) をプラグインします。その違いは顕著です。

№ 08 トランスクリプトをエクスポートできますか?

はい。トランスクリプトパネルには、[コピー]、[.txt のダウンロード]、および [.srt のダウンロード] ボタンがあります。 .srt ファイルは、VLC、mpv、または YouTube に字幕トラックとしてロードできます。

№ 09 デスクトップアプリは復活するのでしょうか？

オフラインの Whisper.cpp + GPU アクセラレーションを必要とするパワーユーザーのために、別の Tauri デスクトップビルドが存在します。 Web バージョンは、インストールせずにユースケースの 95% をカバーします。

№ 10 なぜ有料プランがないのですか？

お金を払うサーバーがないからです。 Cloudflareの無料枠で静的ファイルを提供します。無料枠では Groq に何も支払いません。無料枠を超えた場合は 1 ペニーも支払いません。有料レイヤーを追加するとバックエンドを追加することになり、プライバシーの話が台無しになってしまいます。