Chuyển Giọng nói thành Văn bản
Phiên âm các tệp âm thanh sử dụng AI cục bộ ngay trên trình duyệt của bạn.
Riêng tư 100%. Không có dữ liệu nào được tải lên máy chủ.
Yêu cầu Tải xuống Mô hình AI
Để chạy tính năng nhận dạng giọng nói cục bộ trên trình duyệt, công cụ này cần tải xuống mô hình AI (Whisper) khoảng 40-70MB trong lần chạy đầu tiên. Chúng tôi khuyên bạn nên sử dụng kết nối Wi-Fi. Dữ liệu âm thanh sẽ KHÔNG BAO GIỜ được tải lên bất kỳ máy chủ nào.
Kéo thả Âm thanh
MP3, M4A, WebM (Tối đa 100MB)
Ghi âm Mic
Nhấp để nói
Chỉ Âm thanh Hệ thống
⚠️ Phải chọn "Chia sẻ âm thanh"
Họp trực tuyến (Mic+Hệ thống)
⚠️ Phải chọn "Chia sẻ âm thanh"
📝 Kết quả
Giới thiệu
Một công cụ dựa trên trình duyệt chạy trực tiếp mô hình Whisper của OpenAI trên trình duyệt của bạn. Vì quá trình xử lý diễn ra 100% tại máy tính nên nó đảm bảo sự riêng tư hoàn toàn. Được đề xuất dùng để lập biên bản cuộc họp hoặc ghi chép cá nhân cần tính bảo mật.
Cách sử dụng
Thả Tệp Âm thanh
Chọn tệp âm thanh hoặc video của bạn.
Phân tích Cục bộ
Mô hình Whisper AI sẽ chuyển đổi giọng nói thành văn bản cục bộ trong trình duyệt.
Thuật ngữ
- Nhận dạng giọng nói (Speech Recognition)
- Công nghệ chuyển đổi giọng nói đầu vào thành văn bản theo thời gian thực. Công cụ này sử dụng mô hình Whisper AI qua thư viện Transformers.js, chạy hoàn toàn trong trình duyệt.
- Whisper
- Mô hình nhận dạng giọng nói tự động (ASR) mã nguồn mở của OpenAI. Hỗ trợ hàng chục ngôn ngữ với độ chính xác cao, đặc biệt đối với tiếng Anh, Nhật, và nhiều ngôn ngữ phổ biến khác.
- Transformers.js
- Một thư viện JavaScript của Hugging Face cho phép chạy các mô hình AI dựa trên transformer (như Whisper) trực tiếp trong trình duyệt bằng WebAssembly, mà không cần bất kỳ máy chủ nào.
- Dấu thời gian (Timestamps)
- Các mốc thời gian trong bản ghi phiên âm cho biết thời điểm từng đoạn nói xuất hiện. Tiện dụng để định hướng xem lại bản ghi và lập biên bản họp.
- Kết quả trung gian (Interim Results)
- Văn bản nhận dạng tạm thời được hiển thị theo thời gian thực trong khi nói. Sẽ được thay thế bằng kết quả nhận dạng cuối cùng khi câu kết thúc.
- Phát hiện hoạt động giọng nói (Voice Activity Detection - VAD)
- Công nghệ tự động phát hiện các đoạn có giọng nói người bên trong tín hiệu âm thanh. Giúp việc phiên âm hiệu quả hơn bằng cách bỏ qua các đoạn im lặng.
FAQ
- Q.Âm thanh tôi đã ghi có được gửi đến máy chủ không?
- Không. Whisper AI chạy hoàn toàn bên trong trình duyệt của bạn thông qua WebAssembly. Dữ liệu âm thanh của bạn không bao giờ rời khỏi thiết bị. Công cụ này không lưu trữ hoặc thu thập bất kỳ dữ liệu nào của bạn.
- Q.Những trình duyệt nào được hỗ trợ?
- Google Chrome và Microsoft Edge hoạt động tốt nhất. Firefox và Safari có hỗ trợ đa luồng WebAssembly hạn chế, điều này có thể ảnh hưởng đến hiệu suất tải mô hình.
- Q.Tôi có thể phiên âm các ngôn ngữ khác ngoài tiếng Nhật không?
- Có. Whisper hỗ trợ hàng chục ngôn ngữ bao gồm tiếng Anh, tiếng Trung, tiếng Hàn và tiếng Tây Ban Nha. Chỉ cần chọn ngôn ngữ của bạn từ menu ngôn ngữ.
- Q.Tại sao lần tải đầu tiên lại chậm?
- Các tệp mô hình Whisper (~40–70MB tùy theo kích thước) được tải xuống từ CDN trong lần sử dụng đầu tiên. Sau đó, chúng được trình duyệt lưu trong bộ nhớ cache để tải gần như ngay lập tức trong những lần tiếp theo.
- Q.Làm thế nào tôi có thể cải thiện độ chính xác của nhận dạng?
- Sử dụng môi trường yên tĩnh, nói rõ ràng gần micrô và sử dụng micrô bên ngoài nếu có thể. Việc chọn đúng ngôn ngữ cũng giúp cải thiện kết quả đáng kể.
- Q.Tôi có thể lưu kết quả phiên âm dưới dạng tệp không?
- Có. Sử dụng nút Lưu để lưu bản ghi âm dưới dạng tệp .txt hoặc sử dụng nút Sao chép để sao chép vào khay nhớ tạm và dán vào bất kỳ ứng dụng nào khác.
- Q.Tôi có thể sử dụng công cụ này trên điện thoại thông minh không?
- Chrome trên Android được hỗ trợ. Safari trên iOS có hỗ trợ đa luồng WebAssembly hạn chế, điều này có thể hạn chế việc tải mô hình và hiệu suất phiên âm.
Ứng dụng
Cuộc họp Bảo mật
Phiên âm an toàn các cuộc họp kinh doanh tuyệt mật mà không tải bất kỳ thứ gì lên máy chủ mạng.
Gửi phản hồi
Vui lòng cho chúng tôi biết suy nghĩ của bạn để giúp chúng tôi cải thiện công cụ.
Feedback is temporarily suspended
The server is busy or spam protection is active. Please try again later.