แปลงเสียงเป็นข้อความ
ถอดเสียงไฟล์เสียงโดยใช้ AI ภายในเครื่องบนเบราว์เซอร์ของคุณ
เป็นส่วนตัว 100% จะไม่มีการอัปโหลดข้อมูลใดๆ ไปยังเซิร์ฟเวอร์
จำเป็นต้องดาวน์โหลดโมเดล AI
ในการเรียกใช้การรู้จำเสียงในเครื่องบนเบราว์เซอร์ เครื่องมือนี้จำเป็นต้องดาวน์โหลดโมเดล AI (Whisper) ประมาณ 40-70MB ในการทำงานครั้งแรก เราขอแนะนำให้ใช้การเชื่อมต่อ Wi-Fi ข้อมูลเสียงจะไม่มีทางถูกอัปโหลดไปยังเซิร์ฟเวอร์ใดๆ เด็ดขาด
ลากวางไฟล์เสียง
MP3, M4A, WebM (สูงสุด 100MB)
เริ่มบันทึกไมโครโฟน
คลิกเพื่อพูด
เฉพาะเสียงระบบ
⚠️ ต้องเลือก "แชร์เสียง"
ประชุมออนไลน์ (ไมค์+ระบบ)
⚠️ ต้องเลือก "แชร์เสียง"
📝 ผลลัพธ์
เกี่ยวกับ
เครื่องมือบนเบราว์เซอร์ที่เรียกใช้โมเดล Whisper ของ OpenAI บนเบราว์เซอร์ของคุณโดยตรง เนื่องจากการประมวลผลเกิดขึ้นในเครื่อง 100% จึงรับประกันความเป็นส่วนตัวอย่างสมบูรณ์ แนะนำให้ใช้สำหรับบันทึกการประชุมหรือบันทึกส่วนตัวที่ต้องการความเป็นส่วนตัว
วิธีใช้งาน
วางไฟล์เสียง
เลือกไฟล์เสียงหรือวิดีโอของคุณ
การวิเคราะห์ภายในเครื่อง
โมเดล Whisper AI จะแปลงเสียงเป็นข้อความภายในเครื่องบนเบราว์เซอร์
อภิธานศัพท์
- การรู้จำเสียง (Speech Recognition)
- เทคโนโลยีที่แปลงข้อมูลเสียงเป็นข้อความแบบเรียลไทม์ เครื่องมือนี้ใช้โมเดล Whisper AI ผ่านไลบรารี Transformers.js ซึ่งทำงานทั้งหมดภายในเบราว์เซอร์
- Whisper
- โมเดลการรู้จำเสียงอัตโนมัติ (ASR) แบบโอเพ่นซอร์สของ OpenAI รองรับหลายสิบภาษาด้วยความแม่นยำสูง โดยเฉพาะภาษาอังกฤษและภาษาญี่ปุ่น
- Transformers.js
- ไลบรารี JavaScript โดย Hugging Face ที่อนุญาตให้รันโมเดล AI ที่ใช้ transformer (เช่น Whisper) ได้โดยตรงในเบราว์เซอร์โดยใช้ WebAssembly โดยไม่ต้องใช้เซิร์ฟเวอร์ใดๆ
- การประทับเวลา (Timestamps)
- เครื่องหมายเวลาในการถอดเสียงซึ่งระบุเวลาที่แต่ละส่วนของคำพูดเกิดขึ้น มีประโยชน์สำหรับการนำทางบันทึกเสียงและสร้างรายงานการประชุม
- ผลลัพธ์ชั่วคราว (Interim Results)
- ข้อความการจดจำชั่วคราวจะแสดงแบบเรียลไทม์ในขณะที่กำลังพูด จะถูกแทนที่ด้วยผลลัพธ์การจดจำขั้นสุดท้ายเมื่อการพูดเสร็จสิ้น
- การตรวจจับกิจกรรมเสียง (Voice Activity Detection - VAD)
- เทคโนโลยีที่ตรวจจับส่วนที่มีเสียงพูดของมนุษย์ภายในสัญญาณเสียงโดยอัตโนมัติ ช่วยให้การถอดเสียงมีประสิทธิภาพมากขึ้นโดยการข้ามส่วนที่เงียบไป
FAQ
- Q.เสียงที่บันทึกไว้ของฉันจะถูกส่งไปยังเซิร์ฟเวอร์หรือไม่?
- ไม่ Whisper AI ทำงานทั้งหมดภายในเบราว์เซอร์ของคุณผ่าน WebAssembly ข้อมูลเสียงของคุณจะไม่เคยออกจากอุปกรณ์เลย เครื่องมือนี้ไม่ได้จัดเก็บหรือรวบรวมข้อมูลใดๆ ของคุณ
- Q.เบราว์เซอร์ใดบ้างที่รองรับ?
- Google Chrome และ Microsoft Edge ทำงานได้ดีที่สุด Firefox และ Safari รองรับ WebAssembly multi-threading อย่างจำกัด ซึ่งอาจส่งผลต่อประสิทธิภาพในการโหลดโมเดล
- Q.ฉันสามารถถอดเสียงภาษาอื่นนอกจากภาษาญี่ปุ่นได้หรือไม่?
- ได้ Whisper รองรับหลายสิบภาษา รวมถึงภาษาอังกฤษ ภาษาจีน ภาษาเกาหลี และภาษาสเปน เพียงแค่เลือกภาษาของคุณจากเมนูภาษา
- Q.ทำไมการโหลดครั้งแรกถึงช้า?
- ไฟล์โมเดล Whisper (ประมาณ 40–70MB ขึ้นอยู่กับขนาด) จะถูกดาวน์โหลดจาก CDN ในการใช้งานครั้งแรก หลังจากนั้นเบราว์เซอร์จะแคชไฟล์เหล่านั้นไว้เพื่อการโหลดที่เกือบจะในทันทีสำหรับการใช้งานในครั้งต่อๆ ไป
- Q.ฉันจะปรับปรุงความแม่นยำในการจดจำได้อย่างไร?
- ใช้สภาพแวดล้อมที่เงียบสงบ พูดให้ชัดเจนใกล้ๆ ไมโครโฟน และใช้ไมโครโฟนภายนอกถ้าเป็นไปได้ การเลือกภาษาที่ถูกต้องยังช่วยปรับปรุงผลลัพธ์ได้อย่างมาก
- Q.ฉันสามารถบันทึกผลการถอดเสียงเป็นไฟล์ได้หรือไม่?
- ได้ ใช้ปุ่มบันทึกเพื่อบันทึกการถอดเสียงเป็นไฟล์ .txt หรือใช้ปุ่มคัดลอกเพื่อคัดลอกไปยังคลิปบอร์ดและวางลงในแอปอื่นๆ
- Q.ฉันสามารถใช้เครื่องมือนี้บนสมาร์ทโฟนได้หรือไม่?
- รองรับ Chrome บน Android ส่วน Safari บน iOS รองรับ WebAssembly multi-threading อย่างจำกัด ซึ่งอาจจำกัดประสิทธิภาพการโหลดโมเดลและการถอดเสียง
การใช้งาน
การประชุมที่เป็นความลับ
ถอดเสียงการประชุมทางธุรกิจที่เป็นความลับอย่างปลอดภัยโดยไม่ต้องอัปโหลดใดๆ ขึ้นสู่เซิร์ฟเวอร์
ส่งความคิดเห็น
โปรดแจ้งให้เราทราบความคิดเห็นของคุณเพื่อช่วยปรับปรุงเครื่องมือ
การส่งความคิดเห็นถูกระงับชั่วคราว
เซิร์ฟเวอร์ไม่ว่างหรือระบบป้องกันสแปมทำงานอยู่ โปรดลองอีกครั้งในภายหลัง