เครื่องมือดึงข้อมูลตาราง HTML
Instantly extract table data from HTML code
and convert it to CSV or Markdown.
ผลลัพธ์การดึงข้อมูล
เกี่ยวกับเครื่องมือดึงข้อมูลตาราง HTML
เครื่องมือดึงข้อมูลตาราง HTML เป็นเครื่องมือบนเว็บฟรีที่แยกวิเคราะห์ซอร์สโค้ด HTML อัตโนมัติเพื่อระบุและดึงข้อมูลจากแท็ก <table> เป็นยูทิลิตี้ที่ยอดเยี่ยมสำหรับการทำความสะอาดเนื้อหา HTML ที่ถูกสแครป หรือการดึงข้อมูลตารางจากไฟล์ HTML เก่าเพื่อแปลงเป็นรูปแบบมาตรฐานที่เหมาะสมสำหรับแอปพลิเคชันสเปรดชีต
เครื่องมือนี้รองรับการส่งออกข้อมูลเป็นรูปแบบ CSV, TSV, Markdown และ JSON เพื่อให้ความยืดหยุ่นตามความต้องการเฉพาะของคุณ เนื่องจากการประมวลผลทั้งหมดทำงานภายในเว็บเบราว์เซอร์ของคุณอย่างสมบูรณ์ ข้อมูลที่เป็นความลับหรือข้อมูลที่สามารถระบุตัวตนได้ส่วนบุคคลจะปลอดภัยและไม่มีการส่งไปยังเซิร์ฟเวอร์ภายนอก
วิธีใช้งาน
วางโค้ด HTML
วางซอร์สโค้ด HTML ที่มีตารางที่คุณต้องการดึงข้อมูลลงในพื้นที่ป้อนข้อมูล คุณสามารถวางซอร์สโค้ดของเว็บเพจทั้งหมดหรือเฉพาะส่วนย่อยของตารางก็ได้
เลือกรูปแบบผลลัพธ์
เลือกรูปแบบผลลัพธ์ที่คุณต้องการ: CSV, TSV, Markdown หรือ JSON รูปแบบ CSV เหมาะอย่างยิ่งสำหรับการเปิดใน Excel ในขณะที่ Markdown เหมาะสำหรับการวางลงในเอกสาร
ดึงข้อมูลและคัดลอก
คลิกปุ่ม "ดึงข้อมูลตาราง" เพื่อแยกวิเคราะห์ตารางทั้งหมดที่พบในซอร์สโค้ดทันที ผลลัพธ์จะแสดงด้านล่าง ซึ่งคุณสามารถคัดลอกข้อมูลที่ดึงมาได้อย่างง่ายดาย
อภิธานศัพท์
- HTML Table (<table>)
- องค์ประกอบ HTML ที่ใช้เพื่อแสดงข้อมูลตารางแบบสองมิติบนหน้าเว็บ ประกอบด้วยองค์ประกอบที่เกี่ยวข้อง เช่น
<tr>(แถวของตาราง),<th>(เซลล์ส่วนหัว), และ<td>(เซลล์ข้อมูล) - CSV (Comma-Separated Values)
- รูปแบบข้อความอย่างง่ายที่ใช้จุลภาค (
,) เพื่อแยกฟิลด์ข้อมูล เป็นที่ยอมรับในระดับสากลโดยแอปพลิเคชันสเปรดชีตเช่น Excel และ Google Sheets ทำให้เป็นมาตรฐานสำหรับการย้ายข้อมูลและงานนำเข้า/ส่งออก - Markdown Table
- รูปแบบวากยสัมพันธ์ตามข้อความที่ใช้เพื่อสร้างตาราง ตาราง Markdown ได้รับการสนับสนุนอย่างกว้างขวางจากเครื่องมือจัดการเอกสาร เช่น GitHub, Notion และ Zenn ทำให้สะดวกอย่างยิ่งสำหรับนักพัฒนาซอฟต์แวร์ในการเขียนเอกสารทางเทคนิค
- DOM (Document Object Model)
- อินเทอร์เฟซการเขียนโปรแกรมสำหรับเอกสาร HTML และ XML เครื่องมือนี้ใช้ API DOMParser ดั้งเดิมของเบราว์เซอร์เพื่อวิเคราะห์สตริง HTML ที่ป้อนอย่างปลอดภัยและแม่นยำ โดยไม่ต้องพึ่งพานิพจน์ทั่วไป (Regular Expressions) ที่เปราะบาง
- Rowspan / Colspan
- แอตทริบิวต์ HTML ที่ใช้เพื่อผสานเซลล์ในแนวตั้ง (rowspan) หรือแนวนอน (colspan) ภายในตาราง ตัวดึงข้อมูลนี้ตีความแอตทริบิวต์เหล่านี้อย่างแม่นยำและขยายเซลล์ที่ผสานเป็นเมทริกซ์ 2D อย่างถูกต้อง เพื่อรักษาความสมบูรณ์ของข้อมูลในระหว่างการแปลง
คำถามที่พบบ่อย
- Q.ข้อมูล HTML ของฉันถูกบันทึกไว้ในเซิร์ฟเวอร์หรือไม่?
- ไม่ ไม่ได้ถูกบันทึก เครื่องมือนี้ทำการแยกวิเคราะห์และดึงข้อมูลทั้งหมดภายในเบราว์เซอร์ของคุณโดยใช้ JavaScript เนื่องจากไม่มีข้อมูลใดถูกส่งไปยังเซิร์ฟเวอร์ คุณจึงสามารถใช้งานได้อย่างปลอดภัยแม้กับข้อมูลที่เป็นความลับ
- Q.จะเกิดอะไรขึ้นหากมีหลายตารางใน HTML?
- เครื่องมือจะตรวจจับแท็ก <code><table></code> ทั้งหมดในซอร์สโค้ด HTML ที่ให้มาโดยอัตโนมัติ และดึงข้อมูลออกเป็นกล่องผลลัพธ์แยกต่างหาก คุณสามารถคัดลอกข้อมูลจากแต่ละตารางแยกกันได้
- Q.รองรับการผสานเซลล์ (rowspan / colspan) หรือไม่?
- ใช่ รองรับอย่างสมบูรณ์ มันตีความแอตทริบิวต์การผสานเซลล์ของ HTML อย่างถูกต้องและขยายเซลล์เหล่านั้นให้เหมาะสมเป็นเมทริกซ์ (อาร์เรย์ 2 มิติ) ก่อนที่จะแปลงเป็นรูปแบบที่คุณต้องการ ทำให้แน่ใจว่าจะไม่มีข้อมูลหายไปหรือจัดตำแหน่งไม่ตรง
- Q.สามารถดึงข้อมูลจาก HTML ที่เสียหายหรือไม่สมบูรณ์ได้หรือไม่?
- เนื่องจากเราใช้ตัวแยกวิเคราะห์ HTML ในตัวของเบราว์เซอร์ (DOMParser) ข้อผิดพลาดทางไวยากรณ์เล็กน้อยที่เบราว์เซอร์สามารถทนได้จะได้รับการแก้ไขและแยกวิเคราะห์โดยอัตโนมัติ อย่างไรก็ตาม หากโครงสร้างเสียหายอย่างสมบูรณ์ อาจไม่สามารถอ่านได้อย่างถูกต้อง
- Q.CSV ที่ดึงมาแสดงข้อความที่อ่านไม่ออกเมื่อเปิดใน Excel
- บางครั้ง Excel ไม่สามารถแสดงไฟล์ CSV ที่เข้ารหัส UTF-8 ได้อย่างถูกต้อง คุณสามารถแก้ปัญหานี้ได้โดยนำเข้าข้อมูลผ่านแท็บ 'Data' ของ Excel โดยใช้ 'From Text/CSV' หรือโดยการเปิดไฟล์ในโปรแกรมแก้ไขข้อความและบันทึกเป็น UTF-8 with BOM
กรณีการใช้งาน
การทำความสะอาดข้อมูลจากการขูดเว็บ (Web Scraping)
ดึงข้อมูลตารางที่มีโครงสร้างได้อย่างง่ายดายจากซอร์สโค้ด HTML ดิบที่ได้จากสคริปต์การขูดข้อมูลอัตโนมัติในภาษาอย่าง Python และบันทึกอย่างเป็นระเบียบในรูปแบบ CSV
การเขียนเอกสาร Markdown
แปลงตารางข้อกำหนดที่มีอยู่บนหน้าเว็บเป็นรูปแบบ Markdown ได้อย่างรวดเร็ว เพื่อวางลงใน Readme ของ GitHub หรือเอกสาร Notion โดยตรง
การเตรียมการวิเคราะห์ข้อมูล
ดึงข้อมูลที่ฝังอยู่ในตาราง HTML ที่ซ้อนกันซับซ้อนในรูปแบบ JSON หรือ TSV เพื่อเร่งขั้นตอนการวิเคราะห์ข้อมูลของคุณโดยใช้เครื่องมือ BI หรือสเปรดชีต
การย้ายระบบดั้งเดิม (Legacy System Migration)
เพิ่มความคล่องตัวในกระบวนการแยกวิเคราะห์รายงาน HTML ที่สร้างโดยระบบเก่า เพื่อสร้างข้อมูล CSV กลางสำหรับนำเข้าสู่ฐานข้อมูลสมัยใหม่
รายละเอียดทางเทคนิค
DOMParser API
เพื่อตีความโครงสร้าง HTML ที่มีความยืดหยุ่นและบางครั้งมีความคลุมเครืออย่างถูกต้อง เครื่องมือนี้จึงใช้ DOMParser ดั้งเดิมของเบราว์เซอร์แทนที่จะพึ่งพานิพจน์ทั่วไป วิธีนี้ช่วยให้มั่นใจได้ถึงความแม่นยำเทียบเท่ากับเอ็นจิ้นการแสดงผลของเบราว์เซอร์ ทำให้จัดการตารางที่ซ้อนกันและแอตทริบิวต์ที่ซับซ้อนซึ่ง regex ทำไม่ได้อย่างง่ายดาย
นอกจากนี้ เพื่อกำจัดความเสี่ยงด้านความปลอดภัย เช่น XSS (Cross-Site Scripting) การแยกวิเคราะห์จะถูกดำเนินการอย่างปลอดภัยโดยไม่ต้องรันสคริปต์ที่ฝังอยู่ และข้อมูลจะถูกดึงข้อมูลอย่างระมัดระวังผ่านแอตทริบิวต์ textContent
ส่งความคิดเห็น
โปรดแจ้งให้เราทราบความคิดเห็นของคุณเพื่อช่วยปรับปรุงเครื่องมือ
การส่งความคิดเห็นถูกระงับชั่วคราว
เซิร์ฟเวอร์ไม่ว่างหรือระบบป้องกันสแปมทำงานอยู่ โปรดลองอีกครั้งในภายหลัง