Trích xuất Bảng HTML
Instantly extract table data from HTML code
and convert it to CSV or Markdown.
Kết quả
Bạn cũng có thể thích
Giới thiệu Trích xuất Bảng HTML
Trích xuất Bảng HTML là một công cụ web miễn phí tự động phân tích mã nguồn HTML để xác định và trích xuất dữ liệu từ các thẻ <table>. Đây là một tiện ích tuyệt vời để làm sạch nội dung HTML đã thu thập hoặc trích xuất dữ liệu bảng từ các tệp HTML cũ để chuyển đổi sang các định dạng chuẩn phù hợp với các ứng dụng bảng tính.
Công cụ hỗ trợ xuất dữ liệu sang định dạng CSV, TSV, Markdown và JSON, mang lại sự linh hoạt tùy theo nhu cầu của bạn. Vì toàn bộ quá trình xử lý được thực hiện hoàn toàn trong trình duyệt web của bạn, mọi dữ liệu bảo mật hoặc thông tin cá nhân đều được giữ an toàn tuyệt đối và không bao giờ được gửi đến máy chủ bên ngoài.
Cách sử dụng
Dán Mã HTML
Dán mã nguồn HTML chứa bảng bạn muốn trích xuất vào khu vực nhập liệu. Bạn có thể dán toàn bộ mã nguồn của một trang web hoặc chỉ một đoạn mã bảng.
Chọn Định Dạng Đầu Ra
Chọn định dạng đầu ra mong muốn: CSV, TSV, Markdown hoặc JSON. CSV lý tưởng để mở trong Excel, trong khi Markdown rất phù hợp để dán vào tài liệu.
Trích Xuất và Sao Chép
Nhấp vào nút "Trích xuất Bảng" để phân tích ngay lập tức tất cả các bảng được tìm thấy trong mã nguồn. Kết quả sẽ được hiển thị bên dưới, nơi bạn có thể dễ dàng sao chép dữ liệu đã trích xuất.
Thuật ngữ
- HTML Table (<table>)
- Một phần tử HTML được sử dụng để thể hiện dữ liệu dạng bảng hai chiều trên một trang web. Nó bao gồm các phần tử liên quan như
<tr>(hàng),<th>(ô tiêu đề), và<td>(ô dữ liệu). - CSV (Comma-Separated Values)
- Một định dạng văn bản đơn giản sử dụng dấu phẩy (
,) để phân tách các trường dữ liệu. Nó được hỗ trợ rộng rãi bởi các ứng dụng bảng tính như Excel và Google Sheets, trở thành tiêu chuẩn cho việc di chuyển và xuất/nhập dữ liệu. - Markdown Table
- Một cú pháp định dạng dựa trên văn bản được sử dụng để tạo bảng. Bảng Markdown được hỗ trợ rộng rãi bởi các công cụ tài liệu như GitHub, Notion và Zenn, làm cho nó cực kỳ tiện lợi cho các lập trình viên khi viết tài liệu kỹ thuật.
- DOM (Document Object Model)
- Một giao diện lập trình cho các tài liệu HTML và XML. Công cụ này sử dụng API DOMParser gốc của trình duyệt để phân tích chuỗi HTML được nhập một cách an toàn và chính xác mà không cần dựa vào các biểu thức chính quy (regex) dễ bị lỗi.
- Rowspan / Colspan
- Các thuộc tính HTML được sử dụng để gộp các ô theo chiều dọc (rowspan) hoặc chiều ngang (colspan) trong một bảng. Công cụ này diễn giải chính xác các thuộc tính này và mở rộng đúng các ô đã gộp thành ma trận 2D để duy trì tính toàn vẹn dữ liệu trong quá trình chuyển đổi.
Câu hỏi thường gặp
- Q.Dữ liệu HTML của tôi có được lưu trên máy chủ không?
- Không, nó không được lưu trữ. Công cụ này thực hiện toàn bộ việc phân tích và trích xuất dữ liệu cục bộ trong trình duyệt của bạn bằng JavaScript. Vì không có dữ liệu nào được gửi đến máy chủ, bạn có thể sử dụng an toàn ngay cả với thông tin bảo mật.
- Q.Điều gì xảy ra nếu có nhiều bảng trong HTML?
- Công cụ sẽ tự động phát hiện tất cả các thẻ <code><table></code> trong mã nguồn HTML được cung cấp và trích xuất chúng thành các hộp kết quả riêng biệt. Bạn có thể sao chép dữ liệu từ từng bảng một cách riêng lẻ.
- Q.Nó có hỗ trợ các ô được gộp (rowspan / colspan) không?
- Có, nó hỗ trợ hoàn toàn. Nó diễn giải chính xác các thuộc tính gộp ô của HTML và mở rộng chúng một cách thích hợp thành ma trận (mảng 2D) trước khi chuyển đổi sang định dạng bạn muốn, đảm bảo không có dữ liệu nào bị thiếu hoặc lệch.
- Q.Nó có thể trích xuất dữ liệu từ HTML bị hỏng hoặc không hoàn chỉnh không?
- Vì chúng tôi sử dụng trình phân tích HTML tích hợp sẵn của trình duyệt (DOMParser), các lỗi cú pháp nhỏ mà trình duyệt có thể dung nạp sẽ được tự động sửa và phân tích. Tuy nhiên, nếu cấu trúc bị hỏng hoàn toàn, nó có thể không đọc được chính xác.
- Q.CSV được trích xuất hiển thị văn bản bị lỗi font khi mở trong Excel.
- Excel đôi khi không hiển thị chính xác các tệp CSV được mã hóa UTF-8. Bạn có thể giải quyết vấn đề này bằng cách nhập dữ liệu qua tab 'Data' của Excel bằng 'From Text/CSV', hoặc mở tệp trong trình soạn thảo văn bản và lưu lại dưới dạng UTF-8 with BOM.
Trường hợp sử dụng
Làm Sạch Dữ Liệu Thu Thập Web
Dễ dàng trích xuất dữ liệu bảng có cấu trúc từ mã nguồn HTML thô thu được qua các tập lệnh cào dữ liệu (scraping) tự động bằng các ngôn ngữ như Python, và lưu nó gọn gàng dưới dạng CSV.
Viết Tài Liệu Markdown
Nhanh chóng chuyển đổi các bảng đặc tả hiện có trên các trang web sang định dạng Markdown để dán trực tiếp vào GitHub readme hoặc tài liệu Notion.
Chuẩn Bị Phân Tích Dữ Liệu
Trích xuất dữ liệu được nhúng trong các bảng HTML phức tạp, lồng nhau dưới dạng JSON hoặc TSV để tăng tốc quá trình phân tích dữ liệu của bạn bằng các công cụ BI hoặc bảng tính.
Di Chuyển Dữ Liệu Hệ Thống Cũ
Hợp lý hóa quá trình phân tích các báo cáo HTML được tạo bởi các hệ thống cũ để tạo dữ liệu CSV trung gian nhằm nhập vào các cơ sở dữ liệu hiện đại.
Chi tiết kỹ thuật
DOMParser API
Để diễn giải chính xác cấu trúc linh hoạt và đôi khi mơ hồ của HTML, công cụ này sử dụng DOMParser gốc của trình duyệt thay vì dựa vào các biểu thức chính quy. Điều này đảm bảo độ chính xác tương đương với công cụ hiển thị của trình duyệt, dễ dàng xử lý các bảng lồng nhau và các thuộc tính phức tạp mà regex không thể.
Hơn nữa, để loại bỏ các rủi ro bảo mật như XSS (Cross-Site Scripting), quá trình phân tích được thực hiện an toàn mà không thực thi bất kỳ mã lệnh nhúng nào, và dữ liệu được trích xuất cẩn thận thông qua thuộc tính textContent.
Gửi phản hồi
Vui lòng cho chúng tôi biết suy nghĩ của bạn để giúp chúng tôi cải thiện công cụ.
Feedback is temporarily suspended
The server is busy or spam protection is active. Please try again later.