HTML 表格擷取器
Instantly extract table data from HTML code
and convert it to CSV or Markdown.
關於 HTML 表格擷取器
HTML 表格擷取器是一個免費的網路工具,可以自動解析 HTML 原始碼以識別並從 <table> 標籤中擷取資料。它是清理爬蟲擷取的 HTML 內容或從舊的 HTML 檔案中擷取表格資料並將其轉換為適合試算表應用程式的標準格式的絕佳工具。
此工具支援將資料匯出為 CSV、TSV、Markdown 和 JSON 格式,根據您的特定需求提供靈活性。由於所有處理都完全在您的網頁瀏覽器內執行,任何機密資料或個人識別資訊都將保持完全安全,並且永遠不會傳送到外部伺服器。
如何使用
貼上 HTML 程式碼
將包含您要擷取的表格的 HTML 原始碼貼到輸入區域。您可以貼上網頁的完整原始碼或僅貼上表格片段。
選擇輸出格式
選擇您想要的輸出格式:CSV、TSV、Markdown 或 JSON。CSV 適合在 Excel 中開啟,而 Markdown 非常適合貼到文件中。
擷取並複製
點擊「擷取表格」按鈕以瞬間解析原始碼中找到的所有表格。結果將顯示在下方,您可以在此處輕鬆複製擷取到的資料。
詞彙表
- HTML Table (<table>)
- 一種 HTML 元素,用於表示網頁上的二維表格資料。它由相關元素組成,如
<tr>(表格列)、<th>(標題儲存格) 和<td>(資料儲存格)。 - CSV (Comma-Separated Values)
- 一種簡單的文字格式,使用逗號 (
,) 分隔資料欄位。它被 Excel 和 Google Sheets 等試算表應用程式普遍接受,成為資料轉移和匯入/匯出任務的標準。 - Markdown Table
- 用於建立表格的純文字格式語法。Markdown 表格被 GitHub、Notion 和 Zenn 等文件工具廣泛支援,使其對撰寫技術文件的開發人員非常方便。
- DOM (Document Object Model)
- HTML 和 XML 文件的程式設計介面。此工具利用瀏覽器原生的 DOMParser API 安全且準確地分析輸入的 HTML 字串,而不依賴脆弱的正規表示式。
- Rowspan / Colspan
- 用於在表格內垂直 (rowspan) 或水平 (colspan) 合併儲存格的 HTML 屬性。這個擷取器精準地解釋這些屬性,並正確地將合併的儲存格擴展成 2D 矩陣,以在轉換期間保持資料完整性。
常見問題
- Q.我的 HTML 資料會被儲存在伺服器上嗎?
- 不會,不會被儲存。此工具使用 JavaScript 在您的瀏覽器中本機執行所有解析和資料擷取。由於沒有資料被傳送到伺服器,您可以安全地使用它,即使是機密資訊。
- Q.如果 HTML 中有多個表格會怎麼樣?
- 該工具會自動偵測提供的 HTML 原始碼中的所有 <code><table></code> 標籤,並將它們擷取到獨立的結果框中。您可以個別從每個表格複製資料。
- Q.它支援合併儲存格 (rowspan / colspan) 嗎?
- 是的,完全支援。它正確地解釋 HTML 合併屬性,並在轉換為您想要的格式之前適當地將它們擴展成矩陣 (二維陣列),確保沒有資料遺失或對齊錯誤。
- Q.它可以從損壞或不完整的 HTML 中擷取資料嗎?
- 由於我們使用瀏覽器內建的 HTML 解析器 (DOMParser),瀏覽器可以容忍的輕微語法錯誤會自動被修正並解析。但是,如果結構完全損壞,可能無法正確讀取。
- Q.在 Excel 中開啟擷取到的 CSV 時,顯示為亂碼。
- Excel 有時無法正確顯示以 UTF-8 編碼的 CSV 檔案。您可以透過 Excel 的「資料」標籤使用「從文字/CSV」匯入資料,或者在文字編輯器中開啟檔案並將其另存為帶有 BOM 的 UTF-8 來解決這個問題。
應用場景
清理網頁爬蟲資料
輕鬆從透過 Python 等語言中的自動化爬蟲腳本取得的原始 HTML 原始碼中擷取結構化表格資料,並將其整齊地儲存為 CSV。
撰寫 Markdown 文件
快速將網頁上現有的規格表轉換為 Markdown 格式,以直接貼到 GitHub 讀我檔案或 Notion 文件中。
資料分析準備
將嵌入在複雜、巢狀 HTML 表格中的資料擷取為 JSON 或 TSV,以加速您使用 BI 工具或試算表的資料分析管道。
傳統系統轉移
簡化解析由舊系統產生的 HTML 報告的過程,以建立用於匯入現代資料庫的中間 CSV 資料。
技術細節
DOMParser API
為了準確解釋靈活且有時模稜兩可的 HTML 結構,此工具使用瀏覽器原生的 DOMParser,而不是依賴正規表示式。這確保了等同於瀏覽器渲染引擎的精確度,輕鬆處理 regex 無法處理的巢狀表格和複雜屬性。
此外,為了消除如 XSS (跨站指令碼) 等安全風險,解析在安全的情況下執行,不執行任何嵌入式腳本,並透過 textContent 屬性仔細地擷取資料。
發送反饋
請告訴我們您的想法,以幫助我們改進工具。
Feedback is temporarily suspended
The server is busy or spam protection is active. Please try again later.