XSLT 是什么類型的語言?分析和概述 ![]() |
![]() | 級別: 初級 2001 年 2 月 01 日 XSLT是什么類型的語言,其用途是什么,為什么要這樣設計它?這些問題可以有許多不同的答案,初學者往往會感到困惑,因為這種語言與他們以前習慣使用的語言之間有很大差別。本文嘗試說明XSLT。本文并不試圖教您編寫 XSLT樣式表,它將說明這種語言的起源,它擅長什么,以及您為什么應該使用它。 我撰寫本文的初衷是為一篇關于 Saxon 的技術文章提供必要的背景知識,打算提供在傳統(tǒng) XSLT 處理器中使用的實現(xiàn)技巧內(nèi)幕,從而幫助用戶使其樣式表的性能達到最大化。但 developerWorks 的編輯們勸說我:這篇介紹應該吸引更廣泛的讀者,值得作為 XSLT 語言的獨立說明而單獨發(fā)表。 XSLT 語言由萬維網(wǎng)聯(lián)盟 (W3C) 定義,并且該語言的 1.0 版本在 1999 年 11 月 16 日作為“推薦書”發(fā)布(請參閱 參考資料)。我已經(jīng)在拙作 XSLT Programmers‘ Reference 中提供了全面的規(guī)范和用戶指南,因此我不打算在本文中涵蓋相同內(nèi)容。確切地講,本文的目的只是使讀者理解 XSLT 適合大規(guī)模事物的哪些位置。
XSLT 的最初目的是將信息內(nèi)容與 Web 顯示分離。如其最初定義那樣,HTML 通過按抽象概念(如段落、重點和編號列表)定義顯示來實現(xiàn)設備獨立性。隨著 Web 變得越來越商業(yè)化,出版人希望其輸出質量能達到與印刷品相同的質量。這逐漸導致越來越多地使用具體顯示控件,如頁面上材料的明確字體和絕對位置。然而不幸的是完全可以預料其副作用,即將相同的內(nèi)容傳遞到替代設備,如數(shù)字電視機和 WAP 電話(印刷業(yè)的行話 再現(xiàn)效果)將會變得日益困難。 由于吸收了印刷業(yè)使用 SGML 的經(jīng)驗,在 1998 年初定義了一種標記語言 XML,它用于表示獨立于顯示的結構化內(nèi)容。與 HTML 使用一組固定概念(如段落、列表和表)不同,XML 標記中使用的標記完全是用戶定義的,其用意是這些標記應該與所關注的對象(如人、地點、價格和日期)相關。盡管 HTML 中的元素本質上都是印刷樣式(雖然處于抽象級別),而 XML 的目標是元素應該描述實際對象。例如,清單 1 顯示了表示足球錦標賽結果的 XML 文檔。 清單 1. 表示足球錦標賽結果的 XML 文檔
如果要通過 Web 瀏覽器顯示這些足球賽的結果,不要指望系統(tǒng)會產(chǎn)生合理的布局。需要其它一些機制來告訴系統(tǒng)如何在瀏覽器屏幕、電視機、WAP 電話或真正在紙張上顯示數(shù)據(jù)。這就是使用樣式表的目的。樣式表是一組說明性的規(guī)則,它定義了應如何表示源文檔中標記標識的信息元素。 W3C 已經(jīng)定義了兩個系列的樣式表標準。第一個是在 HTML 中廣泛使用的 CSS(級聯(lián)樣式表),當然它也可以在 XML 中使用。例如,可以使用 CSS 來表示何時顯示發(fā)票,應支付的總額應該用 16 點 Helvetica 粗體字顯示。但是,CSS 不能執(zhí)行計算、重新整理或排序數(shù)據(jù)、組合多個源碼中的數(shù)據(jù)或根據(jù)用戶或會話的特征個性化顯示的內(nèi)容。在這個足球賽結果的例子中,CSS 語言(即使是最新版本 CSS2,尚未在產(chǎn)品中完全實現(xiàn))的功能還不夠強大,不能處理這項任務。由于這些原因,W3C 已著手開發(fā)更強大的樣式表語言 XSL(可擴展樣式表語言),并采納了 SGML 社區(qū)中開發(fā)的 DSSSL(文檔樣式、語義和規(guī)范語言)中許多好的構思。 在 XSL 的開發(fā)過程中(這在 DSSSL 中已有所預示),發(fā)現(xiàn)在準備 XML 文檔以備顯示的過程中執(zhí)行的任務可以分成兩個階段:轉換和格式化。轉換是將一個 XML 文檔(或其內(nèi)存中的表示法)轉換成另一個 XML 文檔的過程。格式是將已轉換的樹狀結構轉換成兩維圖形表示法或可能是一維音頻流的過程。XSLT 是為控制第一階段“轉換”而開發(fā)的語言。第二階段“格式化”的開發(fā)工作還是進行中。但實際上,大多數(shù)人現(xiàn)在使用 XSL 將 XML 文檔轉換成 HTML,并使用 HTML 瀏覽器作為格式化引擎。這是可行的,因為 HTML 實際上只是 XML 詞匯表的一個示例,而 XSLT 可以使用任何 XML 詞匯表作為其目標。 將轉換成一種語言和格式化成另一種語言這兩個操作分離經(jīng)證實的確是一種好的決策,因為轉換語言的許多應用程序經(jīng)證明無法向用戶顯示文檔。隨著 XML 日益廣泛地用作電子商務中的數(shù)據(jù)互換語法,對于應用程序將數(shù)據(jù)從一個 XML 詞匯表轉換成另一個 XML 詞匯表的需求也在不斷增加。例如,某個應用程序可能從電視收視指南中抽取電視節(jié)目的細節(jié),并將它們插入按次付費客戶的月帳單中。同樣,還有許多實用的數(shù)據(jù)轉換,在這些轉換中源詞匯表和目標詞匯表是相同的。它們包括數(shù)據(jù)過濾,以及商務操作,如施行漲價。因此,隨著在系統(tǒng)中開始越來越多地以 XML 語法的形式使用數(shù)據(jù),XSLT 就逐漸成為由于處理這些數(shù)據(jù)的隨處可見的高級語言。 在拙作中,我做了這樣一個比喻:XSLT 與 XML 的關系,就好象 SQL 與表格化數(shù)據(jù)的關系一樣。關系模型的強大功能并非來自用表存儲數(shù)據(jù)的思想,而是源于 SQL 中可行的基于關系運算的高級數(shù)據(jù)操作。同樣,XML 的層次化數(shù)據(jù)模型對應用程序開發(fā)者的幫助實際上也非常小。正是因為 XSLT 作為 XML 數(shù)據(jù)的高級操作語言提供了如此強大的功能。
就某些方面而言,XSLT 作為一種語言來說是非常古怪的。我不打算在本文中討論已做出的設計決策的基本原理,盡管可以通過它們在邏輯上追溯到語言設計者確定的對 XSLT 的要求。如需更完整的說明,請參閱拙作的第 1 章。 以下概述了 XSLT 語言的部分主要特性。 XSLT 樣式表是一個 XML 文檔 。通過使用 XML 的尖括號標記語法來表示文檔的結構。這種語法在某種程度上是比較笨拙的,而此決策可以使該語言變得更羅嗦。但是,它確實有好處。它表示可以自動使用 XML 的所有詞匯設備(例如,Unicode 字符編碼和轉義,使用外部實體等等)。它表示很容易使 XSLT 樣式表變成轉換的輸入或輸出,使該語言可以作用于自身。它還使將期望的 XML 輸出塊嵌入樣式表變得很容易。實際上,許多簡單的樣式表基本上可以寫作期望輸出文檔的模板,并且可以將一些特殊指令嵌入文本中,以便插入輸入中的變量數(shù)據(jù)或計算某個值。這就使 XSLT 在這個簡單的級別上非常類似于許多現(xiàn)有的專用 HTML 模板語言。 基本處理范例是模式匹配。 在這方面,XSLT 繼承了文本處理語言(如 Perl)的傳統(tǒng),這種傳統(tǒng)可以一直追溯到 1960 年代的語言,如 SNOBOL。XSLT 樣式表包括一組模板規(guī)則,每條規(guī)則都使用以下方式:“如果在輸入中遇到此條件,則生成下列輸出。”規(guī)則的順序是無關緊要的,當有幾條規(guī)則匹配同一個輸入時,將應用沖突解決算法。然而,XSLT 與串行文本處理語言的不同之處是 XSLT 對輸入并非逐行進行處理。實際上,XSLT 將輸入 XML 文檔視為樹狀結構,每條模板規(guī)則都適用于樹中的一個節(jié)點。模板規(guī)則本身可以決定下一步處理哪些節(jié)點,因此不必按輸入文檔的原始順序來掃描輸入。
XSLT 處理器使用樹狀結構作為其輸入,并生成另一個樹狀結構作為輸出。圖 1 中顯示了這一點。 圖 1. XSLT 輸入和輸出的樹狀結構 ![]() 常常通過對 XML 文檔進行語法分析來生成輸入樹狀結構,而輸出樹狀結構通常被串行化到另一個 XML 文檔中。但 XSLT 處理器本身操作的是樹狀結構,而不是 XML 字符流。這個概念最初給許多用戶的感覺是不切實際的,結果卻對理解如何執(zhí)行更復雜的轉換起了關鍵作用。首先,它表示 XSLT 處理器可以理解源文檔中與樹狀結構無關的特殊之處。例如,無論屬性是包括在單引號中還是在雙引號中,都不可能應用不同的處理,因為會將這兩種形式視為同一個基本文檔的不同表示方法。更深入地看,它表示處理輸入元素或生成輸出元素是一個原子操作。不可能將處理元素的開始標記和結束標記分成單獨的操作,因為一個元素會自動表示成樹模型的單節(jié)點。 XSLT 使用叫作 XPath 的子語言來引用輸入樹中的節(jié)點。XPath 本質上是與具有層次結構的 XML 數(shù)據(jù)模型相匹配的查詢語言。它可以通過按任何方向瀏覽樹來選擇節(jié)點,并根據(jù)節(jié)點的值和位置應用謂詞。它還包括用于基本字符串處理、數(shù)字計算和布爾代數(shù)的工具。例如,XPath 表達式 XSLT 以傳統(tǒng)語言(如 Lisp、Haskell 和 Scheme)中的功能性編程的概念為基礎。樣式表由模板組成,這些模板基本上是單一功能 -- 每個模板將輸出樹的一部分定義成一部分輸入樹的功能,并且不產(chǎn)生副作用。使用無副作用的規(guī)則受到嚴格控制(除了轉義成用類似 Java 的語言編寫的外部代碼)。XSLT 語言允許定義變量,但不允許現(xiàn)有變量更改它的值 -- 即沒有賦值語句。這個策略使許多新用戶感到困惑,其目的是為了允許逐步應用樣式表。其原理是如果語言沒有副作用,那么對輸入文檔做很小的改動時,不必從頭執(zhí)行整個轉換就應該可以計算出對輸出文檔的最后更改。目前必須說這只是理論上的可能,任何現(xiàn)有 XSLT 處理器還不能實現(xiàn)。(注:雖然 XSLT 以功能性編程概念為基礎,但它還不是一個完整的功能性編程語言,因為它缺少將函數(shù)當作一級數(shù)據(jù)類型進行處理的能力。)
在這個階段,使用示例會使語言變得更清楚。清單 2 顯示了列出足球賽結果的簡單樣式表。 清單 2. 足球賽結果的基本樣式表
這個樣式表包括兩個模板規(guī)則,一個匹配 該轉換的結果就是一個 HTML 文檔,該文檔在瀏覽器中的表示如圖 2 所示。 圖 2. 清單 2 中樣式表的結果 ![]() 這是一種非常簡單的表示信息的方法。然而,XSLT 的功能比這要強大得多。清單 3 包含了另一個可以操作相同源數(shù)據(jù)的樣式表。這次,樣式表計算一個比賽名次表,用來顯示錦標賽結束時各隊的名次。 清單3. 計算球隊名次表的樣式表
這里沒有足夠的篇幅來完整地說明這個樣式表,簡而言之,它為球隊聲明了一個變量,變量值是一個節(jié)點集合,其中每個參賽球隊都有一個實例。然后它計算每支球隊的勝、平或負的比賽場次總數(shù),以及球隊進球或失球的總數(shù)。圖 3 顯示了它在瀏覽器中的最終輸出結果。 圖 3. 清單 3 中名次樣式表的結果 ![]() 這個示例的目的是說明 XSLT 不單單能夠對源文檔中出現(xiàn)的文本指定字體和布局。它是一個完整的編程語言,能夠以任何方式轉換源數(shù)據(jù)以供顯示,或者輸入另一個應用程序。
您為什么考慮使用 XSLT? XSLT 給了您傳統(tǒng)高級聲明編程語言的所有好處,特別是對于轉換 XML 文檔的任務。 高級語言帶來的實際好處是開發(fā)生產(chǎn)力。但實際上,真正的價值源自于 更改的潛力 。與使用低級 DOM 和 SAX 接口編碼的過程性應用程序相比,用于轉換 XML 數(shù)據(jù)結構的 XSLT 應用程序更能適應對 XML 文檔細節(jié)的更改。在數(shù)據(jù)庫世界中,這種特性叫做 數(shù)據(jù)獨立性 ,正是由于數(shù)據(jù)獨立性導致了諸如 SQL 之類聲明性語言的成功,并使舊的引導性數(shù)據(jù)訪問語言走向衰亡。我堅信在 XML 世界中也會這樣。 當然與所有聲明性語言一樣,XSLT 也會降低性能。但是對于大多數(shù)應用程序,今天的 XSLT 處理器的性能已經(jīng)完全能夠滿足應用程序的需要,并且它會變得越來越好。在我的第二篇文章中,我將討論 XSLT 處理器中使用的一些優(yōu)化技巧,如我自己的 Saxon 產(chǎn)品。
我想要在本文中展示的是 XSLT 是一種用于操作 XML 文檔的完整高級語言,就如同 SQL 是操作關系表的高級語言一樣。應該注意到 XSLT 不僅是一種樣式設計語言,它比 CSS(或者甚至 CSS2)的功能更強大。 我見到過一些應用程序,它們的所有商務邏輯都用 XSLT 編碼。在一個三層在線銀行系統(tǒng)中,我看到:
該應用程序的數(shù)據(jù)都是 XML 格式的,并且邏輯(包括數(shù)據(jù)訪問邏輯、商務邏輯和顯示邏輯)都由 XSLT 來實現(xiàn)。我建議每個項目都采用那種體系結構,但這還需要很長時間,我認為我們會在幾年之內(nèi)見到那種系統(tǒng)。 作為一種編程語言,XSLT 有許多特性 -- 從它使用 XML 語法到其功能性編程原理的基礎 -- 還不為一般 Web 程序員所熟悉。那意味著一條陡峭的學習曲線和通常遇到許多挫折。當初對于 SQL 也是如此,所有這些表示 XSLT 與以前的編程語言有著本質的區(qū)別。但不要放棄:它是功能非常強大的技術,值得努力學習。
|