聯(lián)系我們contact
電話:027-59760188-801
地址:武漢市東湖高新開(kāi)發(fā)區(qū)光谷大道120號(hào)現(xiàn)代森林小鎮(zhèn)A座609室
發(fā)布時(shí)間:2018-03-18 瀏覽次數(shù):1313次
所有實(shí)驗(yàn)室面對(duì)一個(gè)共同問(wèn)題是實(shí)驗(yàn)數(shù)據(jù)的處理和交換,這里尤其以分析實(shí)驗(yàn)室最為典型。我們走訪諸多分析實(shí)驗(yàn)室時(shí),大家談到最多的就是分析儀器的原始數(shù)據(jù),包括其保存,處理,再分析等問(wèn)題。大家都有一個(gè)烏托邦式的夢(mèng)想,那就是可以用一種軟件打開(kāi)多個(gè)不同廠家,不同類型的分析數(shù)據(jù)。夢(mèng)想歸夢(mèng)想,現(xiàn)實(shí)仍然是現(xiàn)實(shí)。儀器供應(yīng)商們提供儀器的同時(shí)都會(huì)采用自己的專有格式的數(shù)據(jù),這導(dǎo)致了數(shù)據(jù)處理,協(xié)作,儀器集成和存檔遇到很多問(wèn)題。在處理這些原始數(shù)據(jù)時(shí)除了廠家配套的軟件,很少有可選的余地。
從2003年開(kāi)始, ASTM E13.15小組委員會(huì)開(kāi)始籌劃開(kāi)發(fā)一套分析數(shù)據(jù)的通用標(biāo)準(zhǔn),力求適用于所有分析儀器技術(shù),并將其命名為AnIML。為了平衡各方利益,該小組聚集了來(lái)自儀器廠商,最終用戶,政府機(jī)構(gòu)和學(xué)術(shù)界的人士,共同商討以確保格式完整,適用性強(qiáng)。
AnIML并不是業(yè)界第一次嘗試將分析數(shù)據(jù)標(biāo)準(zhǔn)化。之前已經(jīng)設(shè)計(jì)過(guò)多種標(biāo)準(zhǔn),如ANDI(也叫NetCDF,適用于GC,LC,MS),JCAMP-DX(IR,F(xiàn)TIR,NMR,UV/Vis),SpectroML(分子光譜數(shù)據(jù))以及mzML(質(zhì)譜),以及一些儀器公司倡導(dǎo)的標(biāo)準(zhǔn),如Thermo 所提出的GAML。雖說(shuō)這些數(shù)據(jù)格式在分析儀器行業(yè)取得了較大的支持力度,但它們大都只針對(duì)特定的分析技術(shù),例如JCAMP-DX主要針對(duì)的光譜技術(shù),而AnIML期望建立的是一種適用于所有分析技術(shù)的數(shù)據(jù)格式。借助清晰完整的擴(kuò)展方式,即便將來(lái)出現(xiàn)了新的分析技術(shù),也不用改變現(xiàn)有的軟件,從而簡(jiǎn)化數(shù)據(jù)管理的工作。由此,XML這門強(qiáng)大而影響深遠(yuǎn)的語(yǔ)言終于可以將其影響力擴(kuò)展到分析實(shí)驗(yàn)室。
AnIML是基于W3C XML標(biāo)準(zhǔn)的技術(shù)。XML獨(dú)立于平臺(tái),易于創(chuàng)建,使用和維護(hù)。這降低了使用門檻,幾乎所有的主流軟件開(kāi)發(fā)商都支持XML,并且存在大量以XML格式為基礎(chǔ)的工具。 由于XML是基于文本的。因此可以用最簡(jiǎn)單的文本編輯器編輯AnIML文件 – 而不需要特定的軟件。盡管這樣不一定方便,但保留這一特性是用于長(zhǎng)期數(shù)據(jù)保存方案的關(guān)鍵:即使丟失了之前的軟件,我們?nèi)耘f可以獲取我們需要的數(shù)據(jù)。
實(shí)現(xiàn)AnIML的靈活性和通用性的方法并不復(fù)雜,AnIML數(shù)據(jù)標(biāo)準(zhǔn)包含兩個(gè)部分,一個(gè)是通用的數(shù)據(jù)容器,稱為AnIML核心(AnIML core),可以存儲(chǔ)任何科學(xué)數(shù)據(jù)。構(gòu)成AnIML核心的包括樣品數(shù)據(jù)集(SampleSet)、實(shí)驗(yàn)步驟數(shù)據(jù)集(ExperimentStepSet)、審計(jì)跟蹤記錄數(shù)據(jù)集(AuditTrailEntrySet)、簽名記錄集(SignatureSet)。
在AnIML的核心之上,是“技術(shù)定義”(Technique Definition)部分,所謂的“技術(shù)定義”就是說(shuō)明針對(duì)某種分析技術(shù)如何去使用數(shù)據(jù)容器。技術(shù)定義(Technique Definition)可以被看作是記錄某種分析實(shí)驗(yàn)所需要的數(shù)據(jù)字段的目錄。技術(shù)定義文件屬于常規(guī)的XML文件中的DTD文件,可以隨時(shí)重新創(chuàng)建。通過(guò) DTD,每一個(gè) XML 文件均可攜帶一個(gè)有關(guān)其自身格式的描述。雖說(shuō)AnIML是普適性的,但對(duì)于一些具體的很流行的分析技術(shù),例如液相色譜,紫外光譜,除了實(shí)驗(yàn)的一些公共特征,還是有其自身獨(dú)有的一些屬性的。通過(guò) DTD,大家可一致地使用某個(gè)標(biāo)準(zhǔn)的 DTD(HPLC,IR) 來(lái)交換數(shù)據(jù)。而應(yīng)用程序也可使用某個(gè)標(biāo)準(zhǔn)的 DTD 來(lái)驗(yàn)證從外部接收到的數(shù)據(jù)。同時(shí)還可以使用 DTD 來(lái)驗(yàn)證自身的數(shù)據(jù)。
作為一種通用型的數(shù)據(jù)表示方法,AnIML適合于包括光譜,色譜,圖像,生物分析等各種數(shù)據(jù)的表示。除了經(jīng)常使用的分析儀器數(shù)據(jù),AnIML也可用于新興的數(shù)據(jù)格式或一次性的探索性實(shí)驗(yàn),例如微流體芯片或特殊的傳感器。隨著技術(shù)的發(fā)展,新的分析技術(shù)和其相應(yīng)的技術(shù)說(shuō)明都將取得進(jìn)步。這種通用性的方法允許系統(tǒng)繼續(xù)使用這些早期的AnIML文件,而無(wú)需對(duì)軟件進(jìn)行修改或升級(jí)。
專有格式 | 通用格式/標(biāo)準(zhǔn)格式 |
二進(jìn)制 | 基于ASCII碼 (例如XML) |
結(jié)構(gòu)緊湊 | 冗長(zhǎng) |
快速讀/寫 | 讀寫慢 |
用戶數(shù)據(jù)采集和處理 | 主要用于數(shù)據(jù)共享和長(zhǎng)期保存 |
如果我們有心好好看看AnIML的技術(shù)文檔,你會(huì)發(fā)現(xiàn)AnIML就是純粹的XML技術(shù)。這將大大降低我們利用這一新技術(shù)的難度。能夠讀取和解析XML文檔的軟件不勝枚舉。為了掃盲,我這里再啰嗦幾句。XML是完全基于普通文本的。即便存儲(chǔ)二進(jìn)制表示的圖片,也會(huì)先將二進(jìn)制轉(zhuǎn)換為字符串再放入XML文檔中。我們可以用最簡(jiǎn)單的閱讀工具——記事本查看XML文檔。想想就知道這是多么美好的一件事情,數(shù)據(jù)長(zhǎng)期存儲(chǔ)的擔(dān)心可以落地了,找不到原始工作站軟件的人也可以出口氣了。當(dāng)然,那些認(rèn)為可以更方便修改數(shù)據(jù)的人美夢(mèng)做得就有點(diǎn)早了。
想想,如果能將我們所有的分析數(shù)據(jù)都轉(zhuǎn)變成同樣的格式,許多實(shí)驗(yàn)室中的共性問(wèn)題就都能得到解決。
LIMS和ELN集成:采用AnIML數(shù)據(jù)格式可以使得儀器中的數(shù)據(jù)更容易方便地傳輸?shù)狡渌囊恍?shù)據(jù)系統(tǒng)中,例如LIMS(實(shí)驗(yàn)室信息管理系統(tǒng))和ELN(電子實(shí)驗(yàn)記錄本系統(tǒng))。大家知道,不管是LIMS還是ELN與儀器的集成都是這類項(xiàng)目實(shí)施的一個(gè)難點(diǎn),既耗錢又費(fèi)力,最終可能還不討好。儀器種類一多,因?yàn)槊糠N儀器的數(shù)據(jù)格式都不一樣,工作量就會(huì)成倍增加。有了AnIML,就不再需要為每種儀器做獨(dú)立的接口。通過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化,從一個(gè)接口就可以獲取所有儀器的數(shù)據(jù),既減少了接口的數(shù)量,也降低了集成的成本。
協(xié)作:在許多行業(yè),企業(yè)經(jīng)常需要與內(nèi)部或外部的人員進(jìn)行合作,特別是在制藥行業(yè)中,外包業(yè)務(wù)的發(fā)展更是如火如荼。由于雙方使用的儀器和軟件有差別,數(shù)據(jù)產(chǎn)生方往往需要將這些儀器產(chǎn)生的數(shù)據(jù)進(jìn)行處理后生成各種電子表格或Pdf文件后,再傳遞給合作方。傳遞的數(shù)據(jù)主要是處理后的結(jié)果數(shù)據(jù),其中丟失很多重要的原始數(shù)據(jù)信息。采用AnIML標(biāo)準(zhǔn)后的分析儀器原始數(shù)據(jù)文件可以更容易地交換數(shù)據(jù)。不同于傳統(tǒng)的Excel電子表格和PDF報(bào)告,AnIML使我們能夠傳輸完整的分析數(shù)據(jù),合作方可以看到完整的原始數(shù)據(jù)。這既可以提高數(shù)據(jù)質(zhì)量,合作方也可對(duì)這些數(shù)據(jù)進(jìn)行再分析,提高數(shù)據(jù)的利用率。
長(zhǎng)期數(shù)據(jù)保存,在受監(jiān)管的行業(yè)里(例如制藥行業(yè)),分析數(shù)據(jù)的保存一直是一個(gè)難以解決的問(wèn)題。原因主要在于數(shù)據(jù)所需要保存的時(shí)間較長(zhǎng),甚至達(dá)數(shù)十年。數(shù)十年的時(shí)間對(duì)于IT技術(shù)來(lái)講,可能會(huì)發(fā)生天翻地覆的變化。同樣對(duì)于儀器配套的軟件來(lái)說(shuō),其也會(huì)經(jīng)歷無(wú)數(shù)個(gè)版本的升級(jí)。更為關(guān)鍵的是,即便解決軟件的問(wèn)題,其讀取數(shù)據(jù)的基礎(chǔ)環(huán)境也會(huì)發(fā)生變化,例如該軟件所適合的操作系統(tǒng)。要在幾十年里為某一類原始數(shù)據(jù)保存一個(gè)讀取的環(huán)境似乎不太合乎實(shí)際,尤其是在儀器種類和數(shù)據(jù)種類比較多的情況下。將這些數(shù)據(jù)轉(zhuǎn)換為AnIML可能是一個(gè)好的解決辦法。此舉能大為減少所需要的配套軟件工具,也不會(huì)受到基礎(chǔ)環(huán)境的制約,很自然會(huì)減少一個(gè)信息系統(tǒng)的運(yùn)行成本。
數(shù)據(jù)分析和報(bào)告:通常情況下,采集和處理分析數(shù)據(jù)僅僅是第一步。我們看到各種數(shù)據(jù)驅(qū)動(dòng)的工作流應(yīng)用在不斷增加。這些數(shù)據(jù)流方法在數(shù)據(jù)源頭上在不斷下探,逐步深入到原始數(shù)據(jù),并進(jìn)一步對(duì)這些數(shù)據(jù)集應(yīng)用可視化,實(shí)驗(yàn)設(shè)計(jì),多變量分析等統(tǒng)計(jì)學(xué)工具進(jìn)行數(shù)據(jù)分析。通過(guò)AnIML歸一化的原始數(shù)據(jù)將會(huì)使得為這些流程提供數(shù)據(jù)變得更加簡(jiǎn)單。
但這世界上沒(méi)有免費(fèi)的午餐,我們需要有能夠?qū)⒃瓉?lái)儀器格式的數(shù)據(jù)轉(zhuǎn)換為AnIML格式的工具,還得有能夠查看AnIML格式數(shù)據(jù)的工具。
為了建立AnIML,大家花了很長(zhǎng)的時(shí)間,這里面不單是技術(shù)性的問(wèn)題,還與一些非技術(shù)性的因素。分析實(shí)驗(yàn)室雖小,利益相關(guān)者卻眾多。到目前為止,AnIML的技術(shù)性的工作早已完成,大家可以放心使用。經(jīng)過(guò)ASTM表決之后,AnIML將成為一個(gè)開(kāi)放的公共的標(biāo)準(zhǔn)。與此同時(shí),真正施行這個(gè)標(biāo)準(zhǔn)所需要的工具的開(kāi)發(fā)早已走在了前面。對(duì)于終端用戶來(lái)說(shuō),桌面版的AnIML數(shù)據(jù)查看工具,Web和移動(dòng)平臺(tái),集成工具,數(shù)據(jù)轉(zhuǎn)換器都已經(jīng)有現(xiàn)成的了。對(duì)于供應(yīng)商來(lái)說(shuō),在他們現(xiàn)有的儀器軟件中嵌入AnIML功能也并非難事。