聯(lián)系我們contact
電話:027-59760188-801
地址:武漢市東湖高新開(kāi)發(fā)區(qū)光谷大道120號(hào)現(xiàn)代森林小鎮(zhèn)A座609室
發(fā)布時(shí)間:2018-08-30 瀏覽次數(shù):1463次
作為兩款最主流的科學(xué)數(shù)據(jù)管理系統(tǒng)之一,ECM在制藥行業(yè)廣泛使用。其主要功能可以歸納為三個(gè)方面:
1)數(shù)據(jù)上傳;
2)數(shù)據(jù)的流程化管理;
3)提升數(shù)據(jù)索引指數(shù)與可檢索性。
另外還有一些輔助性的功能模塊,比如業(yè)務(wù)流程管理模塊(BPM)、智能報(bào)告模塊(Intelligent Reporter)、或者ECM與LIMS以及ELN的整合使用。
總體來(lái)說(shuō),ECM是一款不錯(cuò)的SDMS,然而在國(guó)內(nèi)制藥企業(yè)中的使用狀況并不理想。多數(shù)企業(yè)并沒(méi)有使用到數(shù)據(jù)上傳之外的功能,即便是單純的數(shù)據(jù)上傳也沒(méi)能用好。本文主要探討ECM數(shù)據(jù)上傳方面的風(fēng)險(xiǎn)點(diǎn)及其控制措施。
就ECM的設(shè)計(jì)初衷來(lái)說(shuō),數(shù)據(jù)上傳只是后續(xù)數(shù)據(jù)管理環(huán)節(jié)(數(shù)據(jù)的組織、索引、存儲(chǔ)、存檔、搜索、共享等)的基礎(chǔ),而不是目的。為確保后續(xù)數(shù)據(jù)管理環(huán)節(jié)的高效,ECM設(shè)計(jì)了較為復(fù)雜的上傳邏輯,加上ECM自身的一些小缺點(diǎn),對(duì)ECM的部署、配置、維護(hù),以及本地原始數(shù)據(jù)管理均有較高的要求。尤其是在國(guó)內(nèi)藥企的使用環(huán)境中,具有眾多的風(fēng)險(xiǎn)點(diǎn),比如:
1) 未進(jìn)行詳細(xì)的上傳數(shù)據(jù)調(diào)查,建立上傳任務(wù)時(shí)極易遺漏一些數(shù)據(jù)路徑。
2) 上傳方式配置不合理,導(dǎo)致數(shù)據(jù)上傳遺漏、上傳失敗或大量冗余數(shù)據(jù)。
3) 上傳層級(jí)配置不合理,比如上傳層級(jí)未完全覆蓋需上傳的數(shù)據(jù)。
4) 不能有效避免實(shí)驗(yàn)人員將文件錯(cuò)誤地存儲(chǔ)到指定層級(jí)以外的層級(jí)。
5) 文件或文件夾命名包含中文或特殊字符。
6) 路徑映射錯(cuò)誤。
7)上傳周期不合理,導(dǎo)致計(jì)劃任務(wù)主機(jī)或服務(wù)器的”堵車”,進(jìn)而導(dǎo)致數(shù)據(jù)不能及時(shí)上傳或永久不能上傳。
8)不當(dāng)人為干預(yù),比如先將原始數(shù)據(jù)拷貝到中轉(zhuǎn)路徑,ECM再?gòu)闹修D(zhuǎn)路徑抓取,極易導(dǎo)致文件不能及時(shí)上傳、漏傳或覆蓋等問(wèn)題。
9)郵件設(shè)置不合理,導(dǎo)致郵件發(fā)送失敗或影響ECM系統(tǒng)本身的穩(wěn)定性。
10) 對(duì)計(jì)劃任務(wù)主機(jī)或服務(wù)器的錯(cuò)誤維護(hù),導(dǎo)致數(shù)據(jù)不能正常上傳。
11)對(duì)計(jì)劃任務(wù)的錯(cuò)誤維護(hù)導(dǎo)致文件不能正常上傳,比如對(duì)計(jì)劃任務(wù)的錯(cuò)誤修改、停用或刪除。
12)源計(jì)算機(jī)的共享故障或網(wǎng)絡(luò)故障,或者對(duì)源計(jì)算機(jī)進(jìn)行的錯(cuò)誤維護(hù),導(dǎo)致數(shù)據(jù)不能及時(shí)上傳。
13)數(shù)據(jù)上傳依賴高頻率的人工復(fù)核,增加管理成本,在管理員未及時(shí)查看到或排除警報(bào)信息時(shí),一些非持續(xù)性警報(bào)信息會(huì)被后續(xù)信息覆蓋,未及時(shí)排除的文件上傳異常后續(xù)將很難被發(fā)現(xiàn)。
14)未建立合理的數(shù)據(jù)管理流程,比如未建立本地?cái)?shù)據(jù)處理、數(shù)據(jù)歸檔以及ECM自身備份的機(jī)制。
這些問(wèn)題的根源可以分為兩個(gè)方面:
1)ECM本身的特點(diǎn);
2)系統(tǒng)部署、配置和使用問(wèn)題。
01 做好上傳數(shù)據(jù)調(diào)查
用戶往往清楚常用數(shù)據(jù)的存放位置(如方法文件、數(shù)據(jù)文件等),但不太清楚不直接接觸數(shù)據(jù)的存放位置(如審計(jì)跟蹤)。
比如Cary 100紫外-可見(jiàn)光分光光度計(jì),廠家一般會(huì)告訴用戶數(shù)據(jù)都存儲(chǔ)在SQL數(shù)據(jù)庫(kù)中,所以一些用戶只對(duì)SQL數(shù)據(jù)庫(kù)進(jìn)行了上傳,而忽略了存儲(chǔ)在SQL數(shù)據(jù)庫(kù)以外的系統(tǒng)審計(jì)跟蹤數(shù)據(jù)。甚至有些儀器特殊到原始數(shù)據(jù)存放在單獨(dú)文件中,元數(shù)據(jù)(含數(shù)據(jù)的修改日志等)存儲(chǔ)在數(shù)據(jù)庫(kù)中,而系統(tǒng)的審計(jì)跟蹤卻存儲(chǔ)在另外的文件中。還有一些軟件的審計(jì)跟蹤干脆存儲(chǔ)在操作系統(tǒng)的日志中。這些情況在分析儀器中普遍存在,很容易被疏漏,一旦源計(jì)算機(jī)出現(xiàn)軟硬件故障或升級(jí)等,就會(huì)發(fā)現(xiàn)數(shù)據(jù)丟失。
因此,需要對(duì)每臺(tái)儀器進(jìn)行上傳數(shù)據(jù)調(diào)查,再根據(jù)調(diào)查結(jié)果配置計(jì)劃上傳任務(wù)。
02 采用合理的上傳模式
一般建議使用第3種打包外加同級(jí)單個(gè)文件的上傳方式(Create and upload SSZIP files for each folder and subfolder structure, include files at selected level),在4種打包方式中這是最合適的,另外3種打包方式要么可能造成數(shù)據(jù)遺漏、要么可能導(dǎo)致數(shù)據(jù)存儲(chǔ)混亂、或者導(dǎo)致更多的數(shù)據(jù)冗余。使用第3種打包方式時(shí)也要注意避免大量文件打到同一個(gè)壓縮包的情況。打包層級(jí)過(guò)高(比如為了省事將根目錄打包),在有任何子文件變動(dòng)時(shí),整個(gè)文件夾將重新打包上傳,導(dǎo)致大量數(shù)據(jù)冗余。當(dāng)其中的子文件或子文件夾有問(wèn)題時(shí),還將導(dǎo)致整個(gè)文件夾不能上傳,同時(shí)將可能導(dǎo)致大量的臨時(shí)文件被上傳至服務(wù)器緩存文件夾中,最終快速撐爆服務(wù)器。
下圖是選擇第3種打包方式并從第4層開(kāi)始打包的上傳對(duì)應(yīng)情況:
03 設(shè)置合理的上傳層級(jí)
ECM的計(jì)劃上傳任務(wù)如設(shè)置為上傳指定的層級(jí),則只上傳該層級(jí)的文件,其它層級(jí)的文件都不能上傳。為避免后續(xù)使用過(guò)程中源路徑下產(chǎn)生更低層級(jí)的文件不能上傳的情況,應(yīng)統(tǒng)一設(shè)置為上傳指定層級(jí)及以下層級(jí)的文件,而不是只上傳指定層級(jí)的文件。
ECM提供了建立ECM存儲(chǔ)和本地存儲(chǔ)的直觀關(guān)聯(lián)的方式——Map模式,使用Map模式時(shí)要考慮Map層級(jí)與上傳層級(jí)之間的關(guān)系。一個(gè)容易犯的錯(cuò)誤是,文件上傳開(kāi)始層級(jí)設(shè)定值高于本地與ECM中Folder對(duì)應(yīng)的文件夾,導(dǎo)致本地文件無(wú)法歸屬到具體的Folder(ECM),從而無(wú)法上傳。
圖一個(gè)映射層級(jí)錯(cuò)誤的示例,按照上傳層級(jí)配置應(yīng)該上傳的第3級(jí)文件(File 4),由于Map錯(cuò)誤將不會(huì)上傳。
04 規(guī)范本地?cái)?shù)據(jù)的存放行為
任何存放在比指定層級(jí)更高層級(jí)的文件均不能上傳。因此有必要建立可執(zhí)行的原始數(shù)據(jù)存儲(chǔ)規(guī)范及檢查機(jī)制,避免用戶將數(shù)據(jù)存放在非指定路徑導(dǎo)致不能被上傳。
建立原始數(shù)據(jù)存儲(chǔ)規(guī)范時(shí)需要注意的是,文件在ECM中的存儲(chǔ)結(jié)構(gòu)為四級(jí)結(jié)構(gòu),本地層級(jí)不足四級(jí)的,需要在ECM中補(bǔ)足四級(jí),而本地目錄大于四級(jí)的,ECM中也僅能存儲(chǔ)四級(jí)目錄。無(wú)論是ECM中文件夾層級(jí)的建立,或者本地路徑下文件存放層級(jí)的規(guī)范,都要充分考慮本地文件存放路徑與ECM中目錄結(jié)構(gòu)的對(duì)應(yīng)關(guān)系,以便用戶后期能直觀地使用文件瀏覽的方式檢索、查看或下載目標(biāo)文件。
05 規(guī)劃好數(shù)據(jù)在ECM中的存儲(chǔ)結(jié)構(gòu)
文件在ECM中的存儲(chǔ)層級(jí)還要考慮每一級(jí)文件夾下的子對(duì)象(指文件夾和文件)的個(gè)數(shù),子對(duì)象個(gè)數(shù)太多將會(huì)嚴(yán)重影響系統(tǒng)的響應(yīng)速度,降低文件瀏覽、下載、簽出、簽入、查看的速度。
在ECM中建立存儲(chǔ)路徑時(shí),除了考慮與數(shù)據(jù)源對(duì)應(yīng),還應(yīng)考慮未來(lái)的變更及擴(kuò)展。比如很多用戶喜歡用儀器編號(hào)命名Location,但如果一旦儀器配套電腦更換,新電腦的數(shù)據(jù)還是上傳到老路徑中?這樣極容易造成數(shù)據(jù)錯(cuò)亂和混淆,如果在Location的命名中同時(shí)加上儀器編號(hào)和電腦名稱則可以避免這個(gè)問(wèn)題。
06 設(shè)置合理的上傳頻率
上傳周期的確定除了依據(jù)”系統(tǒng)影響性”評(píng)估結(jié)果外,還應(yīng)將待上傳數(shù)據(jù)總量、數(shù)據(jù)增長(zhǎng)速度、計(jì)劃任務(wù)主機(jī)的總體負(fù)載等考慮在內(nèi)。密集的上傳周期不但不能起到及時(shí)上傳的效果,還將導(dǎo)致上傳任務(wù)的”堵車”,導(dǎo)致大量的臨時(shí)中轉(zhuǎn)文件產(chǎn)生,增加管理工作量及出錯(cuò)風(fēng)險(xiǎn),反而降低文件上傳的及時(shí)性。在ECM的驗(yàn)證過(guò)程中,我們多次發(fā)現(xiàn)上傳周期過(guò)短導(dǎo)致數(shù)據(jù)上傳延后的情況,一些特殊情況下還會(huì)導(dǎo)致文件永久不上傳。
07 避免使用”中繼文件夾”作為上傳源路徑
應(yīng)該盡量減少或避免人為干預(yù),實(shí)現(xiàn)數(shù)據(jù)上傳的全自動(dòng)化。對(duì)于部分不具備自動(dòng)導(dǎo)出功能的數(shù)據(jù)庫(kù)類型的數(shù)據(jù)源,應(yīng)該考慮使用輔助技術(shù)手段實(shí)現(xiàn)數(shù)據(jù)庫(kù)的自動(dòng)備份。還有一些用戶,因?yàn)閾?dān)心上傳儀器正在使用的數(shù)據(jù)路徑會(huì)導(dǎo)致儀器運(yùn)行異常,竟使用了一種極不可取的方式:手動(dòng)拷貝數(shù)據(jù)到中轉(zhuǎn)文件夾,再使用ECM上傳中轉(zhuǎn)文件夾中的數(shù)據(jù)。實(shí)際上,如無(wú)配置錯(cuò)誤,直接上傳儀器正在使用的數(shù)據(jù)路徑?jīng)]有任何問(wèn)題。
08 定期清除本地?cái)?shù)據(jù)
很多企業(yè)會(huì)選擇將本地原始數(shù)據(jù)繼續(xù)留存在源路徑下,這并不是一個(gè)好的做法。隨著時(shí)間的推移,源路徑下的文件越來(lái)越多,將降低計(jì)算機(jī)系統(tǒng)及儀器軟件的運(yùn)行速度,在制藥企業(yè)中,分析儀器配套電腦開(kāi)機(jī)時(shí)間長(zhǎng)達(dá)1小時(shí)以上的并不罕見(jiàn)。
隨著本地原始數(shù)據(jù)的大量累積,ECM計(jì)劃上傳任務(wù)的單次運(yùn)行時(shí)間也將線性延長(zhǎng)。比如一臺(tái)累積了2年數(shù)據(jù)的文件型液相色譜儀,其計(jì)劃任務(wù)單次運(yùn)行的掃描時(shí)間可能達(dá)到1個(gè)小時(shí)以上。
文件長(zhǎng)期留存于本地還有被誤操作修改的風(fēng)險(xiǎn),導(dǎo)致ECM上的文件與本地不符或者ECM上產(chǎn)生沒(méi)有意義的新版本文件,有些時(shí)候這些誤操作帶來(lái)的新版本甚至?xí)?lái)誤導(dǎo)或者額外的解釋工作。
當(dāng)管理人員不得不清除本地?cái)?shù)據(jù)時(shí)(比如磁盤空間占滿),又將面臨一個(gè)頭痛的問(wèn)題:如果依據(jù)數(shù)據(jù)產(chǎn)生的時(shí)間間隔去刪除往往需要逐一操作,工作量大而且可能帶來(lái)誤操作;如果全部刪除又將影響研究人員對(duì)近期數(shù)據(jù)的正常使用。
應(yīng)根據(jù)數(shù)據(jù)使用頻率調(diào)查結(jié)果為不同的數(shù)據(jù)源設(shè)定數(shù)據(jù)刪除計(jì)劃。通過(guò)ECM的自動(dòng)刪除功能,保持源計(jì)算機(jī)及ECM的性能,避免可能的合規(guī)問(wèn)題,同時(shí)不影響到研究人員對(duì)數(shù)據(jù)的正常使用。
09 建立數(shù)據(jù)自動(dòng)歸檔流程
ECM具有自動(dòng)歸檔數(shù)據(jù)的功能,可以在設(shè)定的前提條件下(比如文件上傳后的特定時(shí)間間隔之后)進(jìn)行自動(dòng)歸檔,將ECM數(shù)據(jù)存儲(chǔ)服務(wù)器中的數(shù)據(jù)文件轉(zhuǎn)移到歸檔存儲(chǔ)服務(wù)器中。這將有助于確保數(shù)據(jù)存儲(chǔ)服務(wù)器的磁盤空間,避免因磁盤空間占滿等異常情況導(dǎo)致的應(yīng)急處理事件,降低管理成本并提高系統(tǒng)的業(yè)務(wù)可持續(xù)性。
10 做好ECM本身的備份
一些企業(yè)將原始數(shù)據(jù)存放在本地計(jì)算機(jī),將ECM上的數(shù)據(jù)視為備份,沒(méi)有再對(duì)ECM數(shù)據(jù)庫(kù)及ECM中存放的數(shù)據(jù)文件進(jìn)行備份。就如本文在本地原始數(shù)據(jù)如何處理小節(jié)進(jìn)行的探討,這種模式對(duì)于維持本地計(jì)算機(jī)及ECM的性能,以及避免潛在的合規(guī)問(wèn)題均有不利影響。除了原始數(shù)據(jù)本身以外,ECM針對(duì)各文件建立的”檔案”也同樣重要。不對(duì)ECM本身進(jìn)行備份將給業(yè)務(wù)持續(xù)性帶來(lái)負(fù)面影響,如遇到ECM服務(wù)器崩潰,將可能直接導(dǎo)致一場(chǎng)數(shù)據(jù)完整性災(zāi)難。
本文介紹的控制措施,可以降低ECM數(shù)據(jù)上傳的風(fēng)險(xiǎn)。但對(duì)于國(guó)內(nèi)多數(shù)制藥企業(yè),要用好ECM,確保使用ECM進(jìn)行的數(shù)據(jù)上傳可靠,還有一些需要克服的困難,比如:
1) 如何避免文件或文件夾名稱中包含中文字符或多字節(jié)特殊字符。
2) 如何避免數(shù)據(jù)不被錯(cuò)誤存儲(chǔ)到指定路徑以外的路徑, ECM不會(huì)針對(duì)錯(cuò)誤存放的數(shù)據(jù)給出任何提示信息。
3) 除上述數(shù)據(jù)錯(cuò)誤存放外,ECM本身對(duì)其它一些數(shù)據(jù)不上傳的特殊情況也無(wú)法給出提示。
4) 一些非持續(xù)性的警報(bào)信息會(huì)被后續(xù)信息覆蓋而難以被系統(tǒng)管理員發(fā)現(xiàn)。
5) ECM的郵件提醒常常漏發(fā)或延遲發(fā)送。
我們?cè)诙鄠€(gè)企業(yè)發(fā)現(xiàn),這些因素導(dǎo)致的文件上傳問(wèn)題普遍存在,除本文的風(fēng)險(xiǎn)控制措施外,用戶還需要建立有效措施發(fā)現(xiàn)、解決這些問(wèn)題,降低數(shù)據(jù)可靠性風(fēng)險(xiǎn)。
此文僅適用于老版本的ECM,Agilent已推出新的ECM XT,解決了不支持中文字符文件或特殊字符的問(wèn)題,期待后續(xù)版本在上述問(wèn)題上也有逐步的改善。