聯(lián)系我們contact
電話:027-59760188-801
地址:武漢市東湖高新開發(fā)區(qū)光谷大道120號現(xiàn)代森林小鎮(zhèn)A座609室
發(fā)布時間:2025-06-09 瀏覽次數(shù):461次
隨著Deepseek爆火,國內(nèi)制藥企業(yè)掀起了一輪大模型AI的應(yīng)用潮流,似乎研究AI、應(yīng)用AI成了各部門的KPI之一。但AI如何落地,如何具體地與某個應(yīng)用深度融合,一直是件頗為頭疼的事。很多人可能都只是把如今甚囂塵上的各個AI當(dāng)成高級的搜索引擎去使用,或當(dāng)成個玩具解乏。今天,我們以電子表格為載體,探索一下AI在藥物穩(wěn)定性研究中的應(yīng)用,以期拋磚引玉。 為什么要以電子表格為載體?因為在實驗室,以電子表格為載體進行數(shù)據(jù)記錄是一件再平常不過的事。電子表格既方便進行各種自動化計算,也是一個不錯的數(shù)據(jù)管理工具。為了更方便地使用AI,我們使用了“WindSheet合規(guī)電子記錄與自動計算系統(tǒng)”進行表格數(shù)據(jù)記錄與管理。文章所述的部分方法,直接在各個AI的Web界面同樣適用。
首先,我們準(zhǔn)備一個記錄藥物穩(wěn)定性數(shù)據(jù)(有關(guān)物質(zhì)隨時間變化)的電子表格模板。如下圖:
上面這個模板中(為方便理解,已經(jīng)填寫了第60天的數(shù)據(jù)),需要填寫的數(shù)據(jù)包括試驗條件:時間點,批號,峰名,保留時間,峰面積。相對保留時間和單雜含量是通過公式自動計算的??吹贸鲞@個模板不是一個標(biāo)準(zhǔn)的表格,有不少單元格合并。時間點放置在雜質(zhì)表的上方。
基于這個模版,每個批次每個時間點的檢測結(jié)果均新建一個對應(yīng)的電子表格記錄,形成了一個文件列表。
如果想要匯總這6個表的雜質(zhì)數(shù)據(jù)怎么辦呢?我們在此看一下AI的水平如何,是否能準(zhǔn)確地理解這些文件所包含的數(shù)據(jù)。
我們選擇這6個文件,向AI 提問。
在WindSheet中,只需要勾選需要提交給AI分析的文件即可。伴隨著提問,這些文件將會自動發(fā)送給AI。
問題是這樣的:
得到的結(jié)果如下:
對比了一下實際數(shù)據(jù),還是很準(zhǔn)確的。雖然模板中有各種合并的單元格, AI還是準(zhǔn)確找到了各關(guān)鍵數(shù)據(jù),并且匯總成表時自動補上了每行需要重復(fù)的數(shù)據(jù),如樣品編號和時間點。
針對AI從各表中匯總數(shù)據(jù)的能力,我們進行了多次測試,大模型并非每次都能得到正確的結(jié)果。得到正確結(jié)果所需要的時間也不盡相同。如果回答不了,AI干脆會告訴你“I don’t understand this question”。想要提供成功率,我們也可以嘗試為大模型提供更多關(guān)于表格的背景信息,例如表格記錄的數(shù)據(jù)類型及具體的地址范圍等。
接下來,我們提問
由于是基于此前的匯總表,這個問題相對是比較簡單的。AI沒花多少時間便找出“已知雜質(zhì)1”滿足要求。
繼續(xù)提問:
AI給出了兩種不同模型的解答,包括線性回歸和指數(shù)模型。
為了貼近實際的穩(wěn)定性數(shù)據(jù),下面我們加大了難度,在數(shù)據(jù)記錄模板增加了試驗條件,也就是常溫/加速,由此增加了數(shù)據(jù)文件的個數(shù)。
對應(yīng)分別準(zhǔn)備了常溫和加速兩組數(shù)據(jù)。
由于數(shù)據(jù)量增加,模板包含的數(shù)據(jù)種類增多,像之前那樣依靠AI自身理解表格內(nèi)容非常困難,嘗試了多次,等待良久,都無法得到此前那種匯總雜質(zhì)數(shù)據(jù)的表格。為此,我們使用了WindSheet電子表格平臺自身的數(shù)據(jù)抽取功能,這種方法可以高效地從多個文件中隨意抽取需要的數(shù)據(jù),得到如下匯總表。
該匯總表可進一步在列頭對數(shù)據(jù)進行篩選,找出數(shù)據(jù)子集(例如RRT在0.6-0.65之間的數(shù)據(jù)),進行更加垂直的分析。
針對該匯總數(shù)據(jù),我們的提問是
僅就這個問題來說,我們并沒有給AI更多的信息,其自動按照同一批號和試驗條件作答。AI在理解科學(xué)實驗方面的能力還是可圈可點的。由于是在WindSheet自動匯總及去除無效數(shù)據(jù)的基礎(chǔ)上提交AI分析,AI的回答非常迅速,不需要消耗過多的時間。且由 于提交數(shù)據(jù)的化繁為簡,消耗的Token也急劇減少,使用AI的成本得到了極大的降低。
下面進一步提問:
從回答來看,顯然AI已經(jīng)具備了藥物穩(wěn)定性相關(guān)的專業(yè)知識。
最后一個問題是:
AI采用了阿倫尼烏斯方程進行加速穩(wěn)定性計算,最后直接給出了3種雜質(zhì)的計算結(jié)果。
如果把AI的這些輸出以及數(shù)據(jù)匯總表導(dǎo)出一個PDF文檔,稍微整理一下,就是一篇不錯的穩(wěn)定性分析報告。
WindSheet中的這些雜質(zhì)數(shù)據(jù)還可以直接通過BI工具進行儀表板動態(tài)展示,根據(jù)研發(fā)人員的數(shù)據(jù)錄入,實時更新數(shù)據(jù)趨勢。Leader們真能實現(xiàn)坐在辦公室運籌帷幄,縱觀全局。
從目前的測試結(jié)果看,要想做到把AI應(yīng)用到數(shù)據(jù)分析,首先需要提供高質(zhì)量,結(jié)構(gòu)化易理解的數(shù)據(jù)。數(shù)據(jù)源采用AI自身來識別,提取,其健壯性,效率,正確率,重現(xiàn)性還有待提高,但通過特定的模板進行訓(xùn)練預(yù)估可以提高這方面的能力。一旦數(shù)據(jù)源能做到完整,有效,結(jié)構(gòu)化,AI對其進行數(shù)據(jù)分析確實可以完全自動化。尤其是針對現(xiàn)在生成式AI,對數(shù)據(jù)進行分析,總結(jié)是其擅長的領(lǐng)域。當(dāng)然,AI+BI是更加完美的組合。
WindSheet合規(guī)電子記錄與自動計算系統(tǒng)是世界首個集在線電子表格,數(shù)據(jù)庫,文件管理,合規(guī)控制,人工智能分析于一體的BS架構(gòu)系統(tǒng),不僅繼承了Excel電子表格靈活易用的特點,還達到了醫(yī)藥行業(yè)合規(guī)化技術(shù)要求。系統(tǒng)采用安全的在線電子表格技術(shù),集中管控所有的模板文件和表格文件,既完美解決了電子表格合規(guī)化使用的問題,又進一步拓寬了電子表格在GxP領(lǐng)域的使用范圍。系統(tǒng)可一鍵導(dǎo)入已有的Excel電子表格文件,或在瀏覽器中在線設(shè)計或編輯電子表格模板,完全不依賴于本地的MS Excel運行,并且增加了條碼生成,日期時間選擇器,單元格多級菜單等各種功能控件,青出于藍而勝于藍。
WindSheet主要特點:
? 基于網(wǎng)頁的獨立系統(tǒng),不依賴于任何本地應(yīng)用程序,不需要在客戶端安裝任何軟件,但兼容任何Excel文件,一鍵導(dǎo)入
? 合規(guī)的審計追蹤和電子簽名適用于GCP,GLP,GMP等各種合規(guī)業(yè)務(wù)場景
? 所有表格均自動保存于服務(wù)器的數(shù)據(jù)庫,不在本地保存
? 高度類似微軟Excel的操作體驗
? 模板發(fā)布環(huán)節(jié)完美控制模板的的合法使用
? 采用內(nèi)置賬戶或者集成AD域認證
? 基于角色和組的管理
? 簡易而強大的工作流設(shè)計可以適用于任何業(yè)務(wù)場
? 自動提取和匯總跨表數(shù)據(jù),與AI集成,大幅提高工作效率
? 支持二次開發(fā),強力拓展現(xiàn)有功能