大多數(shù)數(shù)據(jù)科學(xué)家使用諸如R,Python和C / C ++之類的分析工具進(jìn)行研究。這些工具很難與當(dāng)前的數(shù)據(jù)庫系統(tǒng)集成,從而導(dǎo)致數(shù)據(jù)分析緩慢而麻煩。北京軟件開發(fā)公司:“數(shù)據(jù)科學(xué)家選擇通過開發(fā)??一系列數(shù)據(jù)管理替代方案來重塑數(shù)據(jù)庫系統(tǒng),這些替代方案可以執(zhí)行與傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)相似的任務(wù),但是存在許多數(shù)十年前在數(shù)據(jù)庫領(lǐng)域解決的問題。”
“數(shù)據(jù)庫研究界在開發(fā)功能強(qiáng)大的數(shù)據(jù)庫引擎方面取得了長足的進(jìn)步,該引擎可進(jìn)行有效的分析查詢處理。” 軟件開發(fā)公司嘗試將數(shù)據(jù)庫科學(xué)中的這些創(chuàng)新與數(shù)據(jù)科學(xué)家最常使用的分析工具相結(jié)合。北京軟件外包公司:“我們研究了如何促進(jìn)分析工具與關(guān)系數(shù)據(jù)庫管理系統(tǒng)的高效,輕松集成。”
大型數(shù)據(jù)集
在計(jì)算機(jī)科學(xué)中使用標(biāo)準(zhǔn)數(shù)據(jù)庫系統(tǒng)的另一個(gè)問題是處理的數(shù)據(jù)大小。大多數(shù)數(shù)據(jù)庫系統(tǒng)并未針對使用遠(yuǎn)程服務(wù)器的大型數(shù)據(jù)集和大規(guī)模數(shù)據(jù)分析進(jìn)行優(yōu)化。要優(yōu)化數(shù)據(jù)庫系統(tǒng),可以考慮三種方法。
軟件公司:“我們將研究重點(diǎn)放在數(shù)據(jù)庫-客戶端集成的三種主要方法上:客戶端-服務(wù)器連接,數(shù)據(jù)庫內(nèi)處理以及將數(shù)據(jù)庫嵌入客戶端應(yīng)用程序中。” 對于每種方法,他研究了現(xiàn)有數(shù)據(jù)庫系統(tǒng)中的實(shí)現(xiàn),并評估了它們對于數(shù)據(jù)科學(xué)中常見的大型數(shù)據(jù)集和工作負(fù)載的效率。
鴨數(shù)據(jù)庫
最終結(jié)果是一個(gè)名為DuckDB的新數(shù)據(jù)管理系統(tǒng),該系統(tǒng)專用于與R和Python(及其他分析工具)進(jìn)行高效且輕松的集成。該管理系統(tǒng)旨在用作成熟的數(shù)據(jù)庫系統(tǒng),不僅用于研究目的。“在DuckDB中,我們將從研究數(shù)據(jù)庫-客戶端集成的所有課程中吸取教訓(xùn),并創(chuàng)建一個(gè)易于使用且高效的嵌入式數(shù)據(jù)庫。” 北京軟件外包公司將繼續(xù)擔(dān)任CWI的博士后,在那里他將繼續(xù)開發(fā)DuckDB。