modeldb
Run models inside a database using R
modeldb enables you to fit machine learning models directly inside databases without pulling data into R. It translates model algorithms into SQL queries using dplyr and dbplyr, working with most database backends.
The package solves memory and performance problems when working with large datasets that live in databases. It currently supports K-means clustering and linear regression, computing everything in the database and returning only the model coefficients or cluster assignments. The model outputs integrate with tidypredict for running predictions in the database as well.
Contributors#
Resources featuring modeldb#
Edgar Ruiz - GitHub Copilot in RStudio
GitHub Copilot in RStudio - Edgar Ruiz
Presentation slides available at https://colorado.posit.co/rsc/rstudio-copilot/#/TitleSlide
Speaker Bio: Edgar Ruiz is a solutions engineer at Posit with a background in deploying enterprise reporting and business intelligence solutions. He is the author of multiple articles and blog posts sharing analytics insights and server infrastructure for data science. Edgar is the author and administrator of the https://db.rstudio.com web site, and current administrator of the sparklyr web site: https://spark.rstudio.com . Co-author of the dbplyr package, and creator of the dbplot, tidypredict and modeldb package.
Presented at the 2023 R/Pharma Conference (October 26, 2023)

Edgar Ruiz | Programación con R | RStudio (2019)
Hay ocasiones que, cuando trabajamos en un análisis en R, necesitamos dividir nuestros datos en grupos, y después tenemos que correr la misma operación sobre cada grupo. Por ejemplo, puede ser que los datos que tenemos contienen varios países, y necesitamos crear un modelo por cada país. Otro caso sería el de correr múltiples operaciones sobre los mismos datos. Estos casos requieren que sepamos cómo usar iteraciones con R. Este webinar se concentrará en cómo utilizar el paquete llamado purrr para ayudarnos a resolver este tipo de problema.
Descargar materiales: https://rstudio.com/resources/webinars/programacio-n-con-r/
About Edgar: Edgar Ruiz es un Ingeniero de Soluciones en RStudio. Es el administrador de los sitios oficiales de sparklyr y de R para bases de datos. También es autor de los paquetes de R: dbplot, tidypredict y modeldb, y co-autor de el paquete dbplyr
