• Welcome to HiddenMerit - Clyde's Blog
  • Welcome to try the game Torn: Referral Link
  • If you are my relative, friend, or netizen, quickly press Ctrl+D to bookmark Clyde's Blog
  • This site has a like feature. If you read any article, please hit the like button so I know someone has visited
  • Email: hiddenmeritATgmail.com (replace AT with @)

Oracle Database 23ai 新特性系列 —— 第三期

DBA Clyde Jin 4周前 (04-23) 18次浏览 0个评论

Oracle Database 23ai 新特性系列 —— 第三期:数据库内机器学习,让智能与数据共生

在数据库内机器学习(In-Database Machine Learning)这个方向上,Oracle 的布局早在 20 多年前就已经开始——从 Oracle 9i R2 首次提供内置数据挖掘功能,到如今已发展成为企业级数据科学和 AI 平台的核心支柱。而在 23ai 版本中,Oracle Machine Learning(以下简称 OML)迎来了一次质的飞跃,数据库内机器学习不再只是“能用”,而是向着“好用”和“智能”全面进化。

一、核心理念:让智能与数据共生

1.1 “零数据迁移”的 AI 范式

在传统的企业 AI 架构中,数据科学家通常需要将数据从生产数据库导出,经过复杂的 ETL 流程,导入到独立的机器学习平台或 Python 环境中进行模型训练和预测。这一过程伴随着几个难以解决的痛点:

  • 数据时效性缺失:导出、转换、再导入的流程可能耗时数小时甚至数天,模型训练时使用的已是“过期数据”
  • 安全风险与合规挑战:敏感业务数据一旦离开数据库环境,数据主权和审计追踪便难以保障
  • 架构复杂与运维成本:多套系统之间需要维护数据同步、版本对齐和权限映射,系统复杂度呈指数级增长

Oracle Database 23ai 彻底改变了这一范式。OML 将 30 多种高性能机器学习算法直接内置于数据库内核,用户可以通过 SQL、Python、R 或低代码界面在数据所在的位置完成探索、准备、建模、评估和部署的全流程。正如 Oracle 所强调的:“AI where the data lives”——AI 能力的部署不再需要将数据从数据库中搬移,而是让智能能力在数据库内部落地。数据在哪,智能就在哪。

1.2 统一的数据科学平台

OML 超越了传统机器学习平台的边界,它不仅覆盖标准的结构化表数据,还能够分析事务数据、聚合数据、原始星型架构数据,甚至通过 Oracle Text 提取 CLOB 中的非结构化内容进行分析。更关键的是,OML 与数据库的安全体系深度集成——模型构建和评分过程遵循 Oracle 的权限方案,所有操作均被审计跟踪,这在金融、医疗、政府等强监管行业中具有不可替代的价值。

二、强大的数据库内算法库

2.1 超过 30 种原生算法

Oracle Database 23ai 提供了超过 30 种高性能、可并行化的数据库内机器学习算法,覆盖了企业级数据科学任务的主流需求。这些算法在数据库内核级别实现,利用 Oracle 底层 SQL 引擎的并行处理能力,能够处理 PB 级数据,同时保持对 SQL 标准的完全兼容。

核心算法涵盖以下类别:

  • 分类:决策树、逻辑回归、朴素贝叶斯、SVM、随机森林、XGBoost、神经网络
  • 回归:线性回归、多元线性回归、XGBoost(回归)、神经网络回归
  • 聚类:K-Means、O-Cluster
  • 关联规则:Apriori
  • 特征提取:非负矩阵分解(NMF)、主成分分析(PCA)
  • 异常检测:单类 SVM
  • 时间序列:指数平滑方法(ESM)

2.2 23ai 新增算法:XGBoost、ESM 与 NMF

23ai 在算法库方面实现了显著扩充。其中最受关注的是 XGBoost 算法,它支持分类、回归和生存分析三类任务。XGBoost 作为一种基于梯度提升决策树的集成学习方法,在 Kaggle 等数据科学竞赛中长期占据统治地位,它以高精度、高效率和鲁棒性著称。XGBoost 的原生引入,使 OML 在模型精度上进一步逼近甚至超越 Python 生态的主流机器学习框架。

指数平滑方法(ESM) 是另一项重要补充,专为时间序列预测场景设计。相较于传统的 ARIMA 模型,ESM 对数据平滑性和趋势性变化更为敏感,适合处理带有季节性和趋势成分的业务数据(如销量预测、库存规划、流量预估)。

非负矩阵分解(NMF) 则专注于特征提取和降维,在处理高维稀疏数据(如文本挖掘、推荐系统)时具有独特的优势。

2.3 神经网络与随机森林的升级

在 23ai 中,神经网络和随机森林算法也得到了重构。新增的 ore.odmNN 类用于分类和回归任务,能够捕捉输入与输出之间复杂的非线性关系。ore.odmRF 类则以集成学习方式提供随机森林建模能力,替代了原有的 ore.randomForest。这些升级使模型的准确性和稳健性进一步提升。

2.4 数据库内评分的智能优化

OML 支持批量评分和实时评分两种模式。在生产环境中部署模型后,只需通过 SQL 查询调用预测算子即可完成评分,无需额外的部署流程。

值得特别强调的是,在 Exadata 和自治数据库上,OML 支持 Oracle Exadata Smart Scan 技术。评分处理可直接卸载到存储层执行,在数据存储端完成预测计算,显著减少了数据传输和 CPU 负载,带来了数量级的性能提升。

三、ONNX 集成:打破生态壁垒

3.1 ONNX:跨平台模型互操作的桥梁

Open Neural Network Exchange(ONNX) 是一种开源的深度学习模型表示格式,定义了统一的文件格式和算子集,使得模型可以在不同框架之间自由流转。23ai 的 OML 支持导入 ONNX 格式的机器学习模型,这意味着企业可以在任意环境(如 Hugging Face、PyTorch、TensorFlow、Scikit-learn)中训练模型,然后无缝导入到 Oracle 数据库中运行。

3.2 模型导入与应用

OML 支持导入以下类型的 ONNX 模型:文本嵌入模型(Transformer)、分类模型、回归模型和聚类模型。以 AI Vector Search 为例,企业可以通过 PL/SQL 包 DBMS_DATA_MININGDBMS_VECTOR,将 Hugging Face 上的预训练文本嵌入模型以 ONNX 格式加载到数据库中,作为一等数据库对象供 AI Vector Search 使用。

在 OML4Py 中,Oracle 进一步简化了这一流程,提供了将 Hugging Face 模型自动转换为 ONNX 格式的工具。数据科学家无需关心底层转换细节,只需调用统一 API 即可完成从外部模型到数据库内部署的完整链路。

四、AutoML:让机器学习不再是数据科学家的专属

4.1 AutoML 用户界面

23ai 引入的 AutoML(Automated Machine Learning) 功能,是数据库内机器学习走向平民化的关键一步。OML AutoML UI 是一个零代码自动化机器学习界面,业务分析师和管理人员无需深厚的数据科学背景即可创建和部署机器学习模型。

对于专业数据科学家而言,AutoML UI 同样是强大的生产力工具——通过自动化算法选择、超参数调优和模型评估,可以在极短时间内完成算法和参数空间的初步探索,大幅提升建模效率。

4.2 从自动化到智能化

AutoML 的自动化能力与 23ai 中的模型监控功能形成完整闭环。当模型部署上线后,OML Model Monitoring UI 会持续追踪模型性能指标的变化,并在数据漂移(Data Drift)发生时主动发出告警。这意味着企业可以实时掌握模型的健康状态,在预测准确率下降前及时采取行动(如重新训练),确保 AI 系统始终保持高质量输出。

五、OML4Py:Python 生态与数据库的无缝融合

Python 已成为数据科学领域的事实标准,23ai 中 OML4Py(Oracle Machine Learning for Python)的重大升级,实现了 Python 灵活性与数据库强大计算能力的深度融合。

5.1 数据库内算法支持

OML4Py 新增了对 XGBoost、NMF 和 ESM 三种数据库内算法的 Python API 封装。用户可以通过 oml.xgboml.nmfoml.esm 函数直接调用这些高性能库内算法,无需离开熟悉的 Python 环境。

5.2 Hugging Face 模型原生支持

OML4Py 2.0 引入了一项关键能力:从 Hugging Face 直接转换模型为 ONNX 格式。无论是对 Hugging Face Hub 上的公开模型还是经过微调的私有模型,OML4Py 都可以将其自动化转换并导入数据库。这使用户能够充分利用 Hugging Face 生态中成千上万的预训练模型,同时享受 Oracle 数据库的高性能运行环境。

5.3 增强的数据类型支持

OML4Py 新增了对 oml.Datetimeoml.Timezoneoml.Timedeltaoml.Integer 等数据类型的支持,使得在数据库内进行复杂的时间序列分析和日期运算更为便捷。对于金融风控、物联网数据处理等高频时序场景,这些增强将显著提升数据预处理的效率。

六、OML4SQL 与 OML4R:面向全场景的 ML 接口

6.1 OML4SQL:SQL 用户的完整 ML 工具链

对于偏好 SQL 的开发者和 DBA,OML4SQL 提供了完整的 PL/SQL 和 SQL API,支持在数据库内完成从数据探索到模型部署的全部流程。

在 23ai 中,OML4SQL 的一个重要增强是 可解释预测(Explanatory Prediction) 功能。当模型对单条数据进行评分时,系统能够给出该预测结果的解释性说明——哪些特征对结果影响最大、影响的方向是什么。这一功能对于需要可解释 AI 的行业(如信贷审批、医疗诊断、保险定价)具有极高的业务价值。

6.2 OML4R:R 语言的大规模分析能力

对于统计学家和 R 语言用户,OML4R(Oracle Machine Learning for R)在 23ai 中也获得了全面升级。OML4R 2.0 支持 R 4.0.5,并新增了对神经网络、随机森林、指数平滑和 XGBoost 等算法的原生支持。

OML4R 的核心价值在于,R 用户可以直接在数据库内对 PB 级数据进行分析,无需将数据导入 R 的内存环境(R 的内存限制一直是处理大数据集的瓶颈)。通过将计算负载推送到数据库内核,OML4R 实现了 R 语法和语义的熟悉性与大数据的可扩展性之间的完美平衡。

七、OML 在 23ai 中的整体架构

7.1 多语言支持的统一接口

23ai 中 OML 的整体架构可概括为“一个平台,多语言接入”:

访问接口 目标用户 核心能力
SQL / PL/SQL DBA、SQL 开发者 数据库内算法调用、模型管理、评分预测
Python (OML4Py) 数据科学家、ML 工程师 Python API、Hugging Face 集成、ONNX 转换
R (OML4R) 统计学家、R 开发者 R 语法、大规模数据分析
AutoML UI 业务用户、分析师 零代码建模、自动化调优
REST API 应用开发者 模型服务化部署

7.2 OML Notebooks:统一开发环境

OML Notebooks 支持 SQL、PL/SQL、Python、R 和 Conda 多种语言混排,数据科学家可以在同一个笔记本环境中完成数据清洗、特征工程、模型训练和结果可视化,无需在不同工具之间反复切换。

7.3 第三方包支持

在 Autonomous Database 上,OML 允许使用自定义的第三方 Python 和 R 包。企业可以在数据库环境中安装所需的第三方库(如 Scikit-learn、Pandas、ggplot2),运行用户定义函数(UDF)实现复杂的分析和可视化逻辑。这意味着 OML 不只是封闭的内置算法库,而是一个开放的、可扩展的数据科学平台。

八、企业级能力:安全、监控与 MLOps

8.1 模型作为一等数据库对象

在 Oracle Database 23ai 中,机器学习模型被定义为 一等数据库对象(First-Class Database Objects),享有与表、索引相同的安全和管理语义。DBA 可以通过 GRANT/REVOKE 管理模型的访问权限,通过审计功能追踪模型的使用记录,通过 Data Pump 实现模型在不同数据库之间的导入和导出。这意味着机器学习模型可以被纳入企业现有的数据库治理体系,无需额外搭建 MLOps 基础设施。

8.2 OML Model Monitoring UI

OML Model Monitoring UI 是一个零代码模型监控界面,帮助数据科学团队实时跟踪模型性能的变化趋势。系统会持续监控模型的准确率、召回率、F1 分数等关键指标,并在检测到数据漂移(Data Drift)或模型退化时自动告警。用户可以通过可视化界面了解性能变化的原因,并触发模型重新训练。这为大规模生产环境中的模型管理提供了标准化的解决方案。

8.3 与 23ai 安全体系的协同

OML 与 23ai 中新增的安全特性形成了有机协同。SQL Firewall 可以在数据库内核层拦截异常的 SQL 查询,防止未经授权的模型调用或数据访问;而 Deep Data Security 则在行级和列级强制执行用户权限,确保模型仅能看到该用户授权范围内的数据。多层安全机制共同构筑了端到端的防护体系,有效防御数据泄露和越权访问。

九、真实世界价值:OML 的业务成效

OML 的能力已经在全球多个行业中得到验证,产生了可量化的业务价值:

  • 英国 NHS 使用 OML 识别出高达 10 亿英镑 的成本节约机会,并为患者提供更个性化的医疗服务
  • BBVA 银行 利用 OML 优化营销活动,实现了 40% 的点击率和转化率提升
  • Sensa Analytics 通过 OML 将应收账款账期缩短了 39%,显著改善了现金流
  • Certegy 借助 Autonomous Database 和 OML 帮助企业最小化损失、防范欺诈

这些成果的核心驱动力正是 OML 的“零数据迁移”范式——在数据所在的数据库中直接进行机器学习,消除数据导出的安全风险、提升模型的实时性,同时大幅简化了架构复杂度。

总结与展望

在本系列第三期中,我们系统解读了 Oracle Database 23ai 在数据库内机器学习领域的全面升级:

特性维度 核心能力
算法库 30+ 原生算法,新增 XGBoost、ESM、NMF
ONNX 集成 跨平台模型互操作,Hugging Face 一键转换
AutoML 零代码自动化建模与调优
OML4Py Python 生态无缝集成,数据库内算法 Python API
OML4SQL 可解释预测、Exadata Smart Scan 加速
OML4R R 语言大规模数据分析
模型监控 自动化数据漂移检测与告警
企业安全 模型作为一等数据库对象,与 SQL Firewall、Deep Data Security 协同

数据库内机器学习的本质,是让智能与数据在同一平台上共生——数据无需离开最安全的地方,就能产生实时的洞察和预测。正如 OML 团队所倡导的,这不只是技术上的便捷,更是 AI 民主化在企业级环境中的落地:数据科学家、业务分析师和 DBA 可以在统一的平台上协作,将 AI 从实验项目推向生产级的规模化应用。

在下一期系列中,我们将继续解读 23ai 在 全球分布式数据库与 RAFT 复制True Cache 高可用架构 以及 SQL 性能优化与自动调优 等领域的前沿特性,敬请期待。

参考资料

[1] Oracle Machine Learning 产品主页 (www.oracle.com) [2] Announcing New Oracle Machine Learning Features in Oracle Database 23ai (blogs.oracle.com) [3] Oracle数据库23ai系列专题:数据库内机器学习详解 (www.modb.pro) [4] Oracle Machine Learning for Python 2.0 User’s Guide (docs.oracle.com) [5] Oracle Machine Learning for SQL Release 26 Documentation (docs.oracle.com) [6] Oracle Machine Learning for R 2.0 User’s Guide (docs.oracle.com) [7] Using Vector Embeddings and Classification Models within OML (ateam-oracle.com) [8] Extending SaaS by AI/ML Series (ateam-oracle.com) [9] 从Oracle 23 AI:又甩开国产数据库几条街 (blog.csdn.net) [10] Oracle Database 23ai:当数据库本身成为 AI 引擎 (blog.csdn.net) [11] 数据库为啥要融合+AI化?甲骨文Oracle 23ai给出了回答 (soft.zhiding.cn) [12] 32张图看懂Oracle 23ai 技术架构 (www.modb.pro) [13] Power App Development with AI in Oracle Database 23ai (www.itconvergence.com)


绩隐金 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:Oracle Database 23ai 新特性系列 —— 第三期
喜欢 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址