跳到主要内容

什么是 KNIME Hub(2024)

· 阅读需 5 分钟

关于 KNIME Hub 的 10 个问题。

什么是 KNIME Hub

KNIME Hub 是一个中央存储库和协作平台,它是用来促进与 KNIME Analytics Platform(分析平台,AP)相关的工作流、节点、组件和扩展的共享和管理。它既充当工作流存储库又充当协作空间,使用户能够发现和利用可合并到其数据分析项目中的各种组件。

KNIME Hub 在哪里呢?

https://hub.knime.com/ 是官方 Community Hub 的网址,我们可以在此搜索社区共享的节点、工作流以及扩展。截止到2024年3月,现在共有 21065 个工作流, 1937 个组件以及 243 个扩展,甚至我们也可以上传自己的内容。

这就是 KNIME Hub 吗?

是,也不是。不是是因为 KNIME 还有一套公司内部可以部署的 Hub 版本,叫做 Business Hub。

KNIME Community Hub 是免费的吗?

是,也不是。因为 Community Hub 目前有两个套餐,一个是免费的,一个是收费的。

他们的区别是?

免费的可以:

  • 浏览、下载并与社区共享工作流和组件
  • 将工作流程存储在私人空间中
  • 与他人合作
  • 工作流和组件的版本历史记录

收费的(Teams)除了以上免费的功能以外,还可以:

  • 运行或定期运行工作流(起价 0.10 欧元/分钟)
  • 更大的磁盘空间

如何在 KNIME Hub 上搜索、下载工作流、节点、组件和扩展?

太简单了,下一个问题。

KNIME Hub 中上传和组织工作流的步骤是什么?

  1. 先登陆:

新界面的话在这里:

经典界面的话在这里:

  1. 然后就可以像在本地一样复制、粘贴、移动工作流了

工作流和组件的版本控制指什么?

简单来说,这个和软件开发中的版本控制是一样的。在实际工作中,工作流和组件会因为各种原因进行调整,甚至改进,如果能够记录版本,那么对开发、维护是很有好处的。

比如在工作流右侧的界面中,就可以维护工作流的版本。当然,指北君认为,这里的版本控制目前还存在一定的问题,它和软件工程中的版本管理不太一样,Hub 在这里混杂了版本管理、Tag等概念,用户可能会因为概念的混杂不清导致使用困难。

可以让我大概看一眼 Community Hub 的 Team 收费版吗

当然可以。

目前阶段 Teams 收费版的主要一个功能就是可以在 Hub 上运行工作流。在运行工作流之前需要选定所运行的环境(即机器):

目前可以选择 3 种类型的机器:

我们在这里选择 8核, 32G 内存的机器。在短暂等待之后,我们的机器就启动了:

但启动没有多长时间,这台机器就停止(Stopped)了。下面的注释很清楚:Starts automatically on demand, 这主要是因为我们的机器上面没有跑工作流的原因,如果有工作流,如果有计划任务,那么它就会自动启动。

然后就可以对我们的工作流进行部署了。在上传了工作流之后,进入工作流界面,会发现和免费的版本的区别是多出来两个按钮,一个是运行(run),一个是部署(deploy)。

点击运行之后,配置运行的版本以及设置要不要进行邮件通知,就开始运行了。

运行结束之后,在页面下方可以看到这次运行的信息,以及获取相关的日志。

工作流部署有很多种类型(指 Business Hub 版本),目前在 Community Hub 中支持的只有按照日程运行的功能。接着设置好工作流相关日程,就可以自动运行了。

在本地的 KNIME AP 中,也是可以进行日程运行配置的。

指北君,Hub 究竟是用来做什么的? 按照你的理解说说呗?

本质上来说,Hub 是一种协作工具,这也是 KNIME 公司盈利、且能长期发展的关键所在。

数据科学一般来说不只是有数据科学家搞定算法就完事了,它一般还需要数据工程人员,业务人员以及最终使用者等进行反馈和迭代。Hub 承担了协作的功能,通过工作流对显性或隐性知识进行跨人员、跨部门传递,其实是一个全流程的管理协作工作。

想象一下,你们公司有好几个部门,每个部门都有不同的数据项目,对于这些项目来说,它们又会有不同的阶段,想法验证、开发、测试、回归改进等等周期,Business Hub 就是在处理中间沟通、信息传递、反馈的事情。

当然了,除了协作以外,Business Hub 还可以很容易的让你部署 Data Apps,使用者直接通过网页就可以使用了。