加入收藏 | 设为首页 | 会员中心 | 我要投稿 厦门站长网 (https://www.0592zz.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

更快的数据使得业务更好的发展

发布时间:2021-07-05 20:03:57 所属栏目:大数据 来源:互联网
导读:所有上述原因都会导致基于笔记本电脑的数据科学延迟实现价值。在笔记本电脑或本地服务器上工作的数据科学家的典型工作流程中,***步是对数据进行采样,并手动将数据集下载到本地系统,或通过ODBC驱动程序连接到数据库。第二步是安装所有必需的软件工具和软件

所有上述原因都会导致基于笔记本电脑的数据科学延迟实现价值。在笔记本电脑或本地服务器上工作的数据科学家的典型工作流程中,***步是对数据进行采样,并手动将数据集下载到本地系统,或通过ODBC驱动程序连接到数据库。第二步是安装所有必需的软件工具和软件包,如RStudio、Jupyter Notebook、Anaconda发行版,机器学习库和语言版本,如R、Python和Java。

当模型准备好部署到生产中时,数据科学家将其交给机器学习工程师。然后,机器学习工程师必须将代码转换为生产语言(如Java、Scala或C ++),或者至少优化代码并与应用程序的其余部分集成。代码优化包括将任何数据查询重写为ETL作业,分析代码以查找任何瓶颈,以及添加日志记录,、容错和其他生产级功能。

这些步骤中的每一步都存在可能导致延迟的瓶颈。例如,开发和生产环境之间的软件或软件包版本的不一致可能导致部署问题。在Windows或Mac环境中构建的代码在部署到Linux时肯定会中断。

在笔记本电脑上运行数据科学的所有上述问题都会导致业务价值的损失。数据科学涉及数据准备、模型构建和模型验证中的资源密集型任务。数据科学家通常会重复数百次尝试不同的特性、算法和模型规范,然后才能找到他们要解决的业务问题的正确模型。这些迭代可能需要大量的时间。围绕基础设施和环境管理、部署和协作施加瓶颈可能进一步延迟企业实现价值的时间。

依靠笔记本电脑或本地服务器的数据科学家们在容易入门和易于扩展和生产电离机器学习模型之间做出了一个不明智的权衡和选择。虽然在使用笔记本电脑或本地服务器时,数据科学团队的运行速度更快,但云计算平台提供了更大的长期优势,其中包括***制的计算能力和存储、更容易的协作、更简单的基础设施管理和数据治理,最重要的是,生产时间更快。

(编辑:厦门站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!