首页 > 编程知识 正文

结构化任务的定义,非结构化数据类型

时间:2023-05-05 14:39:04 阅读:148697 作者:3151

一.非结构化数据的定义

结构化数据是指具有完整规则的数据模型定义、高度组织的格式和可以用统一的结构逻辑表示的数据。 例如,日期、电话号码等。

非结构化数据是指数据定义不完整或不规则,没有预定义的数据模型,无法用数据库二维表结构逻辑表示的数据。 简单来说,字段是可变的数据。 典型的非结构化数据包括文档、图像、音频和视频。

半结构化数据是介于结构化数据和非结构化数据之间的数据,常见的半结构化数据有HTML (超文本标记语言)和XML (可扩展标记语言)。

二.非结构化数据的重要性

根据IDC的调查,目前企业的结构化数据仅占总数据量的20%,剩下的80%是以文件形式存在的非结构化数据和半结构化数据,这些非结构化数据每年增长60%。

非结构化数据,传统的太阳,是视频、音频、图像、图像、文档、文本等文件系统中存储的信息。 非结构化数据具有在共享、搜索、分析等使用过程中不断扩大的特定和持续的价值。

如何管理这80%的数据是企业构建协同生态的重要环节。 非结构化数据的存储和流主要采用邮件、FTP、QQ等IM工具。 这些工具的文件传输速度不稳定,安全性不高,不能很好地适应企业中一对多的高频数据传输场景。

三.非结构化数据的查询

(1)顺序扫描法) )。

顺序扫描是指,例如,查找包含某个字符串的文件。 看一个个文档,对一个个文档从头到尾看,如果这个文档包含这个字符串,这个文档就是我们要找的文件,然后看下一个文件,扫描完所有的文件使用windows搜索还可以搜索文件内容,但速度相当慢。

)2)全文搜索)。

通过提取非结构化数据中的部分信息,将其重组为结构化数据,然后检索结构化数据,检索速度相对较快。 这部分从非结构化数据中提取并重组的信息称为索引。

例如,词典。 的拼音表和部首检字表相当于词典的索引,对各个字的解释是非结构化的。 如果词典里没有音节表和部首检字表,在浩瀚的辞海中寻找一个字只能按顺序扫描。 但是,可以取出文字的一部分信息进行结构化处理。 例如,读音比较结构化,分为声母和韵母,分别只能列举几种。 于是,取出读音按一定顺序排列,每个读音都指向该字详细说明的页数。 在搜索时用结构化的拼音找到读音,通过它所指的页数,可以找到非结构化数据——,也就是单词的解释。

创建这样的索引然后对其进行搜索的过程称为全文搜索(Full-text Search )。

四.非结构化数据的存储

)1)将非结构化数据作为文件保存在文件系统中,同时将指向文件的链接和路径保存在数据库表中。 该方案读写数据快,但数据管理不便,必须考虑事务一致性和数据安全性。

)2)将非结构化数据存储在传统数据库表的大对象字段中。 该方法充分利用了数据库的事务、管理和安全功能,但数据查询和读写性能不高。

为了解决这两种方式的缺点,充分利用其优势,最新的非结构化数据存储技术在磁盘格式、网络协议、空间管理、重做和撤销格式、缓冲区缓存和智能I/O子系统等方面都发生了巨大的变化代表性的是Oracle SecureFiles的非结构化数据存储方式。

资料来源: https://blog.csdn.net/iteye _ 15219/article/details/81764737

资料来源: https://blog.csdn.net/boss _ way/article/details/78505836

资料来源: http://www.win hong.com/news/detail.aspx? id=100000514799657

版权声明:该文观点仅代表作者本人。处理文章:请发送邮件至 三1五14八八95#扣扣.com 举报,一经查实,本站将立刻删除。