结构化数据的特点,结构化任务的定义

而不便用非结构化数据定义数据库的二维逻辑表表示的数据称为非结构化数据，包括所有形式的办公文档、文本、图像、标准通用标记语言下的子集XML、HTML、各种报告、图像和音频/视频信息等。

非结构化数据库是一种字段长度可变、每个字段的记录都由可重复或不可重复的子字段组成的数据库，不仅包括数字、符号等信息，还包括全文文本、图像、音频、视频和超媒体

随着互联网技术的发展特别是互联网和互联网技术的飞速发展非结构化数据的数量越来越多此时，主要用于管理结构化数据的关系数据库的局限性越来越明显。因此，数据库技术相应地进入了“关系数据库时代”，发展到了基于网络APP的非结构化数据库时代。

我国的非结构化数据库以北京国信基(iBase )软件有限公司的iBase数据库为代表。 IBase数据库是面向最终用户的非结构化数据库，在处理非结构化信息、全文信息、多媒体信息、海量信息等领域和互联网/互联网APP应用方面处于国际先进水平，在非结构化数据的管理和全文检索中

通过上述分析可以预见，随着网络技术和网络应用技术的飞速发展，完全基于互联网应用的非结构化数据库将成为继分层数据库、网格数据库和关系数据库之后的又一重点、热点技术

二、处理方法确定一个数据源：在开始数据采集之前调查相关数据源。

管理非结构化数据检索工具：找到优秀的业务管理工具。

消除不必要的数据：消除不重要的数据。

准备保存数据：必须删除数据中的所有空白，处理格式设置等问题，并对非结构化数据建立索引。

采用数据堆栈和存储技术：使用最新技术存储和堆栈数据。

在保存之前保存所有数据。无论是结构化数据还是非结构化数据，都必须在删除任何内容之前保存。

有助于搜索的信息：转换非结构化信息后，需要搜索数据。

本体评估：为了识别模式并与流程保持一致，必须能够说明所执行的步骤和流程。

记录统计信息：对数据进行分类，对其进行分段以方便使用和学习，并创建适合将来使用的流程。

数据分析：所有原始数据结构化后，必须分析并做出相关的有益决策。

采集

在很多知识库系统中，为了查询大量积累的文件，需要从PDF、Word、Rtf、Excel、PowerPoint等形式的文件中提取能够记述文件标题、作者、主要内容等文件的文字。这样的过程就是非结构化数据的收集过程。

非结构化数据的收集是信息进一步处理的基础。许多开放源代码库实现了从非结构化文档中收集重要信息的功能，但使用的开放源代码库取决于格式。

例如，Apache POI是Apache软件基金会的开放源代码库，POI为Java程序提供读取和写入Microsoft Office格式文件的功能。其结构是HSSF提供读写Microsoft Excel XLS格式的文件的功能； XSSF提供读写Microsoft Excel OOXML XLSX格式文件的功能。 HPF提供读写MicrosoftWord DOC格式文件的功能； HSLF提供了读取Microsoft PowerPoint格式文件的功能。 HDGF提供读写Microsoft Visio格式文件的功能等。

PDFBox是由Java实现的PDF文档协作类库，提供PDF文档的创建、处理和文档内容提取功能，还包括命令行实用程序。主要特性是从3360pdf中提取文本。合并PDF文档；加密和解密PDF文档；与Lucene搜索引擎集成；输入PDFIXFDF表单数据；从文本文件创建PDF文档；从PDF页面创建图像；打印PDF文档。 PDFBox还提供了与Lucene的集成，提供了将pdf文档添加到Lucene索引的简单方法。

此外，parse-RTF可以对rtf文件进行处理，而SearchWord可以对Word、Excel和PPT文件进行处理等。

查询

随着计算机、互联网、数字媒体等的普及，以文本、图形、图像、音频、视频等非结构化数据为中心的信息急剧增加，面对如此巨大的信息海，尤其是非结构化数据信息，这些传统的关系数据库主要面向事务和数据分析应用领域，善于解决结构化数据管理问题。管理非结构化数据存在一些天生的缺陷，尤其是在处理大量非结构化信息时面临着巨大的挑战。为了应对非结构化数据管理的挑战，出现了各种非结构化数据管理系统，包括在传统关系数据库系统的基础上扩展的非结构化数据管理系统、基于NoSQL的非结构化数据管理系统等。 [3]根据[1]所述方法，其中

在非结构化数据管理系统中，查询处理模块是重要的组成部分之一，根据非结构化数据的特点设计合理的查询处理框架和查询优化策略对快速高效地访问非结构化数据非常重要。在传统的结构化查询处理过程中，首先由翻译器翻译查询请求以生成查询表达式，然后由优化器优化查询表达式以获得优化的查询计划，最后执行器选择并执行最佳查询计划以获得查询结果查询处理的主要操作包括选择操作、连接操作、投影操作、聚合函数和排序。查询很好

化的方法包括基于代价估算的优化和基于启发式规则的优化等。
非结构化查询处理过程中除了结构化数据查询处理所包含的操作外，还有两个重要的操作相似性检索和相似性连接。相似性检索是指给定一个元素，在由该种类元素组成的集合中寻找与之相似的元素。例如论文查重系统用到文本的相似性检索，谷歌的以图搜图的功能用到图像的相似性检索，手机上根据哼唱匹配音乐是音频的相似性检索等。相似性连接是数据库连接操作在非结构化数据上的一种扩展，它寻找两个元素种类相同的集合之间满足相似性约束的元素对，在数据清洗、数据查重、抄袭检测等领域有着重要的作用。非结构化查询处理框架要针对这两种非结构化数据特有的查询操作对结构化查询处理框架进行改进。
非结构化查询优化，在代价估算上除了要考虑结构化数据的代价估算模型外，还要设法建立相似性查询和相似性连接的代价估算模型，对于针对非结构化数据的全文索引和空间索引，也应该有不同与B树索引的代价估算模型。代价估算模型除了要考虑CPU时间、IO时间外，由于非结构化数据一般都存储在分布式系统之上，还需要考虑到中间结果网络传输所用的时间，所以中间结果的大小估算对于非结构化数据的查询优化比结构化数据的查询优化更为重要。非结构化数据的查询优化中的启发式规则和结构化数据也有所不同。

存储
据IDC的一项调查报告中指出：企业中80%的数据都是非结构化数据，这些数据每年都按指数增长60%。据报道指出:平均只有1%-5%的数据是结构化的数据。如今，这种迅猛增长的从不使用的数据在企业里消耗着复杂而昂贵的一级存储的存储容量。如何更好的保留那些在全球范围内具有潜在价值的不同类型的文件，而不是因为处理它们却干扰日常的工作？云存储是越来越多的IT公司正在使用的存储技术。

三、重要性

1、有大量的数据需要处理
非结构化数据在任何地方都可以得到。这些数据可以在你公司内部的邮件信息、聊天记录以及搜集到的调查结果中得到，也可以是你对个人网站上的评论、对客户关系管理系统中的评论或者是从你使用的个人应用程序中得到的文本字段。而且也可以在公司外部的社会媒体、你监控的论坛以及来自于一些你很感兴趣的话题的评论。

2、蕴藏着大量的价值
有些企业正投资几十亿美金分析结构化数据，却对非结构化数据置之不理，在非结构化数据中蕴藏着有用的信息宝库，利用数据可视化工具分析非结构化数据能够帮助企业快速地了解现状、显示趋势并且识别新出现的问题。

3、不需要依靠数据科学家团队
分析数据不需要一个专业性很强的数学家或数据科学团队，公司也不需要专门聘请IT精英去做。真正的分析发生在用户决策阶段，即管理一个特殊产品细分市场的部门经理，可能是负责寻找最优活动方案的市场营销者，也可能是负责预测客户群体需求的总经理。终端用户有能力、也有权利和动机去改善商业实践，并且视觉文本分析工具可以帮助他们快速识别最相关的问题，及时采取行动，而这都不需要依靠数据科学家。

4、终端用户授权
正确的分析需要机器计算和人类解释相结合。机器进行大量的信息处理，而终端客户利用他们的商业头脑，在已发生的事实基础上决策出最好的实施方案。终端客户必须清楚的知道哪一个数据集是有价值的，他们应该如何采集并将他们获取的信息更好地应用到他们的商业领域。此外，一个公司的工作就是使终端用户尽可能地收集到更多相关的数据并尽可能地根据这些数据中的信息作出最好的决策。

很明显，非结构化数据分析可以用来创造新的竞争优势。新的前沿可视化工具使用户容易解释，让他们在点击几下鼠标之后就能清楚地了解情况。从非结构化的数据源中挖掘信息从来就没有像这样如此简单。