adni数据库(SequoiaDB)

访问巨大雪松数据库的次数多，大量数据业务背后的基础架构是如何设计和优化的？分布式数据库如何实现数据的透明水平、垂直分割，实现大量数据的实时查询？

1 .巨杉数据库作为国内第一个自主开发的NewSQL数据库，在发展过程中是否面临困难和疑问？和MongoDB等海外产品有什么不同？

巨杉数据库是巨杉团队从零开始开发的，数据库核心不基于开源数据库产品。这也是我们队非常自豪的成绩。

在发展过程中，当然也有人怀疑国内团队无法从零开始开发数据库，或者即使是在国内开发，性能和稳定性也一定不如国外产品。但是现在巨杉经过企业市场的考验，用产品和技术服务证明了自己。超过百家企业用户，特别是像银行这样的客户的认可和大规模使用，也是我们最好的褒奖吧。

在与国外产品的比较中，我们的性能通过了第三方的测试，与MongoDB、Cassandra等统一了水平，部分性能明显优于国外产品。此外，上述多个企业APP应用场景，我们也在经历磨砺，许多企业级APP应用场景都领先于硅谷的NoSQL/NewSQL产品。

2 .巨杉数据库在企业中的应用场景是什么？在解决用户需求方面有什么心得？

雪松数据库发布五年来，在企业级大数据APP应用方面积累了丰富的经验，也磨砺了我们的主要场景。

企业对数据库的新需求主要包括大量数据的管理、非结构化数据的管理、历史数据的在线化和数据的全维表示。因此，巨杉也培育了几个大解决方案，包括海量的历史数据平台、企业内容管理平台、大数据湖和海量数据视图。

3 .你能说说巨杉数据库在海量数据存储和高性能查询这一技术上有没有什么亮点吗？

首先，巨大的雪松数据库是一种天生的分布式体系结构，使您能够在X86体系结构下轻松快速地实现群集规模和存储容量的水平扩展，不仅简化了大量数据的存储，而且与传统方法相比大大降低了成本。

在数据输入和使用方面，巨杉数据库更充分地发挥分布式体系结构的优势，提供垂直分区、水平分区、自动读写分离、存储分布式战略定制等多种技术手段来实现最佳效率。此外，我们没有放弃现有技术，而是利用了灵活高效的索引机制、高效的数据压缩等已经广泛应用于数据库领域的技术手段，进一步提高了数据操作时的效率。最后，为了便于传统数据库用户，我们还提供了SQL引擎。同时结合巨杉数据库的技术特点，优化了SQL引擎，使SQL用户在巨杉数据库中也能体验到最好的体验。

综合以上特点，巨大雪松数据库是拥有大量数据存储和高效查询请求的用户的绝佳选择

4、当数据达到亿级或百亿级以上时，数据库平台框架如何设计和优化？在这个领域，开发者可以避免的漏洞是什么？

在像银行这样的企业级APP应用中，亿级数据基本上是儿科。通常，数据量在百亿级别，超过了一百TB。

对于如此大量的数据，“分布式”技术几乎是不二选择！以巨杉数据库为例，利用垂直分区、水平分区等功能，可以充分结合业务数据的特点，在数据库级进行体系结构设计。这样可以将大量数据均匀地分布在分布式群集的每个节点上，而不会增加APP应用程序的复杂性。进行这种体系结构设计后，无论是数据录入还是查询操作，APP应用层在数据基础上都会自动定位于部分节点内或单个节点内的操作，将对大量数据的操作转化为小批量操作，必然实现高效的大幅度提高

但也要认识到，在“大数据”时代，数据量可能超出想象，本地节点内的数据也可能达到个位数，这几乎是不可避免的。在这种情况下，不仅要在现有群集上继续水平扩展，还必须利用传统技术(如高效索引和数据压缩)提高单节点效率。

最后，不要忘记大型雪松数据库读写分离和自定义数据分布策略等机制。它们有助于将负载均匀分布在不同的节点上，最大限度地减少“热点”竞争的发生。这也是分布式技术所具有的自然好处。

5、如何评价现有分布式大数据处理开源体系结构？有什么需要改进或值得借鉴的地方？

首先，Hadoop并不代表大数据的全部，现在国内似乎成为一股潮流，Hadoop代表大数据。但Hadoop能解决的只是一些需求，特别是在大数据在线实时交互这一部分，NewSQL/NoSQL也是一个不错的选择。这一年多来，我们也得到了很多企业级用户的证实。

第二，关于分布式数据库本身。 NoSQL和关系数据库两者无疑是一个逐渐融合的过程。 NoSQL数据库继续重视企业级功能，如提高SQL支持，因此产生了NewSQL概念。未来，数据库将定位于立足于实时处理和在线服务、支持高层数据分析APP应用作为数据源的分布式、高性能。

6 .为什么许多分布式数据库采用开源模型？这个形状有什么优缺点？

我们承认一个划分是“开源软件商业化”和“商业软件开源化”。巨杉走的是“商业软件开源化”的路线。

本公司坚持以商业化软件为核心，为企业用户提供高质量、稳定可靠的商业化产品和标准化专业化的技术服务，

这也是企业市场不变的需求。

可以说是一种技术上的情怀，让我们也和硅谷的不安的黄蜂一样选择开源，我们自己开发的数据库产品，我们也希望和更多的开发者分享我们的技术。

同时我们也在商业化经营同时，通过产品的开源和开源生态建立，快速推进产品技术的品牌和用户，同时能帮助构建自己的技术生态。

此外，开源也有出于我们团队的技术自信，也是一种程度回应对于我们自己研发的质疑吧。

而对于“开源软件商业化”，如果完全开放开源，对于商业化运营会有不小的影响。主要也就是商业化与社区版发展的关系，社区的需求与企业用户的需求不一定一直，商业版本与社区版本的发展方向也可能互相冲突，甚至于商业化团队无法完全掌握核心技术，这对于用户来说可不是好消息。

7.对于想踏入或刚刚进入这个领域的新人来说，有没有什么心得建议？

对于在这个领域经验尚不够丰富的朋友们来说，我个人认为最重要的两点建议就是：

1）充分了解你想使用的分布式技术有哪些特点，并且一定要充分结合你的业务特点，这样你才有可能做出最佳选择。记住，绝没有哪一项技术在所有的业务场景下都是最佳选择，最适合业务场景的才是最佳选择！

2）理论分析固然重要，但实测更有说服力！不要嫌麻烦，一定要用全面的测试结果来支持（或者推翻）你的方案。

上面这两点看上去都是很朴素的道理，但实际操作中却经常被忽略，也是极容易掉进去的坑。