对于我的项目,我必须从各种来源导入和整理数据。我通过使用数据流的数据集线器框架来做到这一点。我所有不同的来源都有一个称为“日期”的字段。但是它们都有不同的形式,例如yyyy-mm-dd,yyyymmdd,dd.mm.yyyy。
我通过映射到一种常见格式yyyy-mm-dd的映射步骤进行管理。映射后,该字段仍称为“日期”。
由于我希望能够进行范围搜索,因此需要在“日期”上建立索引。但是,由于导入数据的“日期”字段尚未映射到正确的格式,因此在导入数据时会导致错误。
我的解决方案是不拒绝STAGING数据库的无效值。但是,由于旧文件被附加在策展后的新文件的信封中,该新文件在映射后移至FINAL数据库,因此我得到了附件文件的范围索引错误。
我想拒绝FINAL数据库中的无效值,但我也想将原始文档作为附件保留在最终文件中。
到目前为止,我能看到的唯一解决方案是在FINAL数据库中将“ date”元素命名为iDate之类,以避免冲突。
对我来说,这似乎不是一个干净的解决方案。您有更好的建议吗?
我在用:
如果使用路径范围索引,则可以将其限制为仅date
在顶级实例中而不在附件中的那些元素。
有关使用路径范围索引的详细信息,请参见https://docs.marklogic.com/guide/admin/range_index#id_40666。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句