Primeros pasos con recursos compartidos de archivos de big data—ArcGIS GeoAnalytics Server

Acerca de archivos compartidos de Big Data

Un recurso compartido de archivos de big data es un elemento creado en su portal que hace referencia a una ubicación disponible para su ArcGIS GeoAnalytics Server. La ubicación del recurso compartido de archivos de big data se puede usar como entrada y salida de datos de entidad (datos de puntos, polilíneas, polígonos y tabulares) de herramientas de GeoAnalytics. Cuando crea un recurso compartido de archivos de big data, se crea un elemento en su portal. El elemento apunta a un servicio de catálogo de big data, que describe los datasets del recurso compartido de archivos de big data y su esquema, incluida información sobre el tiempo y la geometría, así como los formatos de salida –llamados plantillas– que ha registrado. Al usar un recurso compartido de archivos de big data para la entrada de una herramienta de ArcGIS GeoAnalytics Server, puede buscar el elemento para ejecutar un análisis en un dataset.

Usar un recurso compartido de archivos de big data aporta grandes ventajas. Sus datos pueden permanecer en una ubicación accesible hasta que esté preparado para realizar el análisis. Un recurso compartido de archivos de big data accede a los datos cuando se ejecuta el análisis. De este modo, puede seguir agregando datos a un dataset existente de su recurso compartido de archivos de big data sin tener que volver a registrar o publicar los datos. También puede modificar el manifiesto para eliminar, agregar o actualizar datasets en el recurso compartido de archivos de big data. Los recursos compartidos de archivos de big data son sumamente flexibles en cuanto a la definición de la hora y de la geometría, y admiten el uso de varios formatos de hora en un solo dataset. Los recursos compartidos de archivos de big data también permiten dividir los datasets y seguir tratando varias particiones como un único dataset. Usar recursos compartidos de archivos de big data para datos de salida permite almacenar los resultados con formatos que puede usar en otros flujos de trabajo, como un archivo de parquet para mayor análisis o almacenamiento.

Nota:

Solo se puede acceder a los recursos compartidos de archivos de big data cuando se ejecuta GeoAnalytics Tools. Esto significa que solo puede examinar y agregar recursos compartidos de archivos de big data para el análisis y que no los puede visualizar en un mapa.

Los recursos compartidos de archivos de big data pueden hacer referencia a las siguientes fuentes de datos de entrada:

Archivo compartido: un directorio de datasets en un disco local o en una red compartida.
Apache Hadoop Distributed File System (HDFS): un directorio de datasets de HDFS.
Apache Hive: bases de datos de metastore Hive.
Almacén en la nube: un depósito de Amazon Simple Storage Service (S3), un contenedor BLOB de Microsoft Azure o un almacén de Microsoft Azure Data Lake que contiene un directorio de datasets.

Al escribir resultados en un recurso compartido de archivos de big data, puede usar la siguiente salida de GeoAnalytics Tools:

Recurso compartido de archivos
HDFS
Almacén en la nube

Los siguientes tipos de archivos se admiten como datasets para recursos compartidos de archivos de big data de entrada y salida:

Archivos delimitados (por ejemplo, .csv, .tsv y .txt)
Shapefiles (.shp)
Archivos PARQUET (.gz.parquet)
Archivos ORC (orc.crc)

Nota:

Un recurso compartido de archivos de big data solo está disponible para usarse si el administrador del portal ha habilitado GeoAnalytics Server. Para obtener más información sobre la habilitación de GeoAnalytics Server, consulte Configurar ArcGIS GeoAnalytics Server.

Los recursos compartidos de archivos de big data son una de las diversas maneras en que GeoAnalytics Tools puede acceder a sus datos y no son un requisito para GeoAnalytics Tools Consulte Usar GeoAnalytics Tools en Map Viewer para obtener una lista de posibles entradas y salidas de datos en GeoAnalytics Tools.

Puede registrar tantos recursos compartidos de archivos de big data como necesite. Cada recurso compartido de archivos de big data puede tener tantos datasets como desee.

La siguiente tabla muestra algunos términos importantes en lo referente a recursos compartidos de archivos de big data.


Plazo	Descripción
Recurso compartido de archivos de big data	Una ubicación registrada con su GeoAnalytics Server para usarse como entrada, salida de dataset o ambos en herramientas de GeoAnalytics.
Servicio de catálogo de big data	Un servicio que describe los esquemas y datasets de entrada, así como los nombres de las plantillas de salida de su recurso compartido de archivos de big data. Se crea al registrar el recurso compartido de archivos de big data, así como el manifiesto. Para obtener más información sobre los servicios de catálogo de big data, consulte la documentación de Servicio de catálogo de big data en la ayuda de la API REST de ArcGIS Services.
Elemento de recurso compartido de archivos de big data	Un elemento del portal que hace referencia al servicio de catálogo de big data. Puede controlar quién puede usar su recurso compartido de archivos de big data como entrada en GeoAnalytics si comparte este elemento en el portal.
Manifiesto	Un archivo JSON que describe los datasets disponibles y el esquema para las entradas en su recurso compartido de archivos de big data. El manifiesto se genera automáticamente al registrar el recurso compartido de archivos de big data y puede modificarlo editando o usando un archivo de sugerencias. Un único recurso compartido de archivos de big data tiene un manifiesto.
Plantillas de salida	Una o más plantillas que describen un tipo de archivo y un formato opcional al escribir resultados en un recurso compartido de archivos de big data. Por ejemplo, una plantilla podría especificar que los resultados estén escritos en un shapefile. Un recurso compartido de archivos de big data puede no tener ninguna plantilla de salida o tener una o varias.
Tipo de recurso compartido de archivos de big data	El tipo de ubicaciones que registra. Por ejemplo, podría tener un recurso compartido de archivos de big data o escribir HDFS.
Formato de dataset de recurso compartido de archivos de big data	El formato de los datos que lee o escribe. Por ejemplo, el tipo de archivo podría ser un shapefile.
Archivo de sugerencias	Un archivo opcional que se puede usar para ayudar a generar un manifiesto para archivos delimitados usados como entrada.

Preparar los datos para registrarlos como un archivo compartido de Big Data

Para usar sus datasets como entradas en un recurso compartido de archivos de big data, debe asegurarse de que sus datos tengan el formato correcto. Consulte a continuación el formato basado en el tipo de recurso compartido de archivos de big data.

Archivos compartidos y HDFS

Para preparar los datos para un archivo compartido de Big Data, debe formatear los datasets como subcarpetas en una sola carpeta principal que se registrará. En esta carpeta principal que usted registra, los nombres de las subcarpetas representan los nombres de los datasets. Si las subcarpetas contienen varias carpetas o archivos, todo el contenido de las subcarpetas de nivel superior se lee como un único dataset y debe compartir el mismo esquema. En el siguiente ejemplo se describe cómo se registra la carpeta FileShareFolder que contiene tres datasets, denominada Earthquakes, Hurricanes y GlobalOceans. Cuando registra una carpeta principal, todos los subdirectorios de la carpeta que especifica también se registran con el GeoAnalytics Server. Registre siempre la carpeta principal (por ejemplo, \\machinename\FileShareFolder) que contiene una o más carpetas de dataset individuales.

Ejemplo de un recurso compartido de archivos de big data que contiene tres datasets: Terremotos, Huracanes y Océanos.

|---FileShareFolder                 < -- The top-level folder is what is registered as a big data file share
   |---Earthquakes                  < -- A dataset "Earthquakes", composed of 4 csvs with the same schema
      |---1960
         |---01_1960.csv
         |---02_1960.csv
      |---1961
         |---01_1961.csv
         |---02_1961.csv
   |---Hurricanes                   < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
      |---atlantic_hur.shp
      |---pacific_hur.shp
      |---otherhurricanes.shp
   |---GlobalOceans                 < -- The dataset "GlobalOceans", composed of a single shapefile
      |---oceans.shp

Esta misma estructura se aplica a los archivos compartidos y a HDFS, aunque la terminología sea diferente. En un archivo compartido, hay una carpeta o directorio de nivel superior, así como datasets representados por los subdirectorios. En HDFS, la ubicación del archivo compartido se registra y contiene datasets. La tabla siguiente describe las diferencias:


	Recurso compartido de archivos	HDFS
Ubicación del recurso compartido de archivos de big data	Una carpeta o directorio	Ruta de HDFS
Datasets	Subcarpetas de nivel superior	Datasets dentro de la ruta de HDFS

Cuando los datos están organizados como una carpeta con subcarpetas de dataset, haga que los datos estén accesibles para GeoAnalytics Server siguiendo los pasos descritos en Hacer que sus datos sean accesibles para ArcGIS Server y registre la carpeta del dataset.

Acceso a HDFS mediante Kerberos

GeoAnalytics Server puede acceder a HDFS mediante autenticación Kerberos.

Nota:

GeoAnalytics Server admite la protección RCP definida como autenticación (hadoop.rpc.protection =authentication). GeoAnalytics Server actualmente no admite modos de integridad (integrity) ni privacidad (privacy).

Siga estos pasos para registrar el recurso compartido de archivos HDFS mediante la autenticación Kerberos:

En Windows, copie el archivo krb.ini a C:/linux/krb.ini en todos los equipos de su sitio de GeoAnalytics Server. En Linux, copie el archivo krb.conf a /etc/krb.conf en todos los equipos de su sitio de GeoAnalytics Server.
Inicie sesión en su sitio de GeoAnalytics Server desde el Directorio del administrador de ArcGIS Server.
El Directorio del administrador de ArcGIS Server requiere iniciar sesión como administrador. Para conectar con un sitio de GeoAnalytics Server federado, debe iniciar sesión usando un token del portal, lo que requiere las credenciales del administrador del portal, o como administrador del sitio principal de GeoAnalytics Server. Si no es administrador del portal o no tiene acceso a la información de la cuenta del administrador del sitio principal, contacte con el administrador del portal para que complete los pasos.
Vaya a datos > registerItem.
Copie el siguiente texto y péguelo en el cuadro de texto Elemento. Actualice los siguientes valores:
- <bigDataFileShareName>: sustitúyalo por el nombre que desea para el recurso compartido de archivos de big data.
- <hdfs path>: sustitúyalo por la ruta de sistema de archivos totalmente calificada al recurso compartido de archivos de big data, por ejemplo, hdfs://domainname:port/folder.
- <user@realm>: sustitúyalo por el usuario y el entorno del principal.
- <keytab location>: sustitúyalo por la ubicación del archivo keytab. El archivo keytab debe ser accesible para todos los equipos del sitio de GeoAnalytics Server, por ejemplo, //shared/keytab/hadoop.keytab.
```
{
   "path": "/bigDataFileShares/<bigDataFileShareName>",
   "type": "bigDataFileShare",
   "info": 
         {
          "connectionString": "{\"path\":\"<hdfs path>",\"accessMode\":\"Kerberos\",\"principal\":\"user@realm\",\"keytab\":\"<keytab location>\"}",
          "connectionType": "hdfs"
         }
}
  
```
Haga clic en Registrar elementos.
Una vez que el elemento se haya registrado, el recurso compartido de archivos de big data aparece como data store en ArcGIS Server Manager con un manifiesto rellenado. Si el manifiesto no está rellenado, continúe con el paso 5.
Inicie sesión en el ArcGIS Server Manager de su sitio de GeoAnalytics Server.
Puede iniciar sesión como publicador o administrador.
Vaya a Sitio > Data Stores y haga clic en el botón Volver a generar manifiesto junto al nuevo recurso compartido de archivos de big data.

Ahora tiene un recurso compartido de archivos de big data y un manifiesto para su HDFS, al que accederá mediante la autenticación Kerberos. El elemento de recurso compartido de archivos de big data del portal apunta a un servicio de catálogo de big data en GeoAnalytics Server.

Hive

Nota:

GeoAnalytics Server utiliza Spark 3.0.1. Hive debe pertenecer a la versión 2.3.7 o 3.0.0–3.1.2.

Si intenta registrar un archivo de big data compartido con Hive que no pertenece a la versión correcta, el registro del archivo fracasará. Si ocurre, reinicie la caja de herramientas GeoAnalyticsManagement en el Administrador del directorio ArcGIS Server, > servicios > Sistema > GeoAnalyticsManagement> parar. Repita los pasos para empezar.

En Hive, todas las tablas de una base de datos se reconocen como datasets en un recurso compartido de archivos de big data. En el ejemplo siguiente existe un metastore con dos databases, default y CityData. Cuando registre un archivo compartido de big data de Hive a través de ArcGIS Server con su GeoAnalytics Server, solo se puede seleccionar una base de datos. En este ejemplo, si se ha seleccionado la base de datos CityData, habrá dos datasets en el recurso compartido de archivos de big data, FireData y LandParcels.

|---HiveMetastore                 < -- The top-level folder is what is registered as a big data file share
   |---default                    < -- A database
      |---Earthquakes
      |---Hurricanes
      |---GlobalOceans
   |---CityData				               < -- A database that is registered (specified in Server Manager)
      |---FireData
      |---LandParcels

Almacenes en la nube

Hay tres pasos para registrar un recurso compartido de archivos de big data del tipo almacén en la nube.

Preparar los datos

Para preparar los datos para un recurso compartido de archivos de big data en un almacén en la nube, debe formatear los datasets como subcarpetas en una sola carpeta principal.

A continuación, se proporciona un ejemplo del modo de estructurar los datos. En este ejemplo se registra la carpeta principal, FileShareFolder, que contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans. Cuando registra una carpeta principal, todos los subdirectorios de la carpeta que especifica también se registran con GeoAnalytics Server.

Ejemplo de la forma de estructurar los datos en un almacén en la nube que se usará como recurso compartido de archivos de big data. Este archivo de big data contiene tres datasets: Earthquakes, Hurricanes y GlobalOceans.

|---Cloud Store                          < -- The cloud store being registered
   |---Container or S3 Bucket Name       < -- The container (Azure) or bucket (Amazon) being registered as part of the cloud store
      |---FileShareFolder                < -- The parent folder that is registered as the 'folder' during cloud store registration
         |---Earthquakes                 < -- The dataset "Earthquakes", composed of 4 csvs with the same schema
            |---1960
               |---01_1960.csv
               |---02_1960.csv
            |---1961
               |---01_1961.csv
               |---02_1961.csv
         |---Hurricanes                  < -- The dataset "Hurricanes", composed of 3 shapefiles with the same schema
            |---atlantic_hur.shp
            |---pacific_hur.shp
            |---otherhurricanes.shp
         |---GlobalOceans                < -- The dataset "GlobalOceans", composed of 1 shapefile
            |---oceans.shp

Registrar el almacén en la nube con GeoAnalytics Server

Conecte con el sitio de GeoAnalytics Server desde ArcGIS Server Manager para registrar un almacén en la nube. Cuando registre un almacén en la nube, debe incluir un nombre de contenedor de Azure, un nombre de depósito de Amazon S3 o un nombre de cuenta de almacén de Azure Data Lake. Se recomienda especificar también una carpeta dentro del contenedor o depósito. La carpeta especificada se compone de subcarpetas y cada una representa un dataset individual. Cada dataset se compone de todo el contenido de la subcarpeta.

Registrar un almacén en la nube como recurso compartido de archivos de big data

Siga estos pasos para registrar el almacén en la nube que creó en la sección anterior como recurso compartido de archivos de big data:

Inicie sesión en el ArcGIS Server Manager de su sitio de GeoAnalytics Server.
Puede iniciar sesión como publicador o administrador.
Vaya a Sitio > Data Stores y elija Archivos compartidos de Big Data en la lista desplegable Registro.
Proporcione la siguiente información en el cuadro de diálogo Registrar archivos compartidos de Big Data:
1. Escriba un nombre para el recurso compartido de archivos de big data.
2. Elija Almacén en la nube en la lista desplegable Tipo.
3. Elija el nombre de su almacén en la nube en la lista desplegable Almacén en la nube.
4. Haga clic en Crear para registrar un almacén en la nube como recurso compartido de archivos de big data.

Ahora tiene un recurso compartido de archivos de big data y un manifiesto para su almacén en la nube. El elemento de recurso compartido de archivos de big data del portal apunta a un servicio de catálogo de big data en GeoAnalytics Server.

Registrar el recurso compartido de archivos de big data

Para registrar un recurso compartido de archivos, HDFS o un almacén en la nube de Hive como un recurso compartido de archivos de big data, conéctese a su sitio de GeoAnalytics Server mediante ArcGIS Server Manager. Consulte Registrar los datos con ArcGIS Server usando Manager en la ayuda de ArcGIS Server para obtener detalles sobre los pasos necesarios.

Sugerencia:

Los pasos para registrar un almacén en la nube como un recurso compartido de archivos de big data se detallaron en la sección anterior.

Cuando se registra un recurso compartido de archivos de big data, se genera un manifiesto que describe el formato de los datasets dentro de la ubicación compartida, incluidos los campos que representan la geometría y el tiempo. Si opta por registrar su recurso compartido de archivos de big data como una ubicación de salida, también se genera un manifiesto de plantilla de salida. En el portal se crea un elemento de recurso compartido de archivos de big data que hace referencia a un servicio de catálogo de big data en el GeoAnalytics Server donde ha registrado los datos. Para obtener más información sobre los servicios de catálogo de big data, consulte la documentación de Servicio de catálogo de big data en la ayuda de la API REST de ArcGIS Services.

Modificar un recurso compartido de archivos de big data

Cuando se crea un servicio de catálogo de big data, se genera automáticamente un manifiesto para los datos de entrada que se carga al sitio de GeoAnalytics Server donde ha registrado los datos. Puede que el proceso de generación de un manifiesto no siempre calcule correctamente los campos que representan la geometría y el tiempo, por lo que es posible que deba aplicar ediciones. Para editar un manifiesto, siga los pasos que se indican en Editar manifiestos de recursos compartidos de archivos de big data en Manager. Para obtener más información sobre el manifiesto de archivos compartidos de big data, consulte Comprender un manifiesto de archivos compartidos de big data en la ayuda de ArcGIS Server.

Modificar las plantillas de salida de un recurso compartido de archivos de big data

Si opta por usar el recurso compartido de archivos de big data como ubicación de salida, se generan automáticamente plantillas de salida. Dichas plantillas describen el formato de los resultados del análisis de salida, por ejemplo, el tipo de archivo y cómo se registrarán el tiempo y la geometría. Tiene la opción de modificar las plantillas si desea modificar el formato del tiempo o la geometría, así como agregar o eliminar plantillas. Para editar las plantillas de salida, siga los pasos que se indican en Editar manifiestos de recursos compartidos de archivos de big data en Manager. Para obtener más información sobre plantillas de salida, consulte Plantillas de salida en un recurso compartido de archivos de big data.

Ejecutar análisis en un recurso compartido de archivos de big data

Puede ejecutar un análisis en un recurso compartido de archivos de big data a través de cualquier cliente que admita GeoAnalytics Server, entre los que se incluyen los siguientes:

ArcGIS Pro
Map Viewer
API REST de ArcGIS
ArcGIS API for Python

Para ejecutar su análisis en un recurso compartido de archivos de big data a través de ArcGIS Pro o Map Viewer, seleccione la GeoAnalytics Tools que desee usar. Para la entrada a la herramienta, acceda a la ubicación de los datos en el Portal de ArcGIS Pro o en el cuadro de diálogo Examinar capas de Map Viewer. Los datos residirán en Mi contenido si ha registrado los datos usted mismo. De lo contrario, busque en Grupos o en Todo el portal. Tenga en cuenta que una capa de recurso compartido de archivos de big data seleccionada para el análisis no se visualizará en el mapa.

Nota:

Asegúrese de que ha iniciado sesión en una cuenta de portal que tiene acceso al recurso compartido de archivos de big data registrado. Puede buscar su portal con el término bigDataFileShare* para encontrar rápidamente todos los recursos compartidos de archivos de big data a los que puede acceder.

Para ejecutar un análisis en un archivo compartido de Big Data a través de la API REST de ArcGIS, utilice como entrada la dirección URL del servicio de catálogo de Big Data. La dirección URL tendrá el formato {"url":" https://webadaptorhost.domain.com/webadaptorname/rest/DataStoreCatalogs/bigDataFileShares_filesharename/BigDataCatalogServer/dataset"}. Por ejemplo, con un equipo denominado example, un dominio denominado esri, un Web Adaptor denominado server, un archivo compartido de big data denominado MyData y un dataset denominado Earthquakes, la dirección URL sería: {"url":" https://example.esri.com/server/rest/DataStoreCatalogs/bigDataFileShares_MyData/BigDataCatalogServer/Earthquakes"}. Para obtener más información sobre la entrada al análisis de big data a través de REST, consulte el tema Entrada de entidad en la documentación de la API REST de ArcGIS Services.

Guardar resultados en un recurso compartido de archivos de big data

Puede ejecutar análisis en un dataset (recurso compartido de archivos de big data u otra entrada) y guardar los resultados en un recurso compartido de archivos de big data. Si guarda los resultados en un recurso compartido de archivos de big data, no podrá visualizarlos. Puede hacerlo mediante los siguientes clientes:

Map Viewer
API REST de ArcGIS
ArcGIS API for Python

Cuando escribe resultados en un recurso compartido de archivos de big data, el manifiesto de entrada se actualiza para incluir el dataset que acaba de guardar. Los resultados que ha escrito en el recurso compartido de archivos de big data ya están disponibles como entrada para ejecutar otra herramienta.

¿Algún comentario sobre este tema?