¿Existe una ontología de la ciencia de datos?

Este es un tema realmente grande, así que voy a ser breve.

¡Para responder a tu pregunta, si! Mira aquí: ontología de ciencia de datos

Data Science Ontology es un campo nuevo y en desarrollo y está bastante ocupado definiéndose a sí mismo; mira aquí para obtener más información: Data Science Ontology. Me gusta lo que estas personas están haciendo aquí porque hay un flujo de trabajo de diseño de ontología sólido; el sitio web proporciona un gráfico visual simple que se expande para mostrar los conceptos de conocimiento comúnmente aceptados, para comprender una ontología para el dominio “ciencia de datos”. Como la ontología trata sobre el razonamiento sobre el conocimiento, estos conceptos arrojan luz sobre qué tipos de realidades computacionales empíricas son posibles.

Tenga en cuenta que en el mundo comercial en ejercicio muchos ven a Data Science como una noción más poderosa y sofisticada de ETL convencional; no lo es, es solo donde el dominio está tecnológicamente en el estado actual.

Una cosa más muy importante para pensar es esto; muchos profesionales que diseñan y administran tecnologías de bases de datos heredadas y actuales e instancias de bases de datos han sido capacitados, incluido yo mismo, para diseñar datos de acuerdo con las reglas que CJ Date estableció hace años: la mayoría de los datos del mundo residen en “Formas relacionales algebraicas y SQL se utiliza para acceder esos datos

El modelado de datos relacionales (atributos, propiedades e índices) es bastante diferente del diseño de ontología (conocimiento / razonamiento): los objetivos son muy diferentes. A la mayoría de las personas se les enseña modelado de datos relacionales del mundo de la informática, mientras que el modelado de ontología proviene de los mundos de la filosofía y la ciencia de la información y la lógica simbólica.

En este momento, muchas personas que practican “Ciencia de datos” están extrayendo datos de fuentes relacionales y luego cargan datos en una taxonomía intermedia para que puedan aplicar técnicas genéticas, generativas, Soft-AI y otras técnicas de programación y “minería de datos” para crear conjuntos de datos, información y conocimiento más potentes e interesantes; los datos se extraen de formularios relacionales y se almacenan en lo que comúnmente se conoce como almacenes de datos NO-SQL (conjunto de pares clave / valor).

El científico de datos migra los datos de la forma relacional a pares clave / valor porque el acceso, la manipulación y el cálculo de los datos no están sujetos a los axiomas y expresiones idiomáticas de la teoría relacional. Una pregunta muy interesante para reflexionar es esta: ¿Data Scientist está creando modelos reales de ontología (OWL) para transformar, extraer y calcular datos o es solo una “caja negra”?

Desde una perspectiva epistemológica, vemos a Data Science como una herramienta poderosa para generar conocimiento y es posible convertirlo en sabiduría. Desde el punto de vista cuantitativo, definimos que la ciencia de datos ayuda a encontrar algún patrón útil en el gran almacén de datos. El escenario ontológico de la ciencia de datos va con la extracción de datos, la transformación de los datos y la carga de los datos en el clasificador apropiado. El siguiente paso es comprender el problema con respecto a las siguientes preguntas:

  1. ¿Qué tipo de datos contiene el problema?
  2. Cuantos atributos
  3. ¿Vamos por una metodología supervisada, no supervisada o semi-supervisada?
  4. ¿Qué estamos tratando de obtener como salida?

Responder la pregunta anterior lo ayuda a desarrollar la caja mágica negra que llamamos en ciencia de datos como el MODELO. Después de eso, solo necesita cargar sus datos y obtener el resultado deseado. Las técnicas de E&T mejoran la calidad de los datos mediante diversas metodologías, como la eliminación de valores atípicos, valores faltantes, comprensión y manipulación heterogénea de datos. La cuantificación de los datos mediante Error, Matriz, Análisis gráfico, le ayuda a comparar sus resultados de alguna metodología utilizada en el pasado. Por lo tanto, la ciencia de los datos está mejorando el conocimiento y simultáneamente logrando una mejora satisfactoria con tan solo un 0,0001%.