Esta es la versión en Español del sitio Web principal en Inglés, el cual se encuentra disponible en:
Statistical Thinking for Managerial Decisions
Asia-Pacific Mirror Site
Europe Mirror Site
USA Site
Este sitio Web es un curso de valoración estadística; es decir, para adquirir un sentido a la manera del razonamiento estadístico. Este es un curso introductorio de estadística que esta diseñado para proveer los conceptos básicos y métodos de análisis estadístico en la toma de decisión bajo incertidumbre. Los materiales en este sitio Web han sido adaptados para satisfacer sus necesidades en la apropiada toma de decisiones promoviendo el razonamiento estadístico. El objetivo fundamental de este sitio Web es expandir el nivel en el cual el razonamiento estadístico se combina con el razonamiento gerencial en la toma de decisión bajo incertidumbre.
CONTENIDO
Capítulo 1: Hacia el razonamiento estadístico para la toma de decisiones Capítulo 2: Análisis de datos en muestreos descriptivo Capítulo 3: Probabilidad para la inferencia y el modelamiento estadístico Capítulo 4: Condiciones necesarias para la toma de decisión estadísticas Capítulo 5: Estimadores y sus cualidades Capítulo 6: Prueba de hipótesis: Rechazar una proposición Capítulo 7: Prueba de hipótesis para promedios y proporciones Capítulo 8: Pruebas para la igualdad estadística de dos o más poblaciones Capítulo 9: Aplicaciones del estadístico Chi-cuadrado Capítulo 10: Modelos de regresión y análisis Capítulo 11: Criterios unificados en la tecnología de las decisiones estadísticas Capítulo 12: Números índice con aplicaciones Capítulo 13: Una Clasificación de los JavaScript estadíticos, Capítulo 14: Preguntas Frecuentes: Lista de los ¿ Por qué? Estadísticos (Word.Doc) Sitios Adjuntos:
Ciencia de la Administración Aplicada para Gerentes y Lideres Gerenciales,
Sitio Espejo para España, Sitio Espejo para América Latina.Modelos Deterministas: Optimización lineal,
Sitio Espejo para España, Sitio Espejo para América Latina.Modelos Probabilísticos: Del análisis de la decisión,
Sitio Espejo para España, Sitio Espejo para América Latina.Introducción a la Teoría de Juegos,
Sitio Espejo para España, Sitio Espejo para América Latina.Toma de Decisiones con Periodos de Tiempo Crítico en Economía y Finanzas,
Sitio Espejo para España, Sitio Espejo para América Latina.Una Clasificación de JavaScript Estadíticos,
Sitio Espejo para España, Sitio Espejo para América Latina.
Para buscar el sitio, presione Editar | Buscar la página [Ctrl + f]. Escriba una palabra o frase en el espacio de diálogo, por ejemplo. "parámetro" o "probabilidad". Si el primer resultado de la palabra o frase no es el que usted buscaba, intente con Próxima Busqueda.
Hacia el Razonamiento Estadístico para la Toma de Decisiones
![]()
Análisis de Datos de Muestreos Descriptivos
![]()
Probabilidad para la Inferencia y el Modelamiento Estadístico
![]()
Condiciones Necesarias para la Toma de Decisiones estadísticas
![]()
Estimadores y sus Características
![]()
Prueba de Hipótesis: Rechazo de una Proposición
![]()
Prueba de Hipótesis para Medias y Proporciones
![]()
Prueba para la Igualdad Estadística de Dos o mas Poblaciones
![]()
Aplicación del Estadístico Chi- cuadrado
![]()
Modelos de Regresión y Análisis
![]()
Criterios Unificados de Tecnologías para Decisiones
![]()
Números Índices y Aplicaciones
Introducción al Razonamiento Estadístico para la Toma de Decisiones
Este sitio Web desarrolla de manera sistemática y correcta las ideas básicas de la estadística para negocios. Es una combinación de lecciones teóricas y prácticas computarizadas acopladas firmemente. Introduce las técnicas para la recopilación y presentación datos, estimaciones, intervalos de confianza y pruebas de hipótesis. Esta presentación se concentra más en la comprensión de los conceptos claves y del razonamiento estadístico, y menos en las fórmulas y los cálculos, los cuales pueden ser hechos fácilmente en computadoras a través del uso, por ejemplo, Estadístico en JavaScript, etc.
Las buenas decisiones de hoy en día son conducidas por datos. En todos los aspectos de nuestras vidas, y más aún en el mundo de los de los negocios, una diversidad asombrosa de datos está disponible para el reconocimiento y la aproximación analítica. Actualmente, gerentes de negocios y profesionales son más exigidos a justificar sus decisiones basándose en la información proporcionada por datos. Necesitan sistemas de soporte de decisiones basadas en modelos.
Las habilidades estadísticas le permiten recolectar, analizar e interpretar inteligente los datos relevantes en su toma de decisión. En este contexto, los conceptos estadísticos y el razonamiento estadístico les:
- Solucionar problemas en una diversidad de.
- Agregar soporte a las decisiones.
- Reducir el trabajo de adivinar.
Este sitio Web es un curso de valoración estadística; es decir, para adquirir un sentido a la manera del razonamiento. El objetivo es hacer que el razonamiento estadístico suene comprensible en términos del lenguaje de negocios. Este curso introductorio en estadística, esta diseñado para proveer los conceptos básicos y los métodos de análisis estadístico para procesos y productos. Las documentaciones en este sitio Web han sido adaptadas para ayudarle a tomar mejores decisiones y a hacerlo razonar en el sentido estadístico. En consecuencia, uno de los objetivos fundamentales de este sitio Web es fomentar el razonamiento estadístico en los gerentes de negocio, los cuales en muchos casos deben tomar decisiones con escasa información. En el ámbito competitivo, los gerentes de negocios deben diseñar calidad en productos, y en los procesos para producirlos. Deben generar métodos de mejoramiento continuo e ilimitado en todas las etapas de los procesos de producción y servicio. Esta es una estrategia que emplea métodos estadísticos, particularmente experimentos estadísticamente diseñados, y generan procesos que proporcionan alto nivel de producción, y productos que raramente fracasan en el mercado. Por otra parte, facilita el desarrollo de productos sólidos en el mercado que son insensibles a los cambios en la variación del ambiente y de componentes internos. Estudios estadísticos cuidadosamente planificados eliminan obstáculos para alta calidad y productividad en cada etapa de la producción. Esto hace ahorrar tiempo y dinero. Es bien sabido que la calidad en el los productos debe ser aplicada lo antes posible en los procesos de producción. Se debe saber utilizar experimentos estadísticos cuidadosamente planificados para mejorar, optimizar, y para hacer procesos y productos sólidos en el mercado.
La estadística de negocios es una ciencia que le asiste en la toma de decisiones económicas bajo incertidumbre basadas en algunas escalas numéricas y mensurables. Los procesos de toma de decisión deben basarse en datos, no en opiniones personal o creencias.
El diablo está en las desviaciones: ¡La variación es inevitable en nuestras vidas! Cada proceso, cada medida, y cada muestra tienen variaciones. Gerentes de negocios necesitan entender la variación por dos razones fundamentales. Primero, gerentes pueden guiar a otros para aplicar el razonamiento estadístico en actividades cotidianas; y segundo, para aplicar este concepto en la búsqueda del mejoramiento permanente. Este curso le proveerá de experiencias prácticas para promover el uso del razonamiento y de técnicas estadísticas aplicables para tomar decisiones adecuadas, siempre que usted encuentre variaciones en los datos. Usted aprenderá técnicas para determinar y para manejar inteligentemente los riesgos inherentes en la toma de decisión. Por lo tanto, recuerde que:
Simplemente como el tiempo, si usted no puede controlar algo, usted debe aprender cómo medirlo y analizarlo, para predecirlo con eficacia. .
Si usted ha tomado cursos de estadística con anterioridad, y siente la imposibilidad de afianzar los conceptos, puede que esto se deba en gran parte al legado de sus instructores no-estadísticos que le enseñaron estadística. Deficiencias de dichos instructores conducen a los estudiantes a desarrollar fobias a a la ciencia dulce de la estadística. A este respecto, profesor Herman Chernoff (1996) hizo la siguiente observación:
La inadecuada enseñanza de la estadística durante la educación universitaria conlleva, incluso después de graduado, a uno, o combinación de alguno de los siguientes escenarios:
Colocando números dentro de formulas y combinándolos no tiene ningún sentido. Usted debería esforzarse en entender los conceptos e interpretar los resultados.
Aunque usted resuelva problemas simples a mano, nos gustaría que utilizara programas de computadora y en formato Web que hagan el trabajo sucio por usted.
Usted debe ser capaz de leer los secretos lógicos de las formulas sin memorizarlas. Por ejemplo, cuando calcule la varianza, considere su formula. En vez de memorizarla, usted bebería comenzar por preguntarse:
i. ¿Por qué elevamos al cuadrado la desviación estándar?
Por que si nosotros simplemente sumamos todas las desviaciones, siempre obtendríamos un valor cero. Entonces, para resolver este problema, se elevan al cuadrado las desviaciones. ¿Porqué no se eleva a la cuarta potencia (la tercera no funcionaría)? Elevar al cuadrado resuelve el problema; ¿Por qué deberíamos hacer la vida más complicada de lo que es? Adicionalmente observe que elevando la desviación al cuadrado se magnifica su valor, y en consecuencia este cálculo funciona para medir la calidad de los datos.ii. ¿Por qué existe un signo de suma en la formula?
Para sumar el cuadrado de cada una de las desviaciones de los datos y calcular la suma total de las desviaciones al cuadrado.iii. ¿Por qué dividimos la suma de los cuadrados por n-1?
El grado de desviación debería reflejar cuan grande es la muestra; en consecuencia debemos incluir el tamaño de la muestra. Es decir, en general, muestras más grandes en tamaño, tienen desviaciones elevadas al cuadrado de mayor valor con respecto al valor de la media. ¿Por qué n-1 y no n? La razón de n-1 es que cuando se divide por n-1, la varianza de la muestra proporciona una varianza estimada mucho más cercana a la varianza de la población, que cuando solo se divide por n. Note que para tamaños grandes de n (por ejemplo superiores a 30), no existe ninguna diferencia si es dividida por n ó por n-1. Los resultados son aproximadamente iguales, por lo tanto son aceptables. El factor n-1 es lo que conocemos como los "grados de libertad”.Este ejemplo demuestra cómo interpretar fórmulas estadísticas, en vez de memorizarlas. De hecho, cuando usted intenta entender las fórmulas, usted no necesita recordarlas, eso es parte de la conectividad del cerebro. El razonamiento claro es mucho más importante que la habilidad de hacer aritmética .
Cuando usted observe una fórmula estadística, la fórmula debe hablarle, así como cuando un músico mira las notas de un pedazo de partitura musical, el escucha la música.
Aprendizaje Asistido por Computadoras: El aprendizaje asistido por computadoras le provee de experiencias aplicables, el cual soportará el proceso de entendimiento de los conceptos y técnicas que son cubiertas en este sitio Web.
Java, que alguna vez fue un lenguaje esotérico de programación para animación en páginas Web, es ahora una plataforma indispensable para construir los objetos con aplicaciones útiles de aprendizaje en laboratorios en línea usando Javascript. Así como usted solía realizar experimentos en los laboratorios de física para aprender esta ciencia, el aprendizaje asistido por computadoras le permite utilizar cualquier herramienta interactiva que este disponible en la Internet para realizar experimentos. El propósito es el mismo; es decir, entender conceptos estadísticos usando los applets estadísticos, los cuales además de ser entretenidos, son educativos.
La disponibilidad de programas de computación, de Javascript, los applets estadísticos de demostración, y el cálculo computarizado en línea son los acontecimientos más importantes en el proceso de la enseñanza y aprendizaje basados en modelos para cursos estadísticos de toma de decisiones. Las tecnologías de laboratorios en línea le permiten construir ejemplos numéricos para entender los conceptos, y encontrar su significado.
Desafortunadamente, la mayoría de los cursos dictados en salones de clases no desarrollan sistemas de aprendizaje. La manera en que profesores procuran ayudar a sus estudiantes a adquirir habilidades y conocimientos no tiene absolutamente ninguna relación con la manera en la que los estudiantes realmente aprenden. La mayoría de los profesores fundamentan su enseñanza en lecciones, exámenes y memorización. Muchos, en ocasiones se confían solo en “dictar clases”. Nadie recuerda mucho de lo que es enseñado por lo que se escucha, y lo que se es dicho no se convierte en habilidades aplicables. Ciertamente, aprendemos por lo que hacemos, fallando, y practicando hasta que lo hagamos correctamente. El aprendizaje asistido por computadoras responde a este propósito.
Un curso en la valoración del razonamiento estadístico da a los profesionales de negocios un margen. Profesionales con fuertes habilidades cuantitativas están en demanda. Este fenómeno crecerá en la medida que el ímpetu para las decisiones basadas en datos se consolide y a medida que la cantidad y la disponibilidad de los datos aumenten. El cúmulo de herramientas estadísticas puede ser desarrollado y desplegado en todas las etapas de cualquier carrera. El proceso de toma de decisión bajo incertidumbre se basa en gran parte en el uso de la estadística para la estimación de la probabilidad de acontecimientos no controlables (o de factores), así como la estimación del riesgo de sus decisiones. El objetivo principal de este curso es aprender el razonamiento estadístico; adentrarnos mas en los conceptos, y menos en teorías y recetas, y finalmente fomentar el aprendizaje del activo útil e interesante de los sitios Web. Es ya un hecho que el “razonamiento estadístico un día será tan necesario para una sociedad eficiente así como la capacidad de leer y de escribir.” Entonces, estemos adelantados a nuestro tiempo.
El Nacimiento de la Probabilidad y la Estadística
La idea original de la "estadística" era la recolección de información sobre y para "estado". La palabra estadística se deriva directamente, no las raíces griegas o latinas clásica, sino de la palabra italiana estado.El nacimiento de la estadística se ubica a mediados del siglo XVII. Un ciudadano común llamado Juan Graunt, nacido en Londres, comenzó a revisar la publicación semanal de la iglesia, la cual era distribuida en la parroquia local y que listaba el numeró de nacimientos, bautizos, y de muertes en cada parroquia. Estas cifras de mortalidad también enumeraban las causas de las muertes. Graunt que era comerciante organizó estos datos en la forma que hoy llamamos estadística descriptiva, la cual fue publicada como Observaciones Naturales y Políticas hechas sobre la tasa de Mortalidad. Luego de la publicación, fue elegido como miembro de la sociedad real. De esta forma, la estadística tomo prestados algunos conceptos de la sociología, tal como el concepto de Población. Se ha discutido que, porque la estadística implica generalmente el estudio del comportamiento humano, no puede proporcionar la precisión de las ciencias físicas.
La probabilidad tiene una historia mucho más antigua. La Probabilidad se deriva del verbo probar, el cual significado “descubrir” el cuál no es tan fácilmente accesible o comprensible. La palabra “prueba” tiene el mismo origen el cual proporciona los detalles necesarios para entender qué se requiere para que sea verdadera.
La probabilidad se origina proveniente del estudio de juegos de azar y apuestas durante el siglo XVI. La teoría de la probabilidad fue una rama de los estudios matemáticos hechos por Blaise Pascal y Pierre de Fermat en el siglo XVII. Actualmente en el siglo XXI, el modelo probabilístico se utiliza para controlar el flujo del tráfico a través de autopistas, en una conexión telefónica, o en una computadora, encontrar la composición genética de individuos o poblaciones, control de calidad, seguro, inversión y otros sectores de negocios y de la industria.
Las nuevas y crecientes diversidades de campos en las actividades humanas utilizan la estadística; sin embargo, pareciera que este campo en sí, sigue siendo desconocido para el público. Profesor Bradley Efron resalta este hecho:
Modelamiento Estadístico para la Toma de Decisiones Bajo Incertidumbre:
En este, nuestro mundo diverso, no existen dos cosas iguales. Los estadísticos se interesan por las dos, las diferencias y las similitudes; es decir, los orígenes y los patrones.
Desde los Datos al Conocimiento InstrumentalLas tablas actuariales publicadas por las compañías de seguros reflejan el análisis estadístico de las expectativas de vida de un hombre y una mujer a una edad determinada. Con esta información, las compañías de seguros calculan las primas a ser cobradas a cada individuo que compra una determinada cobertura.
El análisis exploratorio de datos utiliza técnicas gráficas y numéricas para estudiar patrones de conducta y el origen de los mismos. Las técnicas de estadística descriptiva normalmente usadas son: Distribución de frecuencia; Histogramas, Boxplot, Gráficos de Dispersión, diagramas de barras y errores, diagramas de diagnóstico.
Cuando se examina la distribución de los datos, usted debería estar capacitado para detectar algunas características importantes, tales como forma, ubicación, variabilidad, y valores inusuales. Mediante una cuidadosa observación de los patrones en los datos, usted puede generar conjeturas acerca las relaciones entre variables. La noción de cómo una variable puede estar asociada a otra esta inmersa en casi todo el análisis estadístico, mediante comparaciones simples de proporciones a través de la regresión lineal. La diferencia entre la asociación y la causalidad debe acompañar este desarrollo conceptual.
Los datos deben ser recolectados acorde al desarrollado de un plan que garantice que la información válida sobre una conjetura a ser obtenida. El plan debe identificar las variables importantes que estén relacionadas con la conjetura, y especificar cómo estas van a ser medidas. Acorde a este plan de recolección de datos, un modelo estadístico puede ser formulado desde el cual las inferencias pueden ser obtenidas.
Un ejemplo de modelos estadísticos con implicaciones gerenciales, como un “que pasa si...” análisis, es el análisis de regresión. Este análisis es una técnica de gran poder que permite estudiar la relación entre variables dependientes (productos, medidas de funcionamiento) y variables independientes (insumos, factores, y variables de decisión). Reuniendo relaciones entre las variables de la ecuación más apropiada (es decir, el modelo) nos permite predecir o identificar los factores más influyentes, además de estudiar el impacto sobre las variables dependientes para cualesquier cambio en sus valores actuales.
Frecuentemente, por ejemplo los gerentes de mercadeo se enfrentan con la pregunta, ¿qué tamaño de muestra es necesario? Esta es una común e importante decisión estadística, y que debe ser tomada en consideración, puesto que un tamaño de muestra inadecuado conduce a un inevitable desperdicio y desaprovechamiento de recursos. La sección para la determinación del tamaño de muestra proporciona una solución práctica a esta de riesgo.
Los modelos estadísticos son utilizados actualmente en varios campos de negocios y de la ciencia. Sin embargo, la terminología difiere entre campo y campo. Por ejemplo, la correlación de modelos a los datos, llamada calibración, la correspondencia histórica, y la asimilación de datos, son todos sinónimos con los parámetros de estimación.
La base de datos de su organización o empresa contiene riqueza en la información, sin embargo los miembros de los grupos de decisiones tecnológicas filtran una fracción de ella. Empleados desperdician mucho tiempo buscando cuidadosamente múltiples fuentes para una base de datos. Los tomadores de decisiones se frustran porque no pueden conseguir datos críticos para sus negocios exactamente cuando ellos lo necesitan. Por lo tanto, muchas decisiones se basan en adivinanzas, no hechos. También muchas oportunidades son desperdiciadas, si es que son si quiera percibidas.
El conocimiento es lo que sabemos. La información es la comunicación de conocimientos. En cada intercambio de conocimientos, hay un remitente y un receptor. El remitente hace común lo que es privado, hace la información, la comunicación. La información se puede clasificar como formas explícitas y tácitas. La información explícita se puede explicar de forma estructurada, mientras que la información tácita es inconsistente e imprecisa de explicar.
Los datos son conocidos como información cruda y no como conocimientos en sí. La secuencia que va desde los datos hasta el conocimiento es (observe el siguiente cuadro): de los Datos (Data) a la Información (Information), de la Información (Information) a los Hechos (Facts), y finalmente, de los Hechos (Facts) al Conocimiento Knowledge) . Los datos se convierten en información, cuando se hacen relevantes para la toma de decisión a un problema. La información se convierte en hecho, cuando es respaldada por los datos. Los hechos son lo que los datos revelan. Sin embargo el conocimiento instrumental es expresado junto con un cierto grado estadístico de confianza (gl).
Los hechos se convierten en conocimiento, cuando son utilizados en la complementación exitosa de un proceso de decisión. Una vez que se tenga una cantidad masiva de hechos integrados como conocimiento, entonces su mente será sobrehumana en el mismo sentido en que, con la escritura, la humanidad es sobrehumana comparada a la humanidad antes de escribir. La figura siguiente ilustra el proceso de razonamiento estadístico basado en datos para construir los modelos estadísticos para la toma de decisión bajo incertidumbre.
![]()
de donde:
Level of Exactness of Statistical Model = Nivel de Exactitud del Modelo Estadístico.
Level of improvements on decisión making = Nivel de Mejoramiento en la Toma de Decisiones
La figura anterior representa el hecho que a medida que la exactitud de un modelo estadístico aumenta, el nivel de mejoramiento en la toma de decisión aumenta. Esta es la razón del porqué necesitamos la estadística de negocio. La estadística se creo por la necesidad de poner conocimiento en una base sistemática de la evidencia. Esto requirió un estudio de las leyes de la probabilidad, del desarrollo de las propiedades de medición, relación de datos.
La inferencia estadística intenta determinar si alguna significancia estadística puede ser adjunta luego que se permita una variación aleatoria como fuente de error. Una inteligente y crítica inferencia no puede ser hecha por aquellos que no entiendan el propósito, las condiciones, y la aplicabilidad de las de diversas técnicas para juzgar el significado.
Considerando el ambiente de la incertidumbre, la posibilidad de que “las buenas decisiones” sean tomadas incrementa con la disponibilidad “de la buena información”. El chance de la disponibilidad de “la buena información” incrementa con el nivel de estructuración del proceso de Dirección de Conocimiento. La figura anterior también ilustra el hecho que mientras la exactitud de un modelo estadístico aumenta, el nivel de mejora en la toma de decisiones aumenta.
El conocimiento es mas que simplemente saber algo técnico. El conocimiento necesita la sabiduría. La sabiduría es el poder de poner nuestro tiempo y nuestro conocimiento en el uso apropiado. La sabiduría viene con edad y experiencia. La sabiduría es la aplicación exacta del conocimiento exacto. La sabiduría es sobre saber como algo técnico puede ser mejor utilizado para cubrir las necesidades de los encargados de tomar decisiones. La sabiduría, por ejemplo, crea el software estadístico que es útil, más bien que técnicamente brillante. Por ejemplo, desde que la Web entró en el conocimiento popular, los observadores han notado que esto pone la información en nuestras manos, pero guardar la sabiduría fuera de nuestro alcance.
Los profesionales comerciales necesitan un juego de herramientas estadístico. Las habilidades estadísticas le permiten coleccionar con inteligencia, analizar e interpretar datos relevantes a su toma de decisiones. Los conceptos estadísticos nos permiten solucionar problemas en una diversidad de contextos. El pensamiento estadístico le permite añadir sustancia a sus decisiones.
Por eso necesitamos el análisis de datos estadístico en el modelado probabilístico. La estadística proviene de la necesidad de colocar dirección de conocimiento sobre una base de pruebas sistemática. Esto requirió un estudio de las leyes de probabilidad, el desarrollo de medidas de propiedades de datos, relaciones, etcétera.
El propósito del razonamiento estadístico es hacerse familiar con las técnicas estadísticas, para poder ejecutar procedimientos usando applets disponibles de Javascript, y ser consciente de las condiciones y de las limitaciones de diversas técnicas.
Proceso de Toma de Decisiones Estadísticas
A diferencia de los procesos de toma de decisiones determinísticas tal como, optimización lineal resuelto mediante sistema de ecuaciones, sistemas paramétricos de ecuaciones y en la toma de decisión bajo pura incertidumbre, las variables son normalmente más numerosas y por lo tanto más difíciles de medir y controlar. Sin embargo, los pasos para resolverlos son los mismos. Estos son:
Afortunadamente, los métodos probabilísticos y estadísticos para el análisis de toma de decisiones bajo incertidumbre son más numerosos y mucho más poderosos que nunca. Las computadoras hacen disponible muchos usos prácticos. Algunos de los ejemplos de aplicaciones para negocios son los siguientes:
Preguntas Concernientes al Proceso de Toma de Decisiones Estadísticas:
¿Que es la Estadística de Negocios?
El objetivo principal de la estadística de negocios es hacer inferencias (es decir, predicciones, tomando decisiones) sobre ciertas características de una población basada en la información contenida en una muestra escogida al azar (o aleatoria) de la población entera. La condición para la aleatoriedad es esencial para cerciorarse de que la muestra es representativa con respecto a la población .La estadística de negocios es la ciencia de las “correctas” toma de decisiones que se enfrentan a incertidumbre la cual es utilizada en muchas disciplinas tales como el análisis financiero, econometría, auditoria, producción y operaciones, e investigación de mercadeo. Esta proporciona conocimientos y habilidades para interpretar y utilizar técnicas estadísticas en una variedad de aplicaciones en negocios. Un curso típico de estadística de negocios esta dirigido a personas en el área de negocios, y cubre el estudio estadístico, la estadística descriptiva (recolección, descripción, análisis, y sumario de datos), probabilidad, distribuciones binomiales y normales, prueba de hipótesis e intervalos de confianza, regresión lineal, y correlación.
La estadística es una ciencia de toma de decisiones que se refiere a las características de un grupo de personas u objetos basándose en la información numérica obtenida de una muestra aleatoria seleccionada de un grupo (o población). Los estadísticos se refieren a estas observaciones numéricas como la obtención de una muestra escogida al azar. Sin embargo, note que uno no puede ver una muestra escogida al azar. Una muestra aleatoria es solamente una muestra de los resultados finitos de un proceso de selección al azar.
En la etapa de planeamiento de la investigación estadística, el cuestionamiento del tamaño de muestra (n) es crucial. Por ejemplo, el tamaño de una muestra para seleccionar de una población finita de tamaño N, se fija en: : N½+1, redondeado al número entero más cercano. Obviamente, mientras más grande sea la muestra, mayor será la información relevante que proporciona, y en consecuencia la estimación será más exacta y habrá un mejor criterio estadístico para realizar la prueba de hipótesis.
Las Calles Poco Iluminadas y la Tasa de Crimen: Es un hecho que si las calles de las ciudades residenciales carecen de buena iluminación, es mayor la cantidad de crímenes cometidos en estas áreas. Suponga que usted esta trabajando en la oficina del alcalde, y el/ ella le pide ayuda para decidir de cual fabricante de bombillos deberíamos comprar con el objetivo de reducir por lo menos en cierta cantidad la tasa de crimen, dado que existe un presupuesto limitado:
![]()
Actividades Asociadas al Razonamiento Estadístico en General
La figura anterior ilustra la idea de la inferencia estadística (Statistical Inference) de una muestra aleatoria sobre la población (Population) . También proporciona la estimación de los parámetros de la población ; a saber el valor esperado de µx, la desviación estándar, y la función de distribución acumulativa (fda) Fx, s y sus correspondientes muestras estadística, media
, muestra de la desviación estándar Sx, y la función de distribución empírica acumulativa (fda), respectivamente.
La tarea principal de la estadística es la metodología científica de recolectar, analizar, e interpretar una muestra aleatoria con el objetivo de dibujar inferencias sobre algunas características particulares de una Población Homogénea específica. Por dos razones principales, es casi imposible estudiar una población completa:
El proyecto sería muy costoso y tomaría mucho tiempo. El proceso sería destructivo. En cualquier caso, nosotros recurriríamos a mirar una muestra elegida de la población e intentaríamos deducir la información sobre la población entera solamente examinando una muestra más pequeña. A menudo los números que más nos interesan sobre la población son la media m y la desviación estándar s. Cualquier número -- como la media o desviación estándar – que sea calculado de una población entera, es llamado parámetro. Si los mismos números se derivan solamente de los datos de una muestra, los números resultantes son llamados estadísticos. Con frecuencia, las letras griegas representan parámetros y las letras latinas representan estadísticos (según se demuestra en la figura anterior.)
La incertidumbre en la extensión y generalización de los resultados de muestreo de una población son medidos y expresados por aserciones estadísticas llamadas Inferencia estadística. Por lo tanto, la probabilidad es usada en estadísticas como una herramienta de medición y como criterio de decisión para resolver problemas de incertidumbre en la inferencial estadística.
Un aspecto importante de la inferencial estadística es la estimación de los valores de la población (parámetros) mediante una muestral de datos. Una estimación de un parámetro es imparcial si el valor esperado de la distribución muestral es igual al de la población. La media muestral es una estimación imparcial de la media poblacional. La varianza muestral es una estimación imparcial de la varianza poblacional. Esto nos permite combinar varias estimadores para obtener una mejor estimación. La distribución empírica es la distribución de una muestra aleatoria, mostrada por los pasos de la función en la figura anterior. La función de distribución empírica es una estimación imparcial de la función de distribución de la población F(x).
Dado que se tiene un grupo de variables aleatorias, para calcular la estadística descriptiva, incluyendo los de la figura anterior, a usted podría gustarle utilizar el Javascript de Estadística Descriptiva.
La prueba de hipótesis es un procedimiento para lograr una decisión probabilística concluyente en referencia a un valor propuesto para los parámetros poblacionales basados en una muestra.. Para reducir esta incertidumbre y obtener un alto grado de confianza de que las inferencias estadísticas son correctas, una muestra debe otorgar el mismo chance de ocurrencia o selección a cada miembro de la población, el cual puede ser alcanzado mediante el muestreo aleatorio de una muestra n relativamente grande.
Dado que se tienen un grupo de variables aleatorias, para realizar una prueba de hipótesis para la media m y la varianza s2. A usted podría gustarle utilizar los Javascript de la Prueba de la Media y la Prueba de la Varianza
La estadística es una herramienta que nos permite imponer orden ante la desarmonía desorganizada del mundo de la sociedad moderna. El mundo de los negocios ha crecido en tamaño y competencia. El ejecutivo corporativo tiene que tomar riesgo en los negocios, por lo tanto la necesidad de la estadística de negocio.
¡La estadística de negocio ha crecido con el arte de construir cuadros y tablas! Es una ciencia de basar decisiones en datos numéricos encarando incertidumbre.
La estadística de negocio es un acercamiento científico a la toma de decisión bajo riesgo. En la práctica de la estadística de negocios, buscamos la aproximación, no la solución. Nuestra búsqueda es encontrar una solución que satisfaga todas las necesidades del negocio con el menor riesgo posible. La estadística de negocios puede tomar una situación normal de negocio, y con la apropiada recolección de datos, análisis, e investigación para una solución, convertirla en una oportunidad.
A pesar que la estadística de negocios no puede sustituir el conocimiento y la experiencia de los tomadores de decisiones, es una herramienta valiosa que los gerentes de negocios pueden emplear para respaldar al proceso de toma de decisión con el objetivo de reducir el riesgo inherente.
Para cada consumidor y productor, la estadística de negocio proporciona respuestas justificables a las inquietudes siguientes:
- ¿Cuáles son las Expectativas que usted y su cliente tienen del producto/ servicio que usted vende o que su cliente compra?, es decir, ¿cuál sería una buena estimación m ?
- Dado la información sobre su cliente y sus expectativas, ¿cuál es la Given the information about your, or your customer's, expectation, what is the calidad del producto/ servicio que usted vende o que su cliente compra?, es decir, ¿cuál sería una buena estimación para s ?
- Dada la información sobre su cliente y sus expectativas, y la calidad del producto/ servicio que usted vende o que su cliente compra, ¿cómo es el producto/ servicio comparado con otros tipos similares? es decir, comparando varias m 's, y varias s 's .
Terminología Estadística Común y sus Usos
Como toda profesión, también los estadísticos tienen sus propias palabras claves y frases para facilitar una comunicación precisa. Sin embargo, uno debe interpretar los resultados de cualquier toma de decisión en un lenguaje que sea fácil de entender para a los tomadores de decisiones. Si no, el/ella no creerá en lo que usted recomienda, y por lo tanto no entrara a la fase de implementación. Esta carencia de comunicación entre los estadísticos y gerentes es la barrera principal para usar la estadística. Población: Una población es cualquier colección entera de personas, animales, plantas o cosas de las cuales podríamos recolectar datos. Es el grupo entero que nos interesa, el cual deseamos describir o sobre cuál deseamos establecer conclusiones. En la figura anterior la vida de las bombillas de luz fabricadas, digamos por GE, es la población en cuestión.
Variables Cualitativas y Cuantitativas: Cualquier objeto o acontecimiento, que pueda variar en observaciones sucesivas ya sea en cantidad o cualidad se llama "variable." Las variables se clasifican por consiguiente como cuantitativas o cualitativas. Una variable cualitativa, a diferencia de una variable cuantitativa no varía en magnitud en observaciones sucesivas. Los valores de variables cuantitativas y cualitativas se llaman “valores” y “cualidades o atributos”, respectivamente.
Variable: Una característica o fenómeno, que pueden tomar diversos valores tales como peso o género, ya que los mismos son diferentes entre individuos.
Aleatoriedad: La aleatoriedad significa algo impredecible. El hecho fascinador sobre estadística deductiva es que, aunque cada observación aleatoria podría no ser predecible cuando es tomada sola, colectivamente siguen un patrón confiable llamado función de distribución. Por ejemplo, es un hecho de que la distribución promedio de una muestra sigue una distribución normal para una muestra mayor a 30. Es decir, un valor exagerado de la media de la muestra es más certero que un valor exagerado de algunos pocos valores de datos.
Muestra: Un subconjunto de una población o universo.
Un Experimento: Un experimento es un proceso mediante el cual el no se sabe con certeza cual será el resultado por adelantado.
Experimento Estadístico: Un experimento en general es una operación en la cual una elige los valores de algunas variables y mide los valores de otras variables, como en la física. Un experimento estadístico, en contraste es una operación en la cual uno toma una muestra aleatoria de una población e infiere los valores de algunas variables. Por ejemplo, en una encuesta, “examinamos” es decir, “observamos” la situación sin intentar cambiarla, tal como en una encuesta de opiniones políticas. Una muestra aleatoria de una población relevante proporciona la información sobre las intenciones de votación.
Para hacer cualquier generalización sobre una población, una muestra escogida al azar de la población entera, que se considere representativa de la población, es frecuentemente estudiada. Para cada población, hay muchas muestras posibles. Una muestra estadística da información sobre los parámetros poblacionales correspondiente. Por ejemplo, la media de la muestra para un conjunto de datos daría información sobre la media m correspondiente a toda la población.
Es importante que el investigador defina total y cuidadosamente a la población antes de recolectar la muestra, incluyendo una descripción de los miembros.
Ejemplo: La población para un estudio de la salud infantil podría ser todos los niños nacidos en los Chile durante los años 80. La muestra podría ser todos los bebés nacidos el 7 de mayo en cualquiera de los años.
Un experimento es cualquier proceso o estudio en el cual los resultados obtenidos en la recolección de datos eran anteriormente desconocidos. En estadística, el término se restringe generalmente a las situaciones en las cuales el investigador tiene control sobre algunas de las condiciones bajo las cuales el experimento ocurre.
Ejemplo: Antes de introducir un nuevo tratamiento medico con el uso de una nueva droga para reducir la alta tensión arterial, los fabricantes de la misma realizan un experimento para comparar la eficacia de la nueva droga con la prescrita actualmente. Pacientes recientemente diagnosticados son seleccionados de un grupo para las prácticas generales. La mitad de ellos son elegidos al azar para recibir la nueva droga, el resto recibe la droga actual. De esta manera, el investigador tiene control sobre los pacientes seleccionados y de la manera en la cual el tratamiento es asignado.
Diseño de Experimentos: Es una herramienta para incrementar el índice de adquirir nuevos conocimientos. El conocimiento alternativamente se puede utilizar para ganar ventajas competitivas, para acortar el ciclo de desarrollo de productos, y para producir nuevos productos y procesos que satisfagan y excedan las expectativas de sus clientes.
Datos Primarios y Conjunto de Datos Secundarios: Si los datos son obtenidos de un experimento planificado el cual es relevante y relacionado al objetivo (s) de la investigación estadística, son recolectados directamente por el analista, se llaman datos primarios. Sin embargo, si algunos registros resumidos son dados al analista, se llama conjunto de datos secundarios.
Variable aleatoria:Una variable aleatoria (escogida al azar) es una función (se llama “variable”, pero en realidad es una función) que asigna un valor numérico a cada evento simple. Por ejemplo, en el muestreo para el control de calidad, un artículo podría ser defectuoso o no defectuoso, por lo tanto, se podría asignar X =1, y X =0 para un artículo defectuoso y no defectuoso respectivamente. Se podrían asignar cualquier otros dos valores de números reales distintos; sin embargo, es más fácil trabajar con números enteros no negativos para variables aleatorias. Estas son necesarias porque no se pueden realizar operaciones aritméticas con palabras. Las variables aleatorias nos permiten realizar cálculos estadísticos, tal como promedio varianza. Cualquier variable aleatoria tiene una distribución de probabilidad asociada.
Probabilidad: La probabilidad (es decir, sondeando sobre lo desconocido) es la herramienta usada para anticipar como una distribución de datos debería ser representada bajo un modelo dado. Fenómenos aleatorios no son casuales: exhiben un orden que se desarrolla solamente a largo y que es descrita por una distribución. La descripción matemática de la variación es básica para la estadística. La probabilidad requerida para la inferencia estadística no es principalmente axiomática o combinatoria, sino que se orienta hacia la descripción de las distribuciones de los datos .
Unidad de Muestreo: Una unidad es una persona, un animal, una planta o una cosa que son estudiadas por un investigador; son los objetos básicos sobre los cuales se ejecuta el estudio o el experimento. Por ejemplo, una persona; una muestra de suelo; un pote de semillas; un área de código postal; el área de especialización de un medico.
Parámetro: Un parámetro es un valor desconocido, y por lo tanto tiene que ser estimado. Los parámetros se utilizan para representar una determinada característica de la población. Por ejemplo, la media poblacional m es un parámetro que normalmente se utiliza para indicar el valor promedio medio de una cantidad.
Dentro de una población, un parámetro es un valor fijo que no varía. Cada muestra tomada de la población tiene su propio valor de cualquier estadística que se utilice para estimar este parámetro. Por ejemplo, la media de los datos en una muestra es utilizada para dar información sobre la media de la población total m de la cual esa muestra fue tomada.
Estadístico: Un estadístico es una cantidad calculada de una muestra de datos. Se utiliza para dar información sobre valores desconocidos correspondientes a la población. Por ejemplo, el promedio de los datos en una muestra se utiliza para dar información sobre el promedio total de la población de la cual esa muestra fue tomada. Un estadístico es una función de una muestra aleatoria observable. Por lo tanto es en sí, una variable aleatoria observable. Note que, mientras que un estadístico es una "función" de observaciones, desafortunadamente, es comúnmente llamado una “variable” aleatoria, no una función.
Es posible obtener más de una muestra de la misma población, y el valor del estadístico en general variara entre muestra y muestra. Por ejemplo, el valor promedio de una muestra es un estadístico. Los valores promedios en más de una muestra, obtenidos de la misma población, no serán necesariamente iguales.
Estadísticos se les asignan normalmente letras romanas (por ejemplo
y s), mientras que los valores equivalentes desconocidos de la población (parámetros) se asignan las letras griegas (por ejemplo µ, s).
La palabra estimación significa estimar, esto significa darle un valor a algo. Una estimación estadística es una indicación de valor de una cantidad desconocida basada en datos observados.
Más formalmente, una estimación es el valor particular de un estimador que es obtenido de una muestra particular de datos y que es utilizado para indicar el valor de un parámetro.
Ejemplo: Suponga que el gerente de una tienda deseó saber el valor de m ,el gasto promedio por cliente de su tienda durante el año pasado. Ella podría calcular el gasto promedio de los centenares (o quizás de los miles) de clientes que compraron mercancías en su tienda; es decir, la media poblacional m . En lugar de esto, ella podría utilizar una estimación de la media poblacional m calculando la media de una muestra representativa de clientes. Si se encontrara que el valor fuera $25, estos $25 serían su estimación.
Existen dos amplias subdivisiones de la estadística: Estadística descriptiva y estadística deductiva, tal y como se describirá a continuación.
Estadística Descriptiva: Los datos numéricos estadísticos deben ser presentados de manera clara, consistente, y de manera tal que los tomadores de decisiones puedan obtener rápidamente las características esenciales de los datos e incorporarlos en proceso de.
La principal cantidad descriptiva derivada de datos de la muestra es la media (
), la cual es la media aritmética de los datos de la muestra. Esta sirve como la más confiable medida de valor de un miembro típico de la muestra. Si la muestra contiene algunos valores que son demasiado grandes o demasiado pequeños los cuales pudieran generar un efecto distorsionador en el valor de la media, la muestra es representada con mayor exactitud por la mediana, el cual es el valor donde la mitad de los valores de la muestra se ubican por debajo y la otra mitad por arriba de la misma.
Las cantidades comúnmente usadas para medir la dispersión de los valores con respecto a su media son la varianza s2 y su raíz cuadrada, la desviación estándar s. La varianza es calculada determinando la media, luego restándole dicha media a cada uno de los valores de la muestra (que generan la desviación de las muestras), y después haciendo un promedio de los cuadrados de estas desviaciones. La media y la desviación estándar de la muestra se utiliza como estimadores de las características correspondientes de todo el grupo del cual la muestra fue obtenida. Ellos en general, no describen totalmente la distribución (Fx) de los valores dentro de la muestra o del grupo del relacionado; de hecho, diversas distribuciones pueden tener la misma media y distribución estándar. Sin embargo, ellos si proporcionan una descripción completa de la distribución normal, en la cual las desviaciones positivas y negativas con respecto a la media son igualmente comunes, y pequeñas desviaciones pequeñas son mucho más comunes que las grandes. Para un sistema de valores normalmente distribuido, un gráfico que demuestre la dependencia de la frecuencia de las desviaciones sobre sus magnitudes tiene una curva acampanada. Cerca de 68 por ciento de los valores diferirán con respecto al valor de la media por menos que el valor de la desviación estándar, y casi 100 por ciento diferenciarán por menos de tres veces el valor de la desviación estándar.
Estadística Deductiva (inferencial): La estadística deductiva se refiere al hecho de hacer inferencias sobre las poblaciones basándose en muestras que han sido extraídas de ellas. Es decir, si encontramos una diferencia entre dos muestras, nos gustaría saber si estas son diferencias “reales” (es decir, que están presentes en la población) o quizás una diferencia de "oportunidad" (es decir, que podrían ser el resultado de un error de la muestra aleatoria). Eso es a lo que las pruebas de significancia estadística se refieren. Cualquier conclusión deducida de los datos de la muestra y que se refieran a la población de los cuales fueron obtenidos, deben ser expresados en términos probabilísticos. La probabilidad es el lenguaje y la herramienta que mide la incertidumbre en nuestras conclusiones estadísticas.
La estadística deductiva se podía utilizar para explicar un fenómeno o para comprobar la validez de una proposición. En este caso, la estadística deductiva es llamada análisis exploratorio de datos o análisis confirmativo de datos , respectivamente.
Inferencia Estadística: La inferencia estadística esta referida a ampliar sus conocimientos obtenidos de una muestra escogida al azar de la población entera y aplicarla para población entera. Esto es conocido en matemáticas razonamiento inductivo, es decir, el conocimiento del todo proveniente de un detalle particular. Su uso principal es la prueba de hipótesis en una población dada. La inferencia estadística dirige la selección de los modelos estadísticos apropiados. Los modelos y los datos interactúan recíprocamente en trabajo estadístico. La inferencia con base en los datos puede ser pensada como el proceso de seleccionar un modelo razonable, incluyendo una proposición en lenguaje probabilístico de cuan confiable se puede estar sobre la selección hecha.
Condición De la Distribución Normal: La distribución normal o distribución de Gauss es una distribución simétrica y continua que sigue una curva de forma acampanada. Una de sus características más notable es que la media y la varianza de manera única e independiente determinan la distribución. Se ha observado empíricamente que muchas variables de medición tienen distribuciones aproximadamente normales. Incluso cuando una distribución es no normal, la distribución de la media de muchas observaciones independientes de la misma distribución se convierten arbitrariamente a una distribución similar a la normal, a medida que el número de observaciones crece. Muchas pruebas estadísticas frecuentemente usadas tienen la condición de que los datos provengan de una distribución normal.
Estimación y Prueba de Hipótesis: Las inferencias en estadística son de dos tipos. La primera es la valoración o estimación, la cual implica la determinación, con la posibilidad de error debido al muestreo, de un valor desconocido de alguna característica de la población, tal como la proporción que tiene una cualidad específica o el valor de la media µ en ciertas medidas numéricas. Para expresar la exactitud de las estimaciones sobre las características de la población, se debe calcular también el error estándar de las estimaciones. El segundo tipo de inferencia es el contraste o prueba de hipótesis. Esto implica la definición de una hipótesis como un sistema de valores posibles para la población y una alternativa, para valores diferentes. Existen muchos procedimientos estadísticos para determinar, con relación a una muestra, si las verdaderas características de la población pertenecen al sistema de valores en la hipótesis o en la alternativa.
El concepto de inferencia estadística esta inmerso en el de la probabilidad, son conceptos idealizados del grupo que esta sujeto a estudio, llamados población y muestra. Los estadísticos podrían ver a la población como un grupo de bolas de las cuales la muestra se selecciona al azar, es decir, de una manera tal que cada bola tenga la misma oportunidad de ser seleccionada para la muestra.
Note que para poder estimar los parámetros de la población, el tamaño de la muestra n debe ser mayor que uno (1). Por ejemplo, con un tamaño de muestra uno, la variación (s2) dentro de la muestra es 0/1 = 0. Una estimación para la variación (s2) dentro de la población sería 0/0, que es cantidad indeterminada, lo cual es imposible.
Letras Griegas Comúnmente Usadas como Notaciones Estadísticas
En estadística, al igual que en otras áreas de la ciencia, se utilizas las letras griegas como notaciones científicas. Esto, para hacer honor a nuestros ancestros filósofos Griegos que inventaron la ciencia y el pensamiento científico. Antes de Sócrates, en el siglo VI AC, Tales y Pitágoras entre otros, aplicaron conceptos geométricos a la aritmética, mientras que Sócrates en su época inventó el razonamiento dialéctico. El renacimiento del pensamiento científico (iniciado por los trabajos de Newton) fue valorado y por lo tanto reapareció casi 2000 años más tarde.
Letras Griegas Comúnmente Usadas como Notaciones Estadísticas alpha beta Ki al cuadrado delta mu nu pi rho sigma tau theta a b c 2 d m n p r s t q Nota: Ki al cuadrado (o Chi-cuadrado) c2, no es el cuadrado de algo en particular, su nombre simplemente implica Chi al cuadrado. Ki no tiene ningún significado en estadística.
Me alegra que usted poco a poco este venciendo todas las confusiones que existen cuando se aprende estadística.
Tipo de Datos y Niveles de Medición
En estadística, la información puede ser recolectada usando datos cualitativos o cuantitativos. Los datos cualitativos, tal como el color del ojo de un grupo de individuos, no pueden ser medidos por relaciones aritméticas. Existen ciertas particularidades que orientan en cuales categorías o clases debe ubicarse un individuo, objeto, o proceso. Estas son llamadas variables categóricas.El conjunto de datos cuantitativos que consiste en las medidas que toman valores numéricos, en cuales descripciones tales como la media y la desviación estándar tienen sentido. Pueden ser puestos en un orden y ser subdivididos en dos grupos: datos discretos o datos continuos.
Los datos discretos son datos contables y recolectados por conteo, por ejemplo, el número de los artículos defectuosos producidos durante un día de producción.
Los datos continuos son recolectados por medición y expresados en una escala continua. Por ejemplo, midiendo la altura de una persona.
Entre las primeras actividades del análisis estadístico se encuentran contar o medir: La teoría de Conteo / medición se refiere a la conexión entre los datos y la realidad. Un sistema de datos es una representación (es decir, un modelo) de la realidad basada en escalas numéricas y mensurables. Los datos son llamados de “tipo primario” si el analista ha estado envuelto directamente en la recolección de datos relevantes para su investigación. Si no, son llamados datos de “tipo secundario”.
Los datos vienen en forma Nominal, Ordinal, de Intervalo, and Cociente. Los datos pueden ser continuos o discretos.
Niveles de Medición _________________________________________ Nominal Ordinal Intervalo/Cociente Posición no si si Diferencia Numérica no no si Tanto el punto cero como las unidades de medida son arbitrarios en la escala de Intervalo. Mientras que la unidad de medida es arbitraria en la escala de Cocientes, el punto cero es un atributo natural. La variable categórica es medida en una escala ordinal o nominal.
La teoría de Conteo / medición se refiere a la conexión entre los datos y la realidad. Ambas, la teoría estadística y la teoría de conteo y medición son necesarias hacer inferencias sobre realidad.
Puesto que los estadísticos viven para la precisión, prefieren niveles de Intervalo / Cociente de medición.
Para una buena aplicación en negocios de variables aleatorias discretas, visite Calculadora para la Cadena de Markov , Calculadora para Cadenas Grandes de Markov y Juegos Suma Cero.
¿Por qué el Muestreo Estadístico?
Muestreo es la selección de una parte de un agregado o totalidad conocida como Población, de las cuales se basan las decisiones con respecto a la población.Las siguientes, son ventajas y /o necesidades para el muestreo en la toma de decisiones estadísticas:
- Costos: El costo es uno de los principales argumentos a favor del muestreo, básicamente porque una muestra puede proveer datos de suficiente exactitud y con mucho menor costo que un censo.
- Exactitud: En el muestreo, a diferencia que en un censo, existe un mayor control sobre los errores en la recolección porque una muestra es una agrupación a menor escala.
- Menor tiempo: Otra ventaja de la muestra sobre el censo es que provee resultados e información más rápida. Esto es importante para una toma de decisión sujeta a un tiempo limitado.
- Cantidad de información: Información mas detallada puede ser mejor obtenida una muestra que en de un censo, porque la muestra toma menos tiempo, es menos costosa y nos permite tener mas cuidado en las etapas de procesamiento de los datos.
- Pruebas deductivas: Cuando una prueba envuelve la deducción de un objeto en estudio, el muestreo tiene que ser usado. La determinación del muestreo estadístico puede ser usado para encontrar el tamaño optimo de la muestra a un costo aceptable.
Métodos de Muestreo
Desde la comida que usted come hasta la televisión que usted ve, desde las elecciones políticas hasta el consejo disciplinario del colegio, muchos aspectos de su vida están controlados y regulados por encuestas sobre muestras.Una muestra es un grupo de unidades seleccionadas de un grupo mayor (población). Mediante el estudio de una muestra, se espera que proporcione conclusiones validas sobre el grupo mayor.
La muestra es generalmente seleccionada para ser el objeto de estudio ya que las poblaciones son muy largas para estudiarlas en su totalidad. La muestra debería ser representativa de la población. Esto es normalmente mejor alcanzado mediante el muestreo aleatorio. Adicionalmente, antes de recolectar la muestra, es importante que la población sea definida cuidadosa y completamente, incluyendo una descripción de los miembros que la conformaran.
Un problema común en la toma de decisión estadísticas de negocios se presenta cuando necesitamos la información en referencia a una población, pero encontramos que el costo de obtenerla es exagerado. Por ejemplo, suponga que necesitamos saber el tiempo promedio de vida del inventario actual. Si el inventario es grande, el costo de comprobar los registros de cada uno de los artículos podría cancelar el beneficio de tener la información. Por otra parte, la intuición acerca del posible tiempo promedio de vida del inventario podría no ser suficiente para el propósito de toma de decisiones. Esto significa que debemos abordar la situación que implique el seleccionar un número pequeño de artículos y calcular su average de vida útil dentro del inventario, como una estimación del tiempo promedio de vida del inventario total. Esto es un compromiso, puesto que las medidas para la muestra del inventario producirán solo una estimación del valor que deseamos, pero con ahorros substanciales. Lo que quisiéramos saber es que tan “buena” es la estimación y cuánto mas costara para hacerla “mejor”. La información de este tipo esta directamente relacionada con las técnicas de muestreo. Esta sección proporciona una discusión corta sobre los métodos comunes de muestreo estadístico de negocios.
Muestreo de Grupos se puede utilizar siempre que la población sea homogénea, pero que a su vez puede ser particionada. En muchos casos las particiones son resultados de distancias físicas. Por ejemplo, en la industria de seguros, existen “grupos” pequeños de empleados en oficinas del mismo ramo o especialización, las cuales están dispersadas alrededor de todo el país. En este caso, un muestreo aleatorio de los hábitos de trabajo del empleado no requeriría el viajar a muchos de estos “grupos” o campos de trabajo con el objetivo de recolectar los datos. El muestreo total de cada uno de los contados grupos elegidos podría reducir mucho el costo asociado a los requerimiento de datos por parte de la gerencia.
Muestreo Estratificado puede ser utilizado siempre que la población pueda ser particionada en sub poblaciones más pequeñas, cada uno de las cuales es homogénea según las características particulares de interés. Si existen k sub poblaciones y dejamos que Ni denote el tamaño de la sub población i, N denote el tamaño de la población total, y dejamos que n represente el tamaño de la muestra, y deje n denotar el tamaño de muestra, entonces seleccionamos una muestra estratificada siempre que escogemos:
ni = n(Ni/N) unidades aleatorias de la sub población i, donde i = 1,2, …. ,k. El estimador es:
s = S Wt.
t, sobre 1 , 2, .L (estratificado), y
t es SXit/nt.
Su varianza es:
SW2t /(Nt-nt)S2t/[nt(Nt-1)] La población total T es estimada por N.
s; su varianza es:
SN2t(Nt-nt)S2t/[nt(Nt-1)]. Muestreo Aleatorio es probablemente el método de muestreo más usado en la toma de decisiones de hoy en día. Muchas decisiones, por lo tanto, son escogiendo un número dentro de un sombrero o un grano de un barril, estos dos métodos son intentos para alcanzar una selección aleatoria de un conjunto de elementos. Pero, un verdadero muestreo aleatorio debe ser alcanzado con la ayuda de una computadora o de una tabla de números aleatorios de los cuales sus valores son generados por generadores de números aleatorios.
Un muestreo aleatorio de tamaño n es obtenido de una población de tamaño N. La estimación balanceada para la varianza de
es:
Var( donde n /N la fracción de la muestra con respecto a la población. Para proporción de muestra menor a 10%, el factor de corrección para una población finita es (N-n)/ (N-1), el cual es casi 1.) = S2(1-n/N)/n,
El T total es estimado por N ´
, su varianza es N2Var(
).
Para variables tipo 0, 1 (binarias), variación en la proporción estimada p es:
S2 = p(1-p) ´ (1-n/N)/(n-1). Para el cociente r = Sxi/Syi=
/
, la variación para r es:
[(N-n)(r2S2x + S2y -2 r Cov(x, y)]/[n(N-1) 2].
Determinación del tamaño de la muestra (n) con referencia a datos binarios: Los integradores mas pequeños que sean mas grandes o iguales a:
[t2 N p(1-p)] / [t2 p(1-p) + a2 (N-1)], de donde N es el tamaño total de números de casos, n el tamaño de la muestra, a el error esperado, t el valor obtenido de la distribución t correspondiente a un cierto intervalo de confianza, y p la probabilidad de un evento.
Muestreo de Selección Cruzada: La selección cruzada estudia las observaciones de una población definida un momento o intervalo de tiempo determinado. Muestras y resultados son calculados al mismo tiempo.
¿Qué es un Instrumento Estadístico? Un instrumento estadístico es cualquier proceso que tiene como objetivo describir los fenómenos usando cualquier instrumento o dispositivo. No obstante, los resultados se pueden utilizados como herramientas del control. Ejemplos de instrumentos estadísticos son los cuestionario y muestreos por encuestas.
¿Cuál es la Técnica de Muestreo por Captura? Esta técnica consiste en tomar una muestra relativamente pequeña por un período del tiempo muy corto, donde los resultados son obtenidos generalmente de manera instantánea. Sin embargo, el muestreo pasivo es una técnica donde un instrumento de muestreo se utiliza por un periodo de tiempo mas largo y manteniendo condiciones similares. Dependiendo de la investigación estadística deseable, el muestreo pasivo puede ser una alternativa útil o aún más apropiado que el muestreo por captura. Sin embargo, una técnica de muestreo pasiva necesita ser desarrollada y ser probada en el campo. No obstante, la técnica de muestreo pasivo necesita ser desarrollada y probada directamente en el campo de estudio.
Sumario de Estadísticos
Representativo de una Muestra: Sumario de Medidas de Tendencia Central
¿Cómo describiría el “promedio” o un pedazo de información “típica” de un conjunto de datos? Diversos procedimientos se utilizan para resumir la información más representativa de acuerdo al tipo de pregunta y a la naturaleza de los datos que son resumidos.Las medidas de ubicación dan la información sobre el lugar hacia donde existe la tendencia central dentro de un grupo de números. Las medidas de ubicación presentadas en esta unidad para datos no agrupados son la media, la mediana, y la moda.
Media: La media aritmética (o el promedio, media simple) es calculada sumando todos los números de un conjunto de números (xi) y después dividiéndolos por el número de observaciones (n) del conjunto.
Media = = S Xi /n, la suma incluye todos los i's.
La media utiliza todas las observaciones, y cada observación afecta la media. Aunque la media es sensible a los valores extremos; es decir, los datos extremadamente grandes o pequeños pueden causar que la media se ubique o más cerca de uno de los datos extremos; A pesar de esto, la media sigue siendo la medida lo más usada para medir la localización. Esto se debe a que la media posee valiosas propiedades matemáticas que la hacen conveniente para el uso en el análisis estadístico de inferencia o deductivo. Por ejemplo, la suma de las desviaciones entre los números de un conjunto de datos con respecto a la media es cero, y la suma de las desviaciones elevadas al cuadrado entre los números en un conjunto de datos con respecto a la media es el valor mínimo.
A usted podría gustarle usar Applets de Estadística Descriptiva para calcular la media.
Media Ponderada: en algunos casos, los datos de una muestra o población no deberían ser ponderados de la misma manera, es preferible ponderarlos de acuerdo a su importancia.
Mediana: La mediana es el valor medio de una grupo ordenado de observaciones. Si existe un número par de observaciones correspondientes al grupo, la mediana es el average de los dos números ubicados en el medio del grupo. Si existe un número impar de observaciones correspondientes al grupo, la mediana es el número en el medio del grupo.
La mediana es normalmente utilizada resumir los resultados de una distribución. Si la distribución es oblicua o sesgada, la mediana y el rango inter cuartíl (RIC), serían los mejores indicadores de medida para saber donde los datos observados se encuentran concentrados.
Generalmente, la mediana proporciona una mejor medida mejor de localización que la media cuando hay algunas observaciones extremadamente grandes o pequeñas; es decir, cuando los datos se sesgan a la derecha o a la izquierda. Por esta razón, la mediana de la renta se utiliza como la medida de ubicación para la renta por hogar en los Estados Unidos. Observe que si el valor de la mediana es menor que que el de la media, los datos están sesgados a la derecha. Si el valor de la mediana es mayor que que el de la media, los datos están sesgados a la izquierda. Para una población normal, la mediana de la muestra se distribuye normalmente con media = m = y error estándar de la mediana de (p/2)½ veces con respecto a la media.
La media tiene dos ventajas distintas sobre la mediana. Es más estable, y uno puede calcular la media basada de dos muestras combinando las dos medios de las mismas.
Moda: La moda es el valor lo más con frecuencia posible que ocurre de un sistema de observaciones. ¿Por qué utilizar la moda? El ejemplo clásico es el fabricante de zapatos/ camisas que desea decidir a qué tallas introducir en el mercado. Los datos pueden tener dos modas. En este caso, decimos que los datos son bimodales, y los grupos de observaciones con más de dos modos están referidos como multimodales. Observe que la moda no es una medida útil de ubicación, porque puede haber más de una moda o quizás ninguna.
Cuando la media y la mediana son conocidas, es posible estimar la moda para la distribución unimodal usando los otros dos promedios como se muestra a continuación:
Moda » 3(medianas) - 2(medias) Esta estimación es aplicable a ambos, conjuntos agrupado y no agrupado de datos.Siempre que exista más de una moda, la población de la cual la muestra es obtenida es una mezcla de más de una población. Sin embargo, note que una distribución Uniforme tiene un incontable número de modas que tienen igual valor de densidad; por lo tanto se considera como población homogénea.
Casi todos los análisis estadísticos estándar se condicionan en la asunción de que la población es homogénea.
Note que Excel tiene una capacidad estadística muy limitada. Por ejemplo, exhibe solamente una moda, la primera. Desafortunadamente, esto es muy engañoso. Sin embargo, usted puede descubrir si existen otras modas mediante el método de inspección, como sigue: Cree una distribución de frecuencia, invoque la secuencia del menú: Herramientas, análisis de datos, frecuencia y sigua las instrucciones en la pantalla. Usted verá la distribución de frecuencia y después encontrará la moda visualmente. Desafortunadamente, Excel no proporciona diagramas de árbol. Todos los software disponibles comercialmente, tal como el SAS y SPSS, exhiben diagramas de árbol, el cual es una distribución de frecuencia de un grupo dado de datos.
Seleccionando Entre la Media (Mean), Mediana (Median) y Moda (Mode)
Es un error común el especificar el índice equivocado para la tendencia central.La primera consideración es el tipo de data, si la variable es categórica, la moda es la medida más simple que mejor describe los datos.
La segunda consideración para seleccionar el índice es preguntarse si el total de las observaciones tiene algún interés. Si la respuesta es si, entonces la media es el índice apropiado para la tendencia central.
Si el total no interesa, dependerá entonces si el histograma es simétrico o sesgado, y se deberá utilizar la media o la mediana respectivamente.
En todo los casos, el histograma debe ser unimodal. Sin embrago, note que por ejemplo una distribución uniforme tiene un número incontable de modas con igual valor de densidad, por lo tanto es considerada como una población homogénea.
Adicionalmente note que:
|Media - Mediana| £s Las características principales de estos tres estadísticos son tabuladas a continuación:
| Hechos | Moda | Mediana | Media |
|---|---|---|---|
| 1 | Es el valor mas frecuente en la distribución. Es el punto de mas alto densidad. | Es el valor del punto medio de la selección (no del rango), tal que la mitad de los datos están por arriba y por debajo de ella. | Es el valor en algún agregado, el cual se obtendría si todos los valores fueran iguales. |
| 2 | Su valor es establecido por la frecuencia predominante, no por los valores en la distribución. | El valor de la media es fijado por su posición en la selección, y no refleja valores individuales. | La suma de las desviaciones en cualquier lado de la media son iguales; por lo tanto la suma algebraica de sus desviaciones es cero. |
| 3 | Este es el valor mas probable, por lo tanto el mas común. | La distancia agregada entre la mediana y cualquier otro punto de la muestra es menor que en cualquier otro punto. | Esta refleja la magnitud de cada valor. |
| 4 | Una distribución puede tener mas de 2 modas, pero no existe moda en una distribución rectangular. | Cada selección tiene solo una mediana. | Una muestra tiene solo una media. |
| 5 | No puede ser manipulada algebraicamente. Modas de subgrupos no pueden ser ponderadas o combinadas. | No puede ser manipulada algebraicamente. Medianas de subgrupos no pueden ser ponderadas o combinadas. | Pueden ser manipuladas algebraicamente. Medias de subgrupos pueden ser combinadas cuando son ponderadas apropiadamente. |
| 6 | Es inestable, puede ser influenciada en el proceso de agrupación. | Es estable en cuanto a que procedimientos para agrupar no afecta su apreciación. | Es estable en cuanto a que procedimientos para agrupar no afecta su apreciación. |
| 7 | La moda no refleja el grado de modalidad. | No es aplicable para datos cualitativos. | Podría ser calcula igualmente cuando los valores individuales son desconocidos, si se posee la suma de los valores y el tamaño de la muestra. |
| 8 | Puede ser calculada cuando los extremos de los valores de los grupos son abiertos. | Puede ser calculado cuando los valores extremos son abiertos. | No puede ser calculado de una tabla de frecuencia cuando sus valores extremos son abiertos. |
| 9 | Valores deben ser ordenados para su cálculo. | Valores deben ser ordenados y agrupados para su cálculo. | Los valores no necesitan ser ordenados para su cálculo. |
Para la Estadística Descriptiva, JavaScript proporciona un conjunto completo de información que usted podría necesitar. A usted le podría gustar usarlo para realizar algunas experimentaciones numéricas que validan las aserciones anteriores para un entendimiento mas profundo.
Promedios Especializados: La Media Geométrica y la Media Armónica
La Media Geométrica: La media geométrica (G) de n valores no negativos es la enésima raíz del producto de los n valores.Si algunos valores son muy grandes en magnitud y otros muy pequeños, la media geométrica proporciona una mejor representación de los datos que un simple promedio. In una “serie geométrica”, el average mas significativo es la media geométrica (G). La media aritmética es muy favorecida por valores grandes de la serie.
Una aplicación: Suponga que las ventas de un determinado producto incrementan en 110% en el primer año y en 150% en el segundo. Por simplicidad, asuma que usted inicialmente vendió 100 unidades. Entonces el número de unidades vendidas en el primer año fueron 110 y en el segundo fueron 150% x110= 165. Usando la media aritmética de 110% y 150% que es 130%, estimaríamos incorrectamente las unidades vendidas en el primer año de 130 y las del segundo año de 169. Mediante la media geométrica de 110% y 150% obtendríamos G = (1,65)1/2 la cual es la estimación correcta, por lo cual venderíamos 100 (G)2 = 165 unidades en el segundo año.
La Media Armónica:La media armónica otro average especializado, el cual es útil para calcular promedios de variables expresadas en proporciones de unidades por tiempo, tales como kilómetros por hora, número de unidades de producción por día. La media armónica (G) de n valores no cero x(i) es: H = n/[S (1/x(i)].
Una aplicación: Suponga que cuatro maquinas en un taller son usadas para producir la misma pieza. Pero, cada una de las maquinas se toma 2,5, 2, 1,5 y 6 minutos para realizar dicha pieza. ¿ Cuál es la velocidad promedio de producción?
La media armónica es: H = 4/[(1/2,5) + (1/2,0) + 1/(1,5) + (1/6,0)] = 2,31 minutos.
Si todas las maquinas trabajaran por una hora, ¿cuántas unidades serian producidas? Porque cuatro maquinas trabajando por una hora representan 240 minutos de operación, se obtiene que: 240 / 2,31 = 104 piezas serán producidas.
El Orden Entre las Tres Medias: Si todas las tres medias existen, la media aritmética nunca es menor que las otras dos, además, la media armónica nunca es mayor que las otras.
A usted podría gustarle usar el JavaScript de Las Otras Medias en Javasript para realizar algunos experimentos numéricos que validan las aserciones anteriores para un entendimiento mas profundo.
Histogramas: Analizando la Homogeneidad de la Población
Un histograma es una representación gráfica de una estimación para la densidad (para variables aleatorias continuas) o la función de probabilidad total (para variables aleatorias discretas) de la población.Las características geométricas del histograma nos permiten descubrir información útil sobre los datos, por ejemplo:
- La localización del “centro” de los datos.
- El grado de dispersión.
- La sección a la cual se sesga, es decir, cuando no cae simétricamente en ambos lados del pico.
- El grado de agudeza del pico. Cómo se levanta y baja la pendiente.
La moda es el valor más frecuente que ocurre en un grupo de observaciones. Los datos pueden tener dos modas. En este caso, decimos que los datos son bimodales, y los grupos de observaciones con más de dos modas están referidos como multimodales. Siempre que exista más de una moda, la población de la cual la muestra es obtenida es una mezcla de más de una población. Casi todos los análisis estadísticos estándares se condicionan en la asunción que la población es homogénea, lo que significa que su densidad (para variables aleatorias continuas) o la función total de la probabilidad (para variables aleatorias discretas) es unimodal. Sin embargo, note que, por ejemplo, una Uniforme tiene un número incontable de modas que tienen igual valor de densidad, por lo tanto se considera como población homogénea.
Para comprobar el unimodalidad de los datos de la muestra, se podría utilizar el proceso de creación de histogramas.
número de intervalos de clase en un histograma: Antes de que poder construir nuestra distribución de frecuencia debemos determinar cuántas clases debemos utilizar. Esto es puramente arbitrario, pero demasiadas o pocas clases no proporcionarán una clara visión de la distribución a la que se obtendría con un número de clases cercanas al óptimo. Una relación empírica (es decir, observada), conocida como la regla de Sturge, se puede utilizar como guía útil para determinar el número óptimo de clases (k), el cual es dado por el entero mas pequeño mayor o igual a:
Mínimo de { n 1/2 , 10 Log(n) }, n ³ 30, de donde k es el número de clases, Log es en base a 10, y n es el número total de los valores numéricos que abarcan los datos.
Por lo tanto, la anchura de la clase es:
(Valor mas alto – valor mas bajo) / k El siguiente Javascript genera un histograma basado en esta regla:
Prueba de homogeneidad para una población.Para lograr un “óptimo” se necesitan ciertas medidas de calidad, probablemente en este caso, esta sea la “mejor” manera de exhibir cualquier información disponible de los datos. El tamaño de muestra contribuye a esto; las pautas generalmente deben utilizar entre 5 y 15 clases, con más clases si se tiene una muestra más grande. Usted debe considerar la preferencia por anchuras ordenadas de la clase, preferiblemente un múltiplo de 5 o 10, la cual la haría más fácil de entender.
Más allá de aquí, esto se convierte en una cuestión de juicio. Pruebe varios rangos de anchura de las clases, y elija el que trabaje lo mejor posible. Esto asume que usted tiene una computadora y que puede generar histogramas alternativos fáciles de leer.
A menudo existen también problemas de gerencia que se unen al juego. Por ejemplo, si sus datos van a ser comparados a datos similares, tales como de estudios anteriores, o de otros países, sus parámetros se restringen a los intervalos a usados en estos.
Si el histograma es muy sesgado, clases desiguales deben ser consideradas. Utilice clases estrechas donde las frecuencias de clase sean altas, y anchas donde estas sean bajas.
Los acercamientos siguientes son comunes:
Deje que n sea el tamaño de la muestra, después el número de intervalos de clase podría ser:
Min {n½, 10 Log(n) }. El logaritmo en base 10. De esta forma, para 200 observaciones usted utilizaría 14 intervalos pero para 2000 utilizara 33.
Alternativamente,
- Encuentre el rango (Valor más alto - el valor más bajo).
- Divida el rango por un tamaño razonable de intervalos: 2, 3, 5, 10 o un múltiplo de 10.
- Pruebe intervalos no menores de 5 no mayores de 15.
Uno de los usos principales de los histogramas es para la Prueba la Homogeneidad de una Población. El unimodalidad del histograma es una condición necesaria para la homogeneidad de la población, con el objetivo de hacer cualquier análisis estadístico significativo. Sin embargo, note que una distribución Uniforme tiene incontable cantidad de modas que tienen igual valor de densidad, por lo tanto es considerada como población homogénea.
Cómo Construir un BoxPlot
Un BoxPlot es una exhibición gráfica que tiene muchas características. Incluye la presencia de posibles outliers. Ilustra los rangos de los datos. Muestra una medida de dispersión tal como el cuartíl superior, cuartíl inferior y los rangos intercuartiles (RIC) de un conjunto de datos, así como también a la mediana como medida central ubicación, el cual es útil para comparar grupos de datos. También indica acerca de la simetría o de la oblicuidad de la distribución. La razón principal del renombre de boxplots es porque ofrecen mucha información de una manera compacta.
![]()
Pasos para Construir un Boxplot:
- Líneas horizontales son obtenidas de las observaciones mas pequeñas (A), en el cuartíl mas bajo, y otro para el cuartíl mas alto (D), de observaciones mas largas (E). Las líneas verticales que producen la caja, se unen con las líneas horizontales en los puntos B y D.
- La línea vertical es dibujada en el punto medio (C), como es mostrado en la figura anterior.
Para un entendimiento mas profundo, usted podría utilizar papel para gráficos, y el JavaScript de muestreo de estadística descriptiva para construir boxplots para un conjunto de datos, por ejemplo, de su libro de texto.
Midiendo la Calidad de la Muestra
El promedio por sí mismo no es una buena indicación de la calidad. Usted necesita conocer la varianza para cualquier evaluación educada. Esto nos recuerda el dilema del estadístico que media dos metros de alto y que se ahogó en una corriente que tenía un metro de profundidad.Las mediciones estadísticas son normalmente utilizadas para describir la naturaleza y el grado de diferencias entre la información de la distribución. Una medida de variabilidad es generalmente expresada junto con una medida de tendencia central.
Las mediciones estadísticas de variación son valores numéricos que indican la variabilidad inherente en un grupo de mediciones de datos. Observe que un valor pequeño para la medida de dispersión indica que los datos están concentrados alrededor de la media; por lo tanto, la media es una buena representación de los datos. Por otra parte, una medida grande de dispersión indica que la media no es una buena representación de los datos. Adicionalmente, las medidas de dispersión pueden ser utilizadas cuando deseamos comparar las distribuciones de dos o más conjuntos de datos. La calidad de un conjunto de datos es medida por su variabilidad: variabilidad grande indica baja calidad. Esta es la razón del porque gerentes se preocupan cuando encuentran grandes variaciones. Su trabajo, como estadístico, es medir la variación , y si es demasiado alto e inaceptable, entonces es trabajo del personal técnico, tal como ingenieros, en ajustar el proceso.
Situaciones de decisión con la carencia absoluta de conocimiento, conocida como incertidumbre plena, tienen el riesgo más grande. Para simplificar, considere el caso cuando hay solamente dos resultados, uno con la probabilidad de p. Entonces, la variación en los resultados es p(1-p). Esta variación es la más grande si fijamos p = 50%. Es decir, igual oportunidad para cada resultado. En este caso, la calidad de la información está en su nivel más bajo.
Recuerde, calidad en la información y variación están relacionadas inversamente. Cuanto más grande es la variación en los datos, más baja es la calidad de los datos (información): el Diablo está en las Desviaciones.
Las cuatro medidas de variación más comunes son: el rango, varianza, desviación estándar, y el coeficiente de variación.
Rango: El rango de un grupo de observaciones es el valor absoluto de la diferencia entre el valor más grande y más pequeño del conjunto de datos. Mide el tamaño del intervalo inmediato de números reales más pequeño que abarcan todos los valores de los datos. No es útil cuando existen valores extremos. Se basa solamente en dos valores, no en la totalidad de los datos. Adicionalmente, no puede ser definido en distribuciones de extremos abiertos tales como la distribución normal.
Note que, al trabajar con observaciones aleatorias discretas, algunos autores definen el rango como:
Rango = Valor más grande - valor más pequeño + 1.Una distribución normal no tiene rango. Un estudiante dijo, “porque las colas de una función de densidad normal nunca toca el eje de las x, y porque para que una observación contribuya a la creación de dicha curva, muchos valores negativos y positivos deben existir”, pero estos valores remotos siempre tienen la posibilidad de existir, pero cada vez son más improbable. Esto encapsula muy bien el comportamiento asintótico de la densidad normal. Por lo tanto, a pesar de este comportamiento, es útil y aplicable a una amplia gama de las situaciones de toma de decisión.
Cuartiles: Cuando requerimos los datos, por ejemplo en orden ascendente, podemos dividir los datos en cuartos, Q1... Q4, conocidos como cuartiles. El primer cuartíl (Q1) es el valor donde están 25% de los valores mas pequeños y en el otro 75% los más grandes. El segundo cuartíl (Q2) es el valor donde están 50% de los valores mas pequeños y en el otro 50% los más grandes. En el tercer cuartíl (Q3) es el valor donde están 75% de los valores mas pequeños y en el otro 25% los más grandes.
Porcentajes: Los porcentajes tienen un concepto similar y por lo tanto, están relacionados; por ejemplo, el 25 porciento corresponde al primer cuartíl Q1, etc. La ventaja de los porcentajes es que pueden ser subdivididos en 100 porciones. Los porcentajes y los cuartiles son más convenientes de leer cuando son tomados de una función de distribución acumulativa.
Rango entre: El rango intercuartíl (RIC) describe el grado de dispersión o acumulación del 50% de las observaciones ubicadas en el medio de la distribución. Es la distancia entre el primero y tercer cuartíl:
RIC = Q3 - Q1, el cual es dos veces la Desviación Cuartíl. Para datos que están sesgados, la dispersión relativa, similar to the coefficient of variation (C.V.) similar al coeficiente de variación (CV) es dada (provisto de numerador no-cero) por el Coeficiente de Variación Cuartíl:
CVC = (Q3-Q1) / (Q3 + Q1). Note que casi todos los estadísticos que hemos cubierto hasta ahora pueden ser obtenidos y entendidos con mayor profundidad por métodos gráficos usando la Función de Distribución Empírica (observada) Acumulativa (FDEA) en Javascript. Sin embargo, el JavaScript numérico de Estadística Descriptiva proporciona un conjunto completo de información de todos los estadísticos que usted podría necesitar.
La Dualidad entre la FDEA y el Histograma: Note que la función de distribución empírica(observada) acumulativa (FDEA) indicada por la su altura en un punto particular de la curva, es numéricamente igual al área en el histograma correspondiente al lado izquierdo de ese punto. Por lo tanto, cualquiera o ambos se podían utilizar dependiendo de los usos previstos.
Media de desviación absoluta (MDA): Una simple medida de variabilidad es la media de desviación absoluta:
MDA = S |(xi - )| / n.
La media de desviación absoluta es ampliamente utilizada como medida de funcionamiento para determinar la calidad del modelo, tales como las técnicas de predicción. Sin embargo, el MDA no se presta para el cálculo de inferencias; por otra parte, igualmente en los estudios de análisis de error, la varianza es preferida, porque las varianzas de errores independientes (o sin correlación) son aditivas; Sin embargo, la MDA no tiene tan elegantes presentaciones.
La MDA es una simple medida de variabilidad, que a diferencia del rango y de la desviación cuartíl, toma en cuenta cada objeto de la muestra, y es más simple y menos afectada por desviaciones extremas. Por lo tanto se utiliza a menudo en las muestras pequeñas que incluyen valores extremos.
La media de desviación absoluta teóricamente debe ser medida con respecto a la mediana porque esta representa su mínimo; sin embargo, es más conveniente medir las desviaciones con respecto a la media.
Como ejemplo numérico, considere el precio (en $) del mismo artículo en 5 diversos almacenes: $4,75, $5,00, $4,65, $6,10, y $6,30. La media de la desviación absoluta con respecto a la media es $0,67, mientras que con respecto a la mediana es $0,60, el cual es una mejor representación de la desviación entre los precios.
Varianza: Es una importante medida de variabilidad. La varianza es el promedio de las desviaciones estándar elevadas al cuadrado de cada una de las observaciones con respecto a la media.
Varianza = S (xi - ) 2 / (n - 1), de donde n por lo menos 2.
La varianza es una medida de dispersión entre valores de los datos. Por lo tanto, mientras más grande sea la varianza, menor será la calidad de los datos.
La varianza no es expresada en las mismas unidades que las observaciones. Es decir, la varianza es difícil de entender porque las desviaciones con respecto a la media están elevadas al cuadrado, haciéndola demasiado grande para explicaciones lógicas. Este problema puede ser solucionado trabajando con la raíz cuadrada de la varianza, lo cual se conoce como la desviación estándar.
Desviación Estándar: Ambas, la varianza y la desviación estándar proporcionan la misma información; una siempre puede ser obtenida de la otra. Es decir, el proceso de cálculo de la desviación estándar siempre implica el cálculo de la varianza. Puesto que la desviación estándar es la raíz cuadrada de la varianza, esta siempre es expresada en las mismas unidades que el conjunto de datos:
Desviación estándar= S = (Varianza) ½ Para conjunto de datos grandes (digamos más de 30), aproximadamente el 68% de los datos están contenidos dentro de una desviación estándar con respecto a la media, 95% de los datos caen dentro de dos desviaciones estándar. 97,7% (o casi 100%) de los datos se encuentran dentro de tres desviaciones estándar (S) con respecto a la media.
Usted puede utilizar el JavaScript de Estadística Descriptiva para calcular la media, y la desviación estándar.
La Media de los Errores al Cuadrado (MEC) de una estimación es la varianza de la estimación más el cuadrado de su desviaciones; por lo tanto, si una estimación es imparcial, entonces su MEC es igual a su varianza, como es el caso de la tabla de ANOVA.
Coeficiente de Variación: El coeficiente de variación (CV) es la desviación relativa absoluta con respecto al tamaño
, siempre que
sea cero, expresado en porcentaje:
CV =100 |S/ | %
El CV es independiente de las unidades de medida. En la estimación de un parámetro, cuando su CV es menos del 10%, la estimación se asume aceptable. En el caso contrario, digamos, 1/CV se llama el Cociente de señal de ruido.
El coeficiente de variación se utiliza para representar la relación de la desviación estándar hacia la media, diciendo cuan representativa es la media de los números de los cuales fue calculada. Esta expresa la desviación estándar como porcentaje de la media; es decir, refleja la variación de una distribución con respecto a la media. Sin embargo, los intervalos de la confianza para el coeficiente de variación generalmente no son expresados. Una de las razones es que el cálculo exacto del intervalo de confianza para el coeficiente de variación es tedioso de obtener.
Observe que, para un conjunto de datos agrupados o sesgados, el coeficiente de variación cuartíl es:
VQ = 100(Q3 - Q1)/(Q3 + Q1)% es mas útil que el CV.
Usted puede utilizar el JavaScript de Estadística Descriptiva para calcular la media, la desviación estándar y el coeficiente de variación.
Cociente de Variación para Datos Cualitativos: Puesto que la moda es la medida mas usada para la tendencia central de variables cualitativas, la variabilidad es medida con respecto a la moda. El estadístico que describe la variabilidad de datos cuantitativos es el cociente de variación (VR):
VR = 1 - fm/n, de donde fm es la frecuencia de la moda, y n es el número total de cálculos en la distribución.
Score Z: cuántas desviaciones estándar en un punto dado (es decir, observación) están por debajo a arriba de la media. Es decir, valor Z representa el número de las desviaciones estándar que una observación (x) está arriba o debajo de la media. Cuanto más grande sea el valor de Z, más lejos estará el valor de la media. Observe que valores más allá de tres desviaciones estándar son bastante raros. Si un score Z es negativo, la observación (x) está debajo de la media. Si el score Z es positivo, la observación (x) está por arriba de la media. El score Z se obtiene por:
Z = (x - ) / Desviación Estándar de X
El score Z es una medida del número de desviaciones estándar en la que una observación está por arriba o por debajo de la media. Puesto que la desviación estándar nunca es negativa, un valor Z positiva indica que la observación está por arriba de la media, una score Z negativa indica que la observación está por debajo de la media. Note que Z es un valor sin dimensiones, y por lo tanto es una medida útil para comparar valores de datos de dos poblaciones distintas, incluso cuando sean medidas por unidades distintas.
Tra