jueves, 10 de octubre de 2013

I Jornada de usuarios R en Galicia

Sesion Matinal
Parte I
Caracteristicas de R:
-Aunque se le llama por abreviar  "R" no se debe confundir con el Operador de cable.
-Software libre,para ayudar a la computacion estadistica.
-Sin limite de datos,depende del hardware que se tenga,se puede trabajar por bloques (en paquetes FF)
-Mucha demanda de R en el mundo empresarial,en convenios es lo que se usa.
*Uso de R en epidemiologia:
-Estudiar las enfermedades para tomar las medidas mas adecuadas.
-Mirar los datos cuando se empieza una enfermedad,cuando ya esta la enfermedad y cuando la enfermedad esta siendo curada.
R+excel=>Rexcel.Comandos en celdas y darle a correr.Combinable con Visualbasic
Los datos estan en una ventana,cuando se le da al boton sale otra de calculos,de dos tipos
para los primeros datos y los de los ultimos datos.

*Uso en oficina estadistica publica
El Instituto gallego de estadistica es un  organismo autonomo dependiente de la xunta con unas relaciones:
-Xunta
-Eurostat(csv) mezclado mucho,no muy claro hay que hacer limpieza.
-R:Lectura de datos ,manipulacion y difusion
-Instituto nacional de estadistica
-Como si fuera una fabrica todo lo que llega a la oficina de estas relaciones pasa a la sociedad.
-Se usan bases de datos tipo Access,SQL
-Los datos de la propia web se pueden descargar directamente Read.csv
-Hay que organizar los datos del Eurostat por variables:
=>Merge (con todos los datos)
=>Agregate (agregar datos)
=>Expand.Grid (tabla final con todas las variables,grabando tablas nuevas en formato de lista)

*Uso en investigacion medica
-Apoyo metodologico,soporte de realizacion y analisis de proyectos de investigacion en el ambito de la salud y la biomedica.
Investigacion:
-De pequeños proyectos propios a grandes proyectos internacionales
-Publicacion en revistas de impacto.
Formacion: Cursos con interfaces graficas con Windows(Biostat Floss,sin instalacion) y Epilinux
Consultoria:Protocolos,asesoramiento metodologico,estadistico y de formacion.
-Calculadora:metaanalisis,monogramas,datos censurados,haplogrupos,incidencias,variables sociodemograficas,aditivos,pronosticos.

*Uso de R en biodiversidad marina
-Se ha subestimado la biodiversidad,sin embargo el analisis y la clasificacion taxonomica es muy complicada,porque las especies pueden ser cercanas pero muy diferentes,con mucha variabilidad.
-APPs y CTDs en hidrologia,oceanografia y climatologia solo hay un paquete que lo posea R
-Ordenacion
-Indices de diversidad como Shannon o Hill
-Modelos ecologicos
              -Lugar:rarefaccion
              -Rango:abundancia
Ej de CTDs-->Perfiles de conductividad

*Uso de R en ambito universitario multidisciplinar:
-Biomedicina y estadistica gestionadas por computacion.
-Se abarcan diferentes campos para la investigacion biomedica
Para conseguir conocimiento:
-Gams
-Roc
-Analisis de supervivencia
->Desenvolvimiento de software libre con Epidat y Epilinux.
->Dessenvolvimiento de paquetes R
->Transferencia de conocimiento R
->Consultoria estadistica
 *Grid se relaciona con:
-Bios Tatnet:8 nodos con 190 miembros en España
-Biostatech:Spin-Off academia de la USC
-R:Aprender,mejorar,compartir
*R tiene varios repositorios oficiales para publicar paquetes:
-Cran:es especifico (5000-6000 paquetes).Existe revision del codigo de nuesto paquete entre Cran y los usuarios en Feedback.Mejorado el proceso de rigor estadistico.
-Los paquetes no pueden estar limitados si vienen de otros lenguajes

Parte II
*Control estadistico de la calidad con R:
Herramientas:
-Qualityplus
-Six Sigma:Ayuda a coseguir ahorros economicos con herramientas y metodos estadisticos,mejorando la satisfacion de clientes en un tiempo muy corto
-Libreria QCR incluye a los otros paquetes,con CPM se observa descentralidad de graficas gaussianas.
Ciclo DMAIC:
-1*Definir:Reunir partes,juntar conocimientos,para un objetivo comun,segun el funcionamiento de cada una de las partes.
-2*Medir:Con calibradores de forma normal,o con un metodo aplicado con calibrador R&R
-3*Analizar:Cual es la calidad del proceso (Cantidad de rango de tolerancia)
-4*Implementar:Mejorar en los procesos, la calidad de los paquetes.Por ejemplo: mejorar la calidad los graficos
-5*Controlar:Graficos de control.

*R+Interactividad+Web+Shiny Server:
-Motivacion,analizar y representar datos
-R funciona como aplicacion de escritorio,pero se pretende llevar al navegador.
Shiny:
-Creado por Rstudio,que le da alojamiento gratuito Beta
-Interfaz (R)
-Servidor:funciones a realizar en el mismo en tiempo real
-Programacion reactiva con websockets como Amazon machine,Rstudio Shiny-Server (mejor que tenerlo solo en local)
-En programas como Shiny que es un Frameworld,lo mejor es usar tap panels(pestañas) o trabajar con frames,no es sencillo trabajar con multiples ventanas.Su workspace no es compartible.

*Libreria FDA.USC:
Es basica,forma parte de la libreria general.Se van creando paquetes,procurandose actualizaciones con opciones de viñetas de como usar el codigo para definiciones
S3-->Grupos y otras operaciones fdata:
-->Datos
-->Argumentos
-->Nombres
*Conversiones complicadas desde el formato Fdata a Fd,se pueden visualizar mejor Por Base o por Kernel
*Metodos de validacion
*Profundidad de datos,los menos profundos pueden ser atipicos.
*FRM:8-9 metodos de regresion,unos parametricos y otros no parametricos
-Modelos Kernel,metrico o type.S
-Se ha de llegar a crear las clasificaciones,supervisadas y funcionales.

                                                              SESION de Tarde
*Mesa redonda
 Es gratis pero da dinero:
*Redhat Enterprise era gratis con Linux,pero empieza a cobrar por cosas,asi se dividio en dos:
-La propia Redhat Enterprise (gratis y abierta)
-Fedora.
*En R se pueden crear servicios por donde cobrar aunque el programa es gratis:
-Desarrollar software (que podra ser gratis o no)
-Formar
-Asesorar
-Muchas oportunidades de negocio en el mundo empresarial con R,de hecho es lo que se usa en convenios
Algunos casos:
-Sensores para aviones
-Empresas de animacion
-Fiabilidad de buques.
*Debe haber mas contacto del trabajador con la empresa para que haya beneficio por ambas partes.
*Es mas importante mejorar en conocimiento en una empresa, que gastar por gasto inutil
-Madlab es un sistema usado por Google pero R se puede integrar en cualquier sistema.
-La probabilidad de ir a un contenido es un problema de Bitdata y hay que depurar los datos segun de donde vengan.
-Bioconductor (genomica) posee una gran cantidad de datos.
-Existe una subexplotacion de datos en ciencias experimentales.
-Existen problemas de personas a acceder a datos y en casos como los meterologicos aun se accede a sitios americanos de datos,aunque la situacion va mejorando y empiezan a publicarse mas"Opendata" que si ven la luz  (como los poblacionales),asi la Xunta tiene: 
-"Abertos.Xunta",
-Jason (Datos agregados en csv)
-Encuestas anonimizadas.
*Si no hay informacion comprometida lo mejor es usar los 4 GB de memoria de Rstudio
*Si hay datos sensibles lo mejor es buscar alternativas.


*Taller
Paquete-->Cargar y descargar de forma sencilla
Ingredientes para crear un proyecto:
Idea:tecnica novedosa
Codigo y datos:coleccion de codigo y datos que se quieren empaquetar
Heramientas:Instalado en el path y opcionalmente un compilador Tex.
Windows Rtools (compiladores Fortran y C)
-Propiedades de sistema pulsar en variables de entorno crear dos versiones carpetas bin bin\i386 bin\x64
-Ir a R Share tex,en Setting and mid,colocar la ruta de Mitex
Mitex-->C:\program files\r\r-3.0.2\share\texmf
Consejos:
-Carga en memoria las funciones y conjunto del paquete
-Borra cualquier cosa que no quieras
-Mover al directorio donde quieres crear el paquete
-Usa la funcionalidad package.skeleton -->Crea todo.Paquete 1 directorio por cada funcion.

*Elegiremos version S3 o S4 segun la simplicidad que deseemos para crear el proyecto R
*Puedo acceder a otro paquete con una funcion si : : : (3 veces los dos puntos)
*Quitar # para que la linea funcione
*Comprobar workspace
*Rellenar todos los ficheros:Name,List,Environament force,Name space,code files.
-->Estructura de directorio:
Man/:subdirectorio con RDs
R/:subdirectorio codigo R
DATA/:subdirectorio datos
SRC/*:subdirectorio codigo C
INST/*:se copia diectamente al instalar
EXEC/*:ejecutables o Java
TESTS/*:Pruebas
DEMO/*:Betas
Description:fichero que debe ser editado con datos    *Obligatorios
-Mantainer:email al que se manda aviso cuando algo falla
-Depends:que paquetes necesita obligatoriamente el proyecto para funcionar.Viterre-->Funcionan viñetas
-Bugsreport:Avisar de que el proyecto tiene fallos
Ficheros de ayuda:se han de completar segun codigo ASCIIatos
*Atentos a los ejemplos (ya que es lo que se mira en cram para aceptar el proyecto)ver que todos funcionan.
*RD valido para todos los formatos de datos
Rstudio como entorno integrado
-Ir a proyecto,directorio-->creado.Pinchar y puedo ir viendo y editando,guardar
-Ejemplo y titulo para tudas las funciones
-Build-->Construir paquete y chequearlo
-Install-->Instalar en nuestro ordenador
-Depurar codigo:Tiempo de ejecucion,memoria
-Viñetas-->Codigo y terminar con @-->Resultado.Viterre mas personalizado
K CMD BUILD "nombre de paquete"-->Tar world (Tar.gz)
R CMD Check --as-cran (para comprobar en nuestro ordenador si el proyecto funcionara en cran o no,si se aprobaria o no)
*Hacerlo todo con buenas practicas
*Para que el paquete sea admitido el proyecto no debe superar los 100 seg en total en ordenador Cran
*Para arreglar el problema "Inconsolate" se ha de instalar la ultima version.
*Viñete Builder en  Description,funciona poniendo Depende o Suggest (tambien funcionaria) Viterre