Friday, August 15, 2008

Apoinformatica

El sitio del apolab para cuestiones de bioinformatica basica,

9 comments:

AA2 said...

Para comenzar a trabajar

Los usuarios de mac pueden accesar por medio de un programa llamado terminal, localizado en la carpeta de utilidades dentro de aplicaciones

para los usuarios PC, podemos accesar por medio de un programa llamado putty

http://www.chiark.greenend.org.uk/~sgtatham/putty/download.html

debemos bajar los siguientes software de comunicacion e instalarlos.

PuTTY

PSFTP

Cualquier situacion, estoy a sus ordenes.

AA2 said...

una practica para hacer sus carpetas en apolab@XX.X.X.XXX

el primer ejercicio sera ingresar a bioinfo, asi se llama la maquina que esta en el area de bioinformatica.
la gente que tiene mac, solo tiene que utilizar la termina, (doble click en la terminal y listo!)
la terminal presentara el siguiente signo

$

esto indica que podemos ejecutar comandos, el primero sera el de ssh

$ ssh apolab@XX.X.X.XXX

con el ssh nos vamos a conectar a distancia con la direccion al dar un enter
nos va a pedir el password, al escribirlo no se va a mostrar en la pantalla, solamente va a aparecer


apolab@bioinfo4:~$


si no aparece lo anterior, en su lugar nos va a pedir que is damos de alta la direccion XX.X.X.XXX
nosotros escribimos yes y damos un enter

cuando nos encontremos en apolab@bioinfo4:~$ la primera tarea sera hacer una carpeta con su nombre
recomiendo el uso de minusculas y sin dejar espacios, por ejemplo

apolab@bioinfo4:~$ mkdir calvarez

mkdir es el comando para generar una carpeta, calvarez es el nombre de la carpeta,obviamente ustedes pueden poner cualquier otro
pueden utilizar los siguientes nombres

Calvarez

CALVAREZ

c_alvarez

por favor no utilicen caracteres como >, <, /, #, @, %, etc, pues estos tambien son utilizados por otros comandos

tambien no dejen espacios, si quieren utilizar espacios, utilicen la linea _ como se muestra en ele ejemplo.

cesar_alvarez

al dar enter, la carpeta calvarez se producira, para ver los archivos presentes en la carpeta apolab, solo hay que escribir el siguiente comando

$ ls

ls nos va a enlistar todo lo que este en la carpeta apolab, aparecera quiza de esta manera

apolab@bioinfo4:~$ ls

calvarez Examples stdin.phr stdin.pin stdin.psq stdin.ptm

apolab@bioinfo4:~$

para ingresar a la carpeta calvarez, solo hay que escribir el comando cd calvarez y dar un enter


apolab@bioinfo4:~$ cd calvarez/
apolab@bioinfo4:~/calvarez$

cd significa change directory, de esta manera estamos dentro de calvarez, para movernos nuevamente a
la carpeta superior (donde estabamos anteriormente) utilizamos nuevamente el comando cd

apolab@bioinfo4:~/calvarez$ cd ..
apolab@bioinfo4:~$

cd .. significa que subimos a una carpeta superior, a la apolab.

para salir del programa solo hay que escribir el comando exit

apolab@bioinfo4:~$ exit

y listo!!!

para PC es algo similar, utilizamos putty, se ejecuta un programa, y se abre una ventana, donde escribimos la dir de la maquina

y damos enter, aparecera una pantalla similar a la terminal, solicitara el password


esto seria un poco de practica, espero pronto podemos subir nuestros documentos (subir los documentos se refiere a la transferencia de un documento a otra maquina!)
y empezar a modificarlos para posteriormente traerlos de vuelta (o bajarlos!) y analizarlos en nuestras maquinas!!

AA2 said...

Hola a todos,
espero que la mayoria ya tengamos nuestras carpetas en la maquina que corresponde a apolab

ahora vamos a "subir" un archivo de prueba a la maquina de apolab, para ellos utilizaremos un protocolo diferente, anteriormente ustedes usaron la terminal con el comando ssh, ahora utilizaremos sftp, que mas a o menos significa file trasfer protocol, para invocarlo, en mac solo hay que escribir dentro de la terminal el comando

$ sftp.

en pc yo utilizo un programita, que seguro ya bajaron, y es el psftp (de Putty)


para practicar vamoa a crear un archivo de prueba, aconsejo para el caso de mac, que lo hagamos con el comando cat, este comando nos permite crear archivos y concatenar archivos existentes, en este caso vamos a hacer uno

$ cat > archivo_de_prueba.txt

la expresion anterior significa que utilizando el comando cat vamos a volcar la informacion en un archivo ( >) llamado archivo de prueba.txt, la extension carece de funcionalidad, el archivo pueden llamarlo como quieran, file_test arc_pru.prueba, etc...yo sugiero colocar la extension para conocer el contenido del archivo
al dar enter, podemos utilizar al terminal como si fuera un editor de texto sencillo, generlamente podemos pegar texto en ese archivo, o escribir cualquier cosa, por ejemplo, pongamos todo lo anterior dentro del archivo, ya sea copiandolo, pegandolo, o si prefieren, escriban cualquier cosa.

$ cat > archivo_de_prueba.txt
texto de prueba


al terminar de escribir, solo hay que presionar Ctrl + c y el comando cat guardara automaticamente el archivo_de_prueba.txt

para la gente de pc, puede generar un archivo con el wordpad,

ahora, nos conectamos a la maquina de apolab utilizando sftp

$sftp apolab@XX.X.X.XXX
y al pedirnos el password, le damos la que sabemos

entonces la terminal presentara algo mo lo siguiente

sftp >

nos movemos hasta nuestras respectivas carpetas

sftp> cd calvarez

sftp>

podemos enlistar el contenido igual quer con ssh, utilizando el comando ls

sftp> ls

esto enlistara el contenido de la carpeta, ahora, para subir un archivo lo podemos hacer escribiendo

sftp> put archivo_de_prueba.txt

y con el enter, nos mostrara en la pantalla el porcentage de avances de la transferencia, y como ya lo notaron, para bajar un archivo utilizamos lo siguiente

sftp> get

solo escribimos el archivo que necesitamos

bueno, este seria el conocimiento inicial para empezar a practicar el blast, espero que pronto tengamos secuencias para practicar, las subamos a la maquina apolab, realicemos un blast, y bajemos el resultado, ese sera el primer ejercicio

si alguien tiene alguna duda o comentario, estos a sus ordenes

AA2 said...

Hola
Esta sesion nos preparara el material para poder realizar un balst local, para ello necesitamos de dos cosas
1.- las secuencias que nos interesa estudiar
2.- la base de datos que utilizaremos

1.- el primer punto es sencillos, pues puede ser una o varias secuencias en un solo archivo, el formato que se utiliza comunmente es el fasta, esto quiere decir que la secuencia debe de estar en el siguiente formato
> nombre_de_la_secuencia_o_gi
TACTCGTGCTGACGTGCTGACGTCGATGCTCGACGCTGCGTAGAC
GCTCGCTGAGATCTCGACGCTCGACGCTCGTA


o puede ser un formato multifasta

> nombre_de_la_secuencia_1_o_gi
TACTCGTGCTGACGTGCTGACGTCGATGCTCGACGCTGCGTAGAC
GCTCGCTGAGATCTCGACGCTCGACGCTCGTA

> nombre_de_la_secuencia_2_o_gi
TACTCGTGCTGACGTGCTGACGTCGATGCTCGACGCTGCGTAGAC
GCTCGCTGAGATCTCGACGCTCGACGCTCGTACATCGCTACACAC
TCGCT

como practica pueden hacer un archivo multifasta de un grupo de genes, el que ustedes quieran , o si tienen un gen de interes, pueden utilizarlo para practicar.

El punto 2, la base de datos, tambien es sencillo, es una base local, quiere decir que la base estara en la compu donde estan trabajando, puede ser de un solo organismo, o de un conjunto de ellos. La base de datos se basa en la secuencia en formato fasta que ha sido formateada, aprovechare para bajar una secuencia y formatearla

por ejemplo, varios de los sitios que utilizamos, como el tair, y obviamente el gene bank, contienen las secuencias necesarias para hacer una base de datos de Arabidopsis, comencemos por bajar las secuencias de cdna de la ultima version del genoma de Arabidopsis.
En tair, encontramos un menu que dice download, ahi encontramos un submenu que dice gene, entramos ahi.
la direccion debera ser algo como esto

ftp://ftp.arabidopsis.org/home/tair/Genes/

y apareceran un grupo de carpetas, entramos a la de TAIR8_genome_release, muchos de estos sitios no sabemos que es lo que contienen las carpetas, para esto podemos leer el archivo README.txt, que nos dice una descripcion general de cada carpeta o archivo, entramos entonces a TAIR8_sequences (ftp://ftp.arabidopsis.org/home/tair/Genes/TAIR8_genome_release/TAIR8_sequences), y apareceran una serie de archivos, algunos son sencillos de entender, el nombre nos indica si son utr, intrones, cdna, cds, etc..., aqui lo que vamos a hacer es copiar el link del archivo titulado TAIR8_cdna_20080412 (ftp://ftp.arabidopsis.org/home/tair/Genes/TAIR8_genome_release/TAIR8_sequences/TAIR8_cdna_20080412) y en la terminal escribimos lo siguiente

apolab@bioinfo4:~/calvarez$ wget ftp://ftp.arabidopsis.org/home/tair/Genes/TAIR8_genome_release/TAIR8_sequences/TAIR8_cdna_20080412

el comando wget bajara el archivo localizado en la direccion que nosotros copiamos, damos enter, entonces comienza a descargar el archivo de las secuencias, les recuerdo que la naturaleza de este archivo es un documento multifasta de las secuencias cdna del genoma de arabidopsis.

cuendo termine de bajarse todo el archivo, podemo observarlo con el comando more, (si gustan)
pasemos a formatear el archivo para el blast, para eso utilizamos un comando llamdo formatdb, para saber como funciona el comando, podemos solicitar que nos muestre el contendio de ayuda, solo escribimos --help al final del mismo. (generalmente si tenemos dudas de el funcionamiento o para que sirve un comando, podemos utilizar --help o --man, que se refiere al manual del usuario)

apolab@bioinfo4:~/calvarez$ formatdb --help

formatdb 2.2.17 arguments:

-t Title for database file [String] Optional
-i Input file(s) for formatting [File In] Optional
-l Logfile name: [File Out] Optional
default = formatdb.log
-p Type of file
T - protein
F - nucleotide [T/F] Optional
default = T
-o Parse options
T - True: Parse SeqId and create indexes.
F - False: Do not parse SeqId. Do not create indexes.
[T/F] Optional
default = F
-a Input file is database in ASN.1 format (otherwise FASTA is expected)
T - True,
F - False.
[T/F] Optional
default = F
-b ASN.1 database in binary mode
T - binary,
F - text mode.
[T/F] Optional
default = F
-e Input is a Seq-entry [T/F] Optional
default = F
-n Base name for BLAST files [String] Optional
-v Database volume size in millions of letters [Integer] Optional
default = 4000
-s Create indexes limited only to accessions - sparse [T/F] Optional
default = F
-V Verbose: check for non-unique string ids in the database [T/F] Optional
default = F
-L Create an alias file with this name
use the gifile arg (below) if set to calculate db size
use the BLAST db specified with -i (above) [File Out] Optional
-F Gifile (file containing list of gi's) [File In] Optional
-B Binary Gifile produced from the Gifile specified above [File Out] Optional
-T Taxid file to set the taxonomy ids in ASN.1 deflines [File In] Optional

por lo tanto escogemos aquellos parametros que nos interesan para realizar el formato de la base de datos,

apolab@bioinfo4:~/calvarez$ formatdb -i TAIR8_cdna_20080412 -p F

esto quiere decir que -i es el archivo (input) para el formato, y -p (protein) es F (false) ya que se trata de una secuencia de ADN

Bueno, esto seria una parte de la practica, espero que pronto ya tengan la secuencia fasta para analizar y su base de datos
la proxima vez realizaremos un blast

AA2 said...

Hola a todos, espero que estemos preparados para realizar un blast, como recordatorio le comentaba que para hacerlo necesitabamos de una base de datos en este caso el cDNA de la ultima veriosn de Arabidopsis, formateada previamente con el comando formatdb, y un archivo con una o varias secuencias en formato fasta, ahora realicemos un BLAST...(por favor nunca digan blastear...)

primero, hay que conectarnos a la maquina en linea, en este caso apolab, ya saben como hacerlo

una vez en la maquina apolab, hay que dirigirnos a nusetras respectivas carpetas.

apolab@bioinfo4:~/calvarez$

revisemos el programa blast (afortunadamente ya esta instalado, Luis David, se encargo de eso.). Para revisarlos solo hay que escribir blastall --help

apolab@bioinfo4:~/calvarez$ blastall --help

blastall 2.2.17 arguments:

-p Program Name [String]
-d Database [String]
default = nr
-i Query File [File In]
default = stdin
-e Expectation value (E) [Real]
default = 10.0
-m alignment view options:
0 = pairwise,
1 = query-anchored showing identities,
2 = query-anchored no identities,
3 = flat query-anchored, show identities,
4 = flat query-anchored, no identities,
5 = query-anchored no identities and blunt ends,
6 = flat query-anchored, no identities and blunt ends,
7 = XML Blast output,
8 = tabular,
9 tabular with comment lines
10 ASN, text
11 ASN, binary [Integer]
default = 0
range from 0 to 11
-o BLAST report Output File [File Out] Optional
default = stdout
-F Filter query sequence (DUST with blastn, SEG with others) [String]
default = T
-G Cost to open a gap (-1 invokes default behavior) [Integer]
default = -1
-E Cost to extend a gap (-1 invokes default behavior) [Integer]
default = -1
-X X dropoff value for gapped alignment (in bits) (zero invokes default behav ior)
blastn 30, megablast 20, tblastx 0, all others 15 [Integer]
default = 0
-I Show GI's in deflines [T/F]
default = F
-q Penalty for a nucleotide mismatch (blastn only) [Integer]
default = -3
-r Reward for a nucleotide match (blastn only) [Integer]
default = 1
-v Number of database sequences to show one-line descriptions for (V) [Intege r]
default = 500
-b Number of database sequence to show alignments for (B) [Integer]
default = 250
-f Threshold for extending hits, default if zero
blastp 11, blastn 0, blastx 12, tblastn 13
tblastx 13, megablast 0 [Real]
default = 0
-g Perform gapped alignment (not available with tblastx) [T/F]
default = T
-Q Query Genetic code to use [Integer]
default = 1
-D DB Genetic code (for tblast[nx] only) [Integer]
default = 1
-a Number of processors to use [Integer]
default = 1
-O SeqAlign file [File Out] Optional
-J Believe the query defline [T/F]
default = F
-M Matrix [String]
default = BLOSUM62
-W Word size, default if zero (blastn 11, megablast 28, all others 3) [Intege r]
default = 0
-z Effective length of the database (use zero for the real size) [Real]
default = 0
-K Number of best hits from a region to keep (off by default, if used a value of 100 is recommended) [Integer]
default = 0
-P 0 for multiple hit, 1 for single hit (does not apply to blastn) [Integer]
default = 0
-Y Effective length of the search space (use zero for the real size) [Real]
default = 0
-S Query strands to search against database (for blast[nx], and tblastx)
3 is both, 1 is top, 2 is bottom [Integer]
default = 3
-T Produce HTML output [T/F]
default = F
-l Restrict search of database to list of GI's [String] Optional
-U Use lower case filtering of FASTA sequence [T/F] Optional
-y X dropoff value for ungapped extensions in bits (0.0 invokes default behav ior)
blastn 20, megablast 10, all others 7 [Real]
default = 0.0
-Z X dropoff value for final gapped alignment in bits (0.0 invokes default be havior)
blastn/megablast 50, tblastx 0, all others 25 [Integer]
default = 0
-R PSI-TBLASTN checkpoint file [File In] Optional
-n MegaBlast search [T/F]
default = F
-L Location on query sequence [String] Optional
-A Multiple Hits window size, default if zero (blastn/megablast 0, all others 40 [Integer]
default = 0
-w Frame shift penalty (OOF algorithm for blastx) [Integer]
default = 0
-t Length of the largest intron allowed in a translated nucleotide sequence w hen linking multiple distinct alignments. (0 invokes default behavior; a negativ e value disables linking.) [Integer]
default = 0
-B Number of concatenated queries, for blastn and tblastn [Integer] Optional
default = 0
-V Force use of the legacy BLAST engine [T/F] Optional
default = F
-C Use composition-based statistics for blastp or tblastn:
As first character:
D or d: default (equivalent to T)
0 or F or f: no composition-based statistics
1 or T or t: Composition-based statistics as in NAR 29:2994-3005, 2001
2: Composition-based score adjustment as in Bioinformatics 21:902-911,
2005, conditioned on sequence properties
3: Composition-based score adjustment as in Bioinformatics 21:902-911,
2005, unconditionally
For programs other than tblastn, must either be absent or be D, F or 0.
As second character, if first character is equivalent to 1, 2, or 3:
U or u: unified p-value combining alignment p-value and compositional p-va lue in round 1 only
[String]
default = D
-s Compute locally optimal Smith-Waterman alignments (This option is only
available for gapped tblastn.) [T/F]
default = F

apolab@bioinfo4:~/calvarez$

con --help nos despliega las variantes que podemos utilizar al momento de hacer un blast, aunque hay algunas que son basicas, por lo tanto en el siguiente ejemplo se manejara de esa manera, aunque ustedes pueden jugar con los parametros y revisar el resultado

apolab@bioinfo4:~/calvarez$ blastall -p blastn -i seq/seq_noe/seq_.fasta -d ../db/arabidopsis/TAIR8_cdna_20080412 -m 8 -e 0.00001 -o seq_noe.blast


lo anterior significa que utilizaremos el programa blastall, el subprograma blastn (para nucleotidos) analizando el archivo seq_.fasta contra la base de datos de cDNA (TAIR8_cdna_20080412) y que me muestre el resultado de manera tabular, sin nombre en las columnas (-m 8) con un valor e de 0.00001, y que genere un archivo del resltado del blast llamado seq_noe.blast

es importante saber donde estan los archivos que estamos utilizando, en el ejemplo anterior se muestra la direccion donde estan las bases de datos de arabidopsis, y donde estan las secuencias que quiero analizar.

pueden variar los parametros, en lugar de blastn, puede ser blastp, para proteinas, recuerden utilizar una base de datos formatedad para proteinas, el -m pueden escogerlo de las referencias mostradas en el manual de ayuda, yo utilizo el -m 8 debido a que el resultado generado lo analizo por mysql.

Me gustaria abordar otro tema de analisis, como el uso de Mysql, Clustal o EMBOSS, sugiero empezar con emboss, ya que se trata de una paqueteria facil de usar para analisis y modificacion de secuencias. pero espero sus comentarios.

Sugiero que se adapten a la terminal y a los comandos mas sencillos, como copiar. mover, cambiar de directorio, borrar, etc... etc... etc... con el tiempo se daran cuenta que utilizando la terminal tambien podemos modificar el contendio de nuestros archivos...

AA2 said...

Como escoger las secuencias que mas me interesan en un blast? imaginemos que ya tienen el archivo de salida del blast, si fue -m 8, o alguna salida tabular, el resultado esta ordenado, obviamente, en columnas, podemos hacer una seleccion de las secuencias por medio de mysql, que es un programa que apenas entiendo, pero que es muy util para manejar base de datos y sobre todo, seleccionar aquellos datos que nos interesan, bueno, despues ahondaremos en el tema Mysql.

Entonces, ya tenemos los nombres de las secuencias que presentan el hit o la calificacion mas alta en similitud a las secuencias que nos interesan, entonces solo falta copiar dichas secuencias y llevarlas a otra carpeta para su analisis comprataivo por clustal o algun otro de filogenia, para ellos podriamos utilizar el comando cp

$ cp file1.fasta ../dir_des/
$ cp file2.fasta ../dir_des/

para eso debemos star dentro de la carpeta donde se encuentran nuestras secuencias.

tambien en la carpeta scripts hay un programa que copia todos los archivos y los lleva a la carpeta que ustedes quieran, se llama copy_file.pl y se usaria de la siguiente manera

$ perl copy_file.pl file1.fasta file2.fasta filen.fasta ../dir_des/

Juan Caballero sugiere formas mas sencillas para hacerlo, para eso pueden consultar la parte de colaboradores, el propone lo siguiente

Juan: cp *.fasta directorio/


Juan: entonces: cp 1.fasta 2.fasta 3.fasta 4.fasta directorio/
o si tienes un archivo con la lista que te interesa:
cp `cat list` directorio/

Juan: pues la lista puede ser por espacios o tabulares, si es con cambios de linea cambialo a una funcion recursiva:

for I in `cat list`; do cp $I directorio/; done

todo lo anterior es mas facil aun, rapido y creo que nos muestra que hay mas de una manera de seleccionar las secuencias de interes, recuerden tener sus secuencias en formato fasta sencillo y no en el multifasta

AA2 said...

Una manera de decidir las secuencias mas interesantes en nuestro blast, es quiza por medio de un analisis por mysql.

Mysql es un programa que maneja base de datos, bastante util para personas que no sabemos programar perl (es otra manera de hacerlo).

para accesar al programa mysql, solo escribimos en apolab mysql

apolab $ mysql -u apolab -p

-u para usuarios y -p contrasenia, la cual despues la comentaremos

aparecera entonces

Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 18
Server version: 5.0.51a-3ubuntu5.1 (Ubuntu)

Type 'help;' or '\h' for help. Type '\c' to clear the buffer.

mysql>

primero veamos cuales son las base de datos, entonces escribimos

mysql> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| maize |
| mysql |
| utric |
+--------------------+
4 rows in set (0.00 sec)

mysql>

podemos crear una base de datos para practicar, o personal, si quieren analizar sus datos

mysql> create database ara_test;
Query OK, 1 row affected (0.06 sec)

mysql>

Realmente se hizo la tabla de datos?, veamos!!

mysql> show databases;
+--------------------+
| Database |
+--------------------+
| information_schema |
| ara_test |
| maize |
| mysql |
| utric |
+--------------------+
5 rows in set (0.00 sec)

mysql>

mysql es sencillo de cierta forma, al final de cada enunciado siempre esta el ";"

ahora vamos a seleccionar la base de datos ara_test,

mysql> use ara_test;
Database changed
mysql>

dentro de la base de datos ara_test, habra que crear una tabla que contenga nuestros datos, para eso voy a crear una tabla que use el resultado del blast, (recuerden el resultado blast de manera tabular, el -m 8, este resultado carece de encabezado en las columnas y es ideal para ser utilizado por mysql)

mysql> create table table_name (subject varchar(30), query varchar(30), ide char (5), ali char(6), mis char(4), gap char(4), q_start char(7), q_end char(7), s_start char(7), s_end char(7), e_value varchar(10), score_bit char(6));

ahora ya parece mas complicado, pero no lo es asi, son pocos elementos que se repiten varias veces, cada uno de ellos representa el encabezado de la columna y el tipo de variable que se va a manejar, no hay problema con el create table, obviamente en table_name ustedes utilizan el nombre que quieran, por favor, si dejar espacios., posteriomente viene entre parentesis los nombres de las columnas, los cuales son subject, query, ide, ali, mis, gap, q_start....(identificas cuales son los otros nombres faltantes de las columnas? luego viene delante de cada nombre de la columna, la asignacion de la variable (creo, no lo se muy bien) en este caso yo utilizo varchar (segun yo, para caracteres y numeros) y char (para numeros) entre parentesis esta el tamanio de carcateres que puede admitir la columna, y este numero esta a su disposicion., termina todo con el parentesis y por supuesto, el ;
al crear la tabla el programa nos dira OK, si existe algun problema, el programa nos mostrara el error

mysql> create table ttable_name (subject varchar(30), query varchar(30), ide char (5), ali char(6), mis char(4), gap char(4), q_start char(7), q_end char(7), s_start char(7, s_end char(7), e_value varchar(10), score_bit char(6));
ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near ' s_end char(7), e_value varchar(10), score_bit char(6))' at line 1
mysql>

pueden identificar cual fue el error? generalmente usen el mensaje de error para acercarse al problema, el mensaje de error describe el problema y enuncia la sintaxis de ustedes, comenzando en el lugar donde se detecto el problema (generalmente)

ahora si se ha creado correctamente la tabla, vamos a subir los datos del blast a la tabla para que puedan ser analizados.
lo hacemos con un comanod en mysql

mysql> load data infile '/dir_data/data' into table table_name;
facil, verdad? load data infile, es para subir o cargar nuestros datos dela archivo, en la direccion que esta entre ' ' into table, dentro de la tabla, nombre de la tabla con su respectivo " ; "

Bueno, ya entramos a mysql, creamos nuestra base de datos, creamos una tabla para blast, en la siguiente sesion veremos como analizar la tabla de mysql.

saludos

Cesar

AA2 said...

Lo siguiente es quiza un buen truco para practicar con la terminal

Ustedes estan trabajando en su computadora portatil, y las maquinas adventicia, nucela o aposporia estan ocupadas, necesitan conseguir un archivo o llevar un archivo a su sesion de laboratorio, como nos comunicamos y transferimos archivos por la red? pues con psftp o sftp, segun sea el caso.

vamos aconectarnos a nuestras sesion de laboratorio desde nuestra computadora personal

$ sftp calvarez@adventicia.i.apomixis.net

la contrasenia, por supuesto, es la que utilizan para entrar a su sesion, finalmente debemos encontrar algo asi.

psftp>

ya saben, si queremos un archivo de nuestras sesiones, solo hay que enlistarlo y tomarlo

psftp> ls

de la lista que se muestre, escogemos el archivo deseado.

psftp> get file.pdf

o si quieren poner un archivo en su sesion solo escriban el nombre del archivo deseado, este archivo debe encontrarse en el escritorio de su maquina.

psftp> put file.pdf

podemos movernos de una carpeta de arriba para abajo con cd, igual que en ssh, y podemos hacer directorios tambien, con mkdir

cualquier archivo que suban debera estar en su escritorio, si lo bajan, este tambien aparecera en su escritorio, no hay pierde.

Ahora imginemos que quieren imprimir el archivo de su sesion en adventicia, para esto lo hacemos desde el ssh

adventicia:~ calvarez$

con el comando lpr

adventicia:~/Desktop calvarez$ lpr Lucia_Colombo_et_al_2008.pdf

espero les sea de utilidad este tipo de consejos.

Saludos

Cesar

AA2 said...

Para hacer un alineamiento de ADN o Proteínas


Clustal es un programa muy utilizado para hacer alineamientos, y árboles tanto de ADN como de proteínas, existen varios programas gratuitos y con una ambientación amable, recomiendo el uso de CLC sequence viewer, o el geneious, BioEdit es un programa que recomiendo fuertemente para el análisis de alineamientos, aparte de ser un programa versátil, tiene la capacidad de hacer blast, es un programa gratuito, solo que esta disponible únicamente para PC. El programa para alinear dependerá de el numero y complejidad de las secuencias. Lo que a continuación se describe es el uso de clustal.

En linux existen dos versiones, clustalw y clustalx, personalmente no veo una diferencia entre los dos, solamente que clustalx proporciona una interfaz gráfica de ventanas y colores, clustalw funciona en la interfaz de la terminal.

Recordemos que para usar un programa en linux solamente hay que escribir el nombre.



apolab@bioinfo4:~$ clustalw



**************************************************************

******** CLUSTAL W (1.83) Multiple Sequence Alignments ********

**************************************************************





1. Sequence Input From Disc

2. Multiple Alignments

3. Profile / Structure Alignments

4. Phylogenetic trees

S. Execute a system command

H. HELP

X. EXIT (leave program)



Your choice:



Aqui nos pide que seleccionemos un número, seleccionamos 1, para entrar las secuencias a alinear



Your choice: 1



Sequences should all be in 1 file.



7 formats accepted:

NBRF/PIR, EMBL/SwissProt, Pearson (Fasta), GDE, Clustal, GCG/MSF, RSF.





Enter the name of the sequence file:



Debemos escribir el nombre del archivo, de preferencia que sea multifasta



Enter the name of the sequence file: file_name.fasta



Sequence format is Pearson

Sequences assumed to be DNA



Sequence 1: sclon9001_A07_.b..seq 19 bp

Sequence 2: sclon9001_C06_.b..seq 25 bp

Sequence 3: sclon9001_F11_.b..seq 19 bp

Sequence 4: sclon9001_H03_.b..seq 16 bp

Sequence 5: sclon9001_H10_.b..seq 17 bp

Sequence 6: sclon9002_A05_.b..ab1 25 bp

Sequence 7: sclon9002_D02_.b..ab1 14 bp

Sequence 8: sclon9002_E12_.b..ab1 14 bp

Sequence 9: sclon9002_F08_.b..ab1 23 bp

Sequence 10: sclon9003_A01_.b..ab1 24 bp

Sequence 11: sclon9003_A07_.b..ab1 19 bp

Sequence 12: sclon9003_A09_.b..ab1 19 bp

Sequence 13: sclon9003_B08_.b..ab1 18 bp


**************************************************************

******** CLUSTAL W (1.83) Multiple Sequence Alignments ********

**************************************************************





1. Sequence Input From Disc

2. Multiple Alignments

3. Profile / Structure Alignments

4. Phylogenetic trees



S. Execute a system command

H. HELP

X. EXIT (leave program)


Your choice:


Después de haber cargado el archivo file_name.fasta, seleccionamos el número 2, para hacer el alineamiento.



Your choice: 2



****** MULTIPLE ALIGNMENT MENU ******



1. Do complete multiple alignment now (Slow/Accurate)

2. Produce guide tree file only

3. Do alignment using old guide tree file

4. Toggle Slow/Fast pairwise alignments = SLOW

5. Pairwise alignment parameters

6. Multiple alignment parameters

7. Reset gaps before alignment? = OFF

8. Toggle screen display = ON

9. Output format options

S. Execute a system command

H. HELP

or press [RETURN] to go back to main menu


Your choice:

Seleccionamos el 1 para hacer un alineamiento global

Your choice: 1

Enter a name for the CLUSTAL output file [file_name.fasta.aln]:

Nos solicita el nombre del archivo de salida del alineamiento, asi como el utilizado por treeview para ver el arbol, utilizamos los nosmbres por default y al final del proceso se generará los archivos file_name.fasta.aln, los cuales podemos ver con more file_name.fasta.aln o u editor de texto.

Saludos

César

Noticias de hoy-La jornada

FEEDJIT Live Traffic Map