Simple Sequence Manipulation Tools

(SISEQ)

 

Copyright Notice

Siseqパッケージのソフトウェアとこの説明書の著作権は,作成者である佐藤に帰属します。説明書とSiseqパッケージを一緒にした形でなら,再配布しても構いません。

基本的に,非営利目的の学術研究のために利用して下さい。商業目的の使用に関しては,作成者に許可を得て下さい。どのような場合でも,このソフトを用いたことによる,コンピュータの故障,ファイルの損傷,データの損失について,作成者である佐藤は,一切の責任と弁済の義務を負うことはできません。

作成者: 佐藤直樹

〒338-8570 浦和市下大久保255

埼玉大学理学部分子生物学科

E-mail: naokisat@molbiol.saitama-u.ac.jp

Home page: http://www.molbiol.saitama-u.ac.jp/~naoki

Copyright 1998-2000 Naoki Sato

 

Version 1.2.3 2000年3月5日

<1> 目的

巨大化したデータベースエントリーから,目的の情報を容易に取り出し,他のソフトウェアによる解析に利用しやすい形に加工することを目的としている。Genetyx, DNASISなどGUIを利用して,同じことをしようとすると,かえって時間がかかり,大きなメモリーが必要であり,しかもマウスによる選択の際に間違えることが多い。また,このプログラムは,マルチ配列ファイルの変換を主目的としており,データベールのエントリーが連続したファイルなどから,CDSの情報などを取り出し,マルチ配列FASTAファイルを作ることができる。このパッケージのソフトウェアは,必ずしもグラフィックなインターフェイスを使わないで,配列の操作を行う。なお,バージョン1.2.3から一部日本語化しています。ヘルプメニューとtk版のメニューなどが日本語化されました。

<2> この文書の読み方に関する注意

以下の実践的説明を読む前に,必ずREADME.123ファイルに目を通し,プログラムの概要を理解してください。少し使ったことのある人は,siseqFATバイナリをダブルクリックで立ちあげて,h コマンドを打ち込んで,それぞれのコマンドの説明を読んでからご利用下さい。終了は,e コマンドを入力し,最後にコマンドキーとQを同時に押して下さい。

<3> 現在あるツール(コマンド)

1.txtr (text transformer)

異なるOSの環境でつくられたテキストファイルを,正しく読めるようにする。文字単位のファイル処理(スペース削除,数字削除,大文字<->小文字)。

2.getseq2 (get sequence version 2)

データベースエントリーファイルから,必要な配列を位置を指定して取り出す。相補鎖変換可能。

3.getcds (get CDS)

ゲノム配列などのGenBankファイルで,DNA配列は一つでも,annotationに,複数のコード配列が書かれている場合,すべてのCDSを,アミノ酸配列として抜き出す。

4.cdsnuc (CDS nucleic acid sequence)

GenBankまたはEMBLファイルから,CDSに対応する核酸配列をすべて抜き出す。翻訳開始コドン・終止コドンからのオフセットを指定できる。

5.extrna (extract RNA)

GenBankまたはEMBLファイルから,tRNA, rRNAの配列を全て抜き出す。開始点・終結点からのオフセットを指定できる。

6.tofast (to FASTA format)

GenBank, EMBL, SwissProtのファイルの配列を,FASTA形式のファイルに書き出す。Annotationは一部だけコメント行に残る。マルチ配列の処理ができる。また,DNA, RNAの変換,相補鎖変換,タンパク質配列への翻訳ができる。もちろん単一配列の裸のファイルでも処理できる。CLUSTALファイルからマルチFASTAファイルへの変換にも対応。

7.toprot (to protein sequence)

単一のDNA,RNA配列をはじめから,アミノ酸配列に翻訳する。コメントも,ある程度保存される。終止コドンは,「*」で表す。

8.getclu (get a part of clustal alignment)

ClustalW (Clustal X) の出力ファイルから,アラインメントの一部分を切り出して,新たなClustal W形式のファイルに書き出す。一致する残基の表示はしないが,この出力ファイルをClustal Xで読み込んで,再度,Clustal形式で書き出せば,完全なClustal形式のファイルになる。

9. getent (get entries)

データベースの元ファイル(GenBankのgbpri1.seq, EMBLのmam.datなど)から,キーワードと一致するエントリーを取り出して,まとめたファイルを作る。

10. genlist (gene list)

データベースファイルに含まれる遺伝子名のリストを表示する。

11. seqcat (catenate sequences)

二つのファイルの配列を結合する。単一配列同士の結合と,マルチプルアラインメントファイル(clustal形式)の結合ができる。

12. extint (extract introns)

GenBankまたはEMBLファイルから,イントロンの配列を全て抜き出す。開始点・終結点からのオフセットを指定できる。

13. noncod (non coding regions)

GenBankまたはEMBLファイルから,非コード領域の配列を全て抜き出す。イントロンをいれるかどうか,指定できる。

14. chname (change names)

配列につけられた名前(ファイル名ではない)を対話形式で変更する。特徴として,ClustalW (Clustal X) ファイルに含まれる配列名の書き換えができ,再度clustal形式で書き出すことができる。

15. simtbl (similarity table)

マルチプルアラインメントファイル(clustal形式)におけるそれぞれの配列の間の相同性を,表の形でファイルに書き出す。まだ開発中。

16. その他nucaln, sites, splcod

後に説明がある。まだ試験的。

 

<4> 現在利用できる確認済みの環境

MacOS

PPC, m68k(CodeWarrior ver. 2でコンパイルしたFATバイナリで配布します)。Tcl/TkによるGUIも使用可能だが,初心者には難しいかもしれない。

Windows95/98

Microsoft Visual C++ ver. 4 でコンパイルしたバイナリ。Windowsのプロテクトモードで利用できます。DOSでは利用できません。簡単なバッチファイルを添付してあり,これを使うと,実行時にパス設定などを自動的に行う。また,Tcl/TkによるGUIも利用できる。

UNIX

Linux, Silicon Graphics, HP, SunOS。

この場合も,Tcl/TkによるGUIが利用できる。また,スクリプトもある。

 

<5> ソフトウェア使用上の注意

1。どのフリーソフトでもそうだと思いますが,このソフトは,私自身が自分の研究用に開発したもので,他の人にとっても便利だと思うので公開するものです。いろいろ注意を払ってつくっていますが,全ての可能性を試しきることはできませんので,入力ファイルの形式によっては,うまくプログラムが動かないことがあります。特に,データベースのファイル形式はときどき替わっているので,以前の形式のファイルでは対応しないことがあります。どのような場合でも,このソフトを用いたことによる,コンピュータの故障,ファイルの損傷,データの損失について,作者である私は,一切の責任と弁済の義務を負うことはできません。使用者の責任で,利用して下さい。はじめのうちは,他のアプリケーションを終了して,このソフトだけを使って下さい。そうすれば,通常は,他のファイルに悪影響を与えたり,クラッシュした際に他のアプリケーションで処理中だったデータが失われることもありません。形式の適切でないファイルを入力すると,簡単にクラッシュします。その場合には,再起動し,ファイル形式を確認して下さい。

2。また,Netscapeなどでダウンロードしたデータベースファイルには,場合によって,余分なスペース・改行等が含まれていることがあります。また,GenomeNetからとると,はじめにその旨の表示が入ります。その場合,ファイル形式を判別できなくなりますので,ふつうのテキストエディタ(Edit 7, YouEdit)などで,ファイルの先頭の無駄な行を削って下さい。改行だけなら,対応できると思いますが,ときによっては画面に表示されないコードが含まれる場合があるので注意が必要です。また,Unix, Mac, Dosの環境の違うファイルを利用する場合には,改行コードの変換が必要です。ダウンロードの際にテキストで保存すれば多くの場合には大丈夫ですが,うまくいかないことがあり,ファイル全体が一つの行になって,奇妙な文字が入っていたりします。この場合には,添付のtxtrを利用してファイル変換を行えば解決します。「txtr 入力ファイル名 出力ファイル名 cr」を実行して下さい。マックでは,txtrをダブルクリックしてから,「入力ファイル名 出力ファイル名 cr」と入力して下さい。

3.Edit7の入手先:http://www.bekkoame.or.jp/~iimori/sw/Edit7.html

4. Tcl/Tkのインターフェイスから利用することもできますが,その場合には,予め,Tcl8.0とTk8.0 (最新版は8.3ですが,8.2までしか試していません) をインストールしておくことが必要です。Tclは7.6以上,Tkは4.2以上が使えます。日本語メニューを利用するには,国際化された8.1以降が必要です。

  Tcl/Tkの入手先:http://www.scriptics.com/

5. メモリの必要量。普通のサイズのファイルを処理する場合には余り気にする必要はありません。データベースの元ファイルで最大500 MB程度のものを処理するためには,180 MB程度のメモリが必要です。250 MBのファイルなら90 MB程度でした。UNIXならばメモリとスワップでこの程度は十分あると思います。このような大きなファイルを処理する場合には,マックではアプリケーションのサイズをこの程度の数字まで,大きくしてください。メモリが足りなければ,仮想メモリを設定して下さい。Windowsではメモリサイズを変える手段はないようですが,添付のバイナリは500 MBファイルの処理に使うことができました。10 MB程度の細菌ゲノムファイルでも,一つのIDのついたファイルの内容はすべていっぺんにメモリに読み込んで処理するため,30 MB程度のメモリを必要とすることがあります。ご注意ください。

6. CPUの性能。速いマシンを使うに越したことはありませんが,Mac, Win などよりもUNIXをお勧めします。当初このプログラムを作った動機はMacでできるものを目指したのですが,どうしてもスピードの点で,UNIXが優れています。私の経験の一例では,EMBLのhum1.datという500 MB程度のファイルを"cdsnuc hum1.dat outfile s 0 e 0" というコマンドで処理する際に,SUN Ultra 10 (256 MB メモリ,200 MB スワップ,UltraSparc II 333 MHz) では6分弱でした。ノートパソコンを使ったLinuxマシン(40 MB メモリ,200 MBスワップ,Pentium 120 MHz)では60分でできました。Silicon Graphics O2 (R5000, 180 MHz, 128 MBメモリ,256 MBスワップ)では,25分でした。どちらも大きなファイルなので,外づけのUltra SCSIのHDを使っていますので,内蔵HDならもっと速いかもしれません。ところが,Power Mac7600/200 (160 MB メモリ+160MB仮想メモリ)では,2時間半かかりました。Windows 98をのせたデスクトップ(Pentium II 350 MHz, 144 MB メモリ)では45分かかりました。これは,スワップ(仮想メモリ)の利用の度合いによる差が大きくきいている上に,処理内容によるOSの相性やコンパイラの設定の問題もあるかもしれませんので,一般論ではありません。いずれにしても,処理だけを目的とした場合には,GUIを使わないシステムの方が速いようです。最も,もっと小さい細菌ゲノムなどの普通サイズのファイルならば,MacでもWinでも全く問題なく1分程度で処理できますので,当初このプログラムを作った目的はかなえられていると思います。

 

<6> プログラムの使用法(マック版,ウィンドウズ版)

1.これは,ふつうのマックのプログラムのようにただダブルクリックして適当にメニューを開けば何とかなるような形のプログラムではありません。必ず使い方を読んでから,適切なコマンドを入力して下さい。すべてのSiseq tools siseqFAT (Mac)またはsiseqW.exe(ウィンドウズ)というプログラムに統合されています。

2.siseqプログラムのあるフォルダー(ディレクトリ)に,処理したいファイルをいれておきます。そうでなくてもできますが,その方が簡単です。また,稀にパスを見つけられないことがあるので,できれば同じフォルダーにいれておくのが無難です。

3.プログラムのアイコンをダブルクリックします。バージョンが表示され,コマンドリストが表示されます。画面が見にくいときには,適宜ウィンドウを拡大したり,スクロールして下さい。ここで,必要なコマンドを入力するのですが,このさい,コマンド名は,コマンドの番号で代用できます。また,コマンドの内容を確認したいときには,hまたはhelpと入力するとヘルプメニューになります。調べたいコマンド名の番号を入力して下さい。または,単にリターンすると全てのコマンドの説明がでます。リターンしながら見て下さい。メインメニューに戻るには,eと入力します。

4.メインメニューのもとで,以下の説明を参考にして,コマンドを入力し,リターンします。なお,日本語は使えません。また,スペースを入力するのも,Roman(直接入力)にして下さい。ここで止めたいときは,eまたはexitと入力します。

5.プログラム実行ログ画面になり,実行状況が表示されます。

6.Terminated. と表示されたら,処理が終了していますので,マックならコマンドキーとQを,ウィンドウズなら適当なキーを押して,終了させて下さい。または,メニューから終了を選んで下さい。コンパイル時の設定次第では,黙ってコンソールウィンドウが閉じてくれるかもしれません。

7.出力されたファイルは,特別な指定をしない限り,同じフォルダにあるはずです。マック版の場合,Edit7をcreatorとするテキストファイルですので,Edit7をインストールしてあれば,ダブルクリックするとファイルを見ることができます。これは,コンパイル時にDmc.hファイルで設定できます。そうでなければ,Simple Text,YouEditなどのテキストエディタで開いて下さい。ファイルが大きいとSimple Textでは開けません。もちろん,ふつうのワープロソフトでも開けます。なお,配列ファイルを表示するときは,Courier, Monacoまたは日本語の等幅フォントを使って下さい。ウィンドウズ版の場合,Wordなどで開いて下さい。

8. これらの操作は,Tk版 (siseq.tkおよびTcl/Tk)がインストールしてあれば,入力用画面から対話的に行うことができます。また,ファイルの内容を見ることも同じ画面上からできます。さらに,詳しい説明(英語のみ)も読むことができます。ただ,マック版の場合は簡単に起動するように設定するのに,少しこつが必要です。docフォルダーにある説明を参照して下さい。

 

<7> コマンドの入力方法

 以下の説明で,オプション(なくても良いもの)は,< >にはさんで示しています。

txtr 入力ファイル名 出力ファイル名 コマンド

   入力ファイル名 出力ファイル名 (コマンドは後でメニューから選択)

これはテキスト変換プログラムです。配列ファイルに限らず,他のOSでつくられたテキストファイルの変換や,大文字小文字等の変換をします。UNIXでは既にいろいろなソフトが使えるはずですが,MacやWinでは便利です。オプションは以下の通りです。

1. Delete spaces from the text.

2. Delete spaces and isolated numbers from the text.

3. Delete a user-defined character from the text.

4. Uppercase to lowercase.

5. Lowercase to uppercase.

6. Delete empty lines.

7. Copy file.

CR or cr. change LF or CR for the current system.

 

getseq2 入力ファイル名 出力ファイル名 切り取り始点 切り取り終点 n / c

      入力ファイル名 出力ファイル名 (残りは後で入力)

(ここで,nはnormal strand, cはcomplementary strand。アミノ酸配 列の場合も,nを入力して下さい。)

これは配列の一部を取り出すプログラムです。処理できるファイルは1個の配列を含むもので,GenBank, EMBL, FASTA, SwissProtのほか配列だけの生配列も使えます。

extcds 入力ファイル名 出力ファイル名

extcds 入力ファイル名 出力ファイル名 <遺伝子名>

これは,GenBank, EMBLのデータベースファイルから,CDSとタグのついた部分を取り出し,その中の/translation=というところに書いてあるアミノ酸配列を抽出するものです。出力はFASTA形式です。CDSというタグのないgbhtg.seq, sts.datやestなどのファイルは全く何も処理されません。特定の遺伝子だけならば,その遺伝子名をいれればそれだけが出力されます。ただし実行時間は変わりません。

cdsnuc 入力ファイル名 出力ファイル名 抽出開始点 抽出終了点

これもextcdsと同様にCDSフィールドに注目し,そこにかいてあるエキソン配列を取り出してつなぎ合わせるものです。ただしこの場合は,ちょっと複雑です。抽出開始点としては,S 10などのように,S またはE のあとにスペースをはさんで数字をいれます。数字はプラスでもマイナスでも構いません。S は翻訳開始点, E は終止コドンを示します。実際に,3つの塩基のどこに相当するのかは,データベースの書き方に依存していますので,データベースのマニュアルを参照して下さい。従って,翻訳開始部位の前20残基と後10残基だけを抽出するのならば,

入力ファイル名 出力ファイル名 S -20 S 10

また,コード領域のDNA配列を丸ごと取りたいときは,

入力ファイル名 出力ファイル名 S 0 E 0

となります。また,この場合にも遺伝子名を付け加えることができます。

cdsnuc 入力ファイル名 出力ファイル名 抽出開始点 抽出終了点 <遺伝子名>

<<cdsnucの使用に関する注意>>

(1) SEQ_IMPORT変数

遺伝子データベースファイルの中には,一つ一つのエキソンが別の配列ファイルになっており,それをつなぎ合わせることにより,一つのコード領域ができるようになっているものがあります。これは,CDSフィールドの記述で,アクセッション番号が入っているものです。その場合,この変数をtrueにセットすると,このような外部ファイルからのデータの読み込みを行います。現在,この変数は通常の設定として,trueになっています。もしも,コンパイラの相性などでこの機能がうまく働かないとき,或いは,もともとこのような処理をしないので,無駄な時間を減らしたいときには,この変数をfalseにして下さい。変数のセットの仕方は,3通りあります。UNIXでは,環境変数でセットできます。つまり,Cシェルなら,"setenv SEQ_IMPORT false"としておきます。"false"以外に,"FALSE", ”0”も同じ意味になります。標準に戻すときは,"true"をセットします。その他のシステムの場合,後述するスクリプトを利用します。つまり,以下のような内容の"siseq.cf"という名前のテキストファイルを用意し,siseqをダブルクリックで起動すると,この内容が読み込まれて変数の設定とコマンドの実行が行われます。例としては,

setvar seq_import false

cdsnuc infile outfile s 0 e 0

の様になります。さらに,このファイルを準備しなくても,siseq起動後,コマンドラインから,"setvar seq_import false" と入力し,画面表示で確認後,目的のコマンドを入力することもできます。setvarの使い方は,siseqのヘルプで確認して下さい。

(2) ADDSEQG変数

ゲノム配列のファイルから,イントロン込みで配列を取り出したい場合には,この変数を同様の方法で"true"にセットします。たとえば,"setvar addseqg true". この奇妙な変数名は内部で使っている関数名addseqから来ていて,そのゲノム版というつもりです。こちらはデフォルトは"false"です。

extrna 入力ファイル名 出力ファイル名 抽出開始点 抽出終了点

extrna 入力ファイル名 出力ファイル名 抽出開始点 抽出終了点 <遺伝子名>

  cdsnuc と同様です。addseqgも設定できますが,seq_importはありません。

getclu 入力ファイル名 出力ファイル名 抽出開始点 抽出終了点

このコマンドは,CLUSTAL形式のファイルの一部を取り出します。意外なことに,こうしたツールは他にないようです。

toprot 入力ファイル名 出力ファイル名 スイッチ コドン表

塩基配列からアミノ酸配列への翻訳です。市販ソフトにもあるものです。スイッチとして,1, 6, またはcを入力できます。それぞれ,1フレーム翻訳,6フレーム翻訳,複合出力を表しています。コドン表の利用も可能にしました。複合出力では,市販のソフトのような,塩基配列と翻訳配列をならべて表示します。それ以外の場合には,翻訳してできるアミノ酸配列を,FASTA形式で出力します。不要な部分をエディタソフトで適宜削って利用します。なお,スイッチとコドン表を指定しなければ,6を指定し,標準コドンを利用することになります。コドン表を指定しなければ,標準コドンになります。

tofast 入力ファイル名 出力ファイル名

FASTA形式への変換。入力ファイルはGenBank, EMBL, FASTAのマルチ配列ファイル。

tofast 入力ファイル名 出力ファイル名 c

マルチ配列の相補鎖への変換を行います。

tofast 入力ファイル名 出力ファイル名 <d/r> <n/c>

マルチ配列について,DNAからRNA (r), RNAからDNA (d)への変換。n/cはそのまままたは相補鎖変換。nの場合,省略可能。

tofast 入力ファイル名 出力ファイル名 p フレーム (コドン表)

マルチ核酸配列からアミノ酸配列への変換。フレームは相補鎖の場合,マイナスで入力。コドン表がなければ,標準(ユニバーサル)が使われる。"mt"はミトコンドリアコード。その他,自分でつくったコード表も使える。書式はサンプルファイルを参照のこと(codontable.uni)。

getent 入力ファイル名 出力ファイル名 キーワード群

データベースの元ファイルからキーワードにあったエントリーを取り出して,出力ファイルをつくる。キーワードとして可能なものは,以下の通りで,全てOR接続となる。

AC=xxxxxx ID=xxxxxx DE=xxxxxx OS=xxxxxx

この場合,AC=などの標識とキーワードの間には空白をあけてはいけない。各キーワード間は空白文字で区別し,コンマなどはいれてはいけない。ACはアクセッション番号,IDはID番号,DEはdescription, OSは生物の種名で,それぞれのデータベースの項目に対応する。この表示はEMBL風だが,GenBankファイルも処理できる。

genlist 入力ファイル名 (出力ファイル名)

データベースファイルに含まれる遺伝子名を表示する。このコマンドだけは,出力ファイルを指定しないことが可能で,その場合,画面に表示される。これによって遺伝子名を確認した上で,extcds, cdsnucなどで単一遺伝子の抽出をおこなうのが便利。

seqcat 入力ファイル名1 入力ファイル名2 出力ファイル名

二つのファイルの配列を結合する。単一配列同士の結合では,FASTA形式のファイルが出力される。マルチプルアラインメントファイル(clustal形式)の結合の場合は,clustal形式のファイルになる。他のソフトにはないと思います。

extint 入力ファイル名 出力ファイル名 抽出開始点 抽出終了点

extint 入力ファイル名 出力ファイル名 抽出開始点 抽出終了点 <遺伝子名>

GenBankまたはEMBLファイルから,イントロンの配列を全て抜き出しますが,開始点・終結点からのオフセットの指定のしかたは,cdsnuc, extrnaと同様です。ただしもちろん,開始点・終結点を数える起点は,それぞれ,イントロンの第一塩基と最終塩基です。

noncod 入力ファイル名 出力ファイル名 <1/0>

GenBankまたはEMBLファイルから,非コード領域の配列を全て抜き出す。イントロンを含めるときは,最後に1を指定する。1を書かなければ,イントロンは含めない。

chname 入力ファイル名 出力ファイル名

chname 入力ファイル名 出力ファイル名 < 旧名 新名 >

配列につけられた名前(ファイル名ではない)を対話形式で変更する。まず,全ての配列名のリストが表示されるので,変更したいものの番号を入力し,新しい名前を記入する。これが繰り返される。終了するには,0を番号として入力する。旧名と新名をいれれば,対話メニューを開かずに処理するが,間違いが多いと思われるので,あまり勧められない。なお,単一配列ファイルの場合には,旧名を省略して,ハイフン(必ず半角)を使うことができる。単一配列の場合,出力はFASTA形式。clustalファイルの場合はclustal 形式で出力。

simtbl  入力ファイル名 出力ファイル名

マルチプルアラインメントファイル(clustal形式)におけるそれぞれの配列の間の相同性を,表の形でファイルに書き出す。まだ開発中で,同一残基のカウントだけができる。

sites  入力ファイル名 出力ファイル名 モチーフ

入力ファイルの配列中で,モチーフと一致する配列を探し,その位置を出力する。DNAの場合,相補鎖も検索する。まだ開発中。

splcod  入力ファイル名

Clustal形式の入力ファイルの配列で,3つのコドン位置のそれぞれからなる3つのアラインメントファイルを作成する。出力ファイル名は自動的に入力ファイル名の後に1,2,3がついたものになる。まだ開発中。

nucaln  アミノ酸アラインメント名 核酸ファイル名 出力ファイル名

入力ファイルとして,アミノ酸配列のアラインメント(Clustal形式)と,それに対応するDNA配列を含むマルチFASTAファイルを用いる。DNA配列はアミノ酸配列よりも長い部分を含んでいても構わない。ただし,両ファイルにおいて,配列名は完全に同一であることが必要である。この条件のもと,アミノ酸アラインメントに対応する核酸配列のアラインメントを作成し,出力する。まだ開発中。

 

 

<8> 3種類の実行モード

1. コマンドラインモード

UNIXワークステーションなどでは,コマンド名とファイル名,オプションをタイプ入力することで,プログラムを利用できる。たとえば,

siseq tofast infile outfile p 1

また,システムに個別のコマンドをインストールしてあれば,siseqは省略できる。

tofast infile outfile p 1

または,siseqとだけタイプし,表示にしたがって入力しても良い。その場合,必要なコマンドをまとめて入力してもよく,また,コマンド名だけ入力してから,対話形式で入力することも可能。

2. スクリプトモード

"siseq.cf" という名前のテキストファイルがカレントディレクトリにあれば(マックの場合,siseqFATと同じフォルダにあれば),sisiqプログラムをオプションなしで起動した場合(マックやウィンドウズなら,ダブルクリックで起動することに当たる),"siseq.cf"ファイルの内容が一行ずつコマンドとして読み込まれて実行される。このスクリプトでは,以下のようなコマンドも利用できる。

copy: copies a file to another file

remove: removes files in the argument list

fcat: add contents of a file to the end of another file

setvar: sets environmental variables used in SISEQ

form circular:force DNA form to circular

form default:(default is automatic, i.e., depends on the

word 'circular' in the ID line)

printline xx: set length of line to xx characters

printline default: (default is 75)

addseqg true/false: (see cdsnuc)

seq_import true/false: (see cdsnuc)

system: calls system command (UNIX only)

この"siseq.cf"スクリプトは,マックやウィンドウズでも使うことができ,ファイルの自動処理に便利である。逆に,このファイルがある状態で不用意にプログラムを起動すると,それに従って処理されて,場合によっては,存在するファイルが上書きされる恐れがある。それを避けるには,"siseq.cf"の最後の行に,

cp siseq.cf siseq.cf.bak

rm siseq.cf

という2行を加えておくことを勧めます。これで,自分の名前を変えて終了します。これは,マックでもウィンドウズでも機能します。

3. グラフィックモード

Tcl/Tkをシステムにインストールしてあれば,"siseq.tk"スクリプトを動かすことで,グラフィックな画面で入力ができる。ただし,これは全ての機能に対応していない。また,マックの場合には,多少やり方が異なる。ウィンドウズなら"siseq.tk"のアイコンをダブルクリックするだけで使えるが,多少のパス設定が合った方が便利なので,添付のバッチファイルを参考に手直しして使うとよい。パワーマックの場合のやり方は,次の通り。

1. Tcl/Tkのパッケージをインストールする。

2. 必要なファイルを全て同一フォルダに集める。つまり,

"Wish8.1jp", "Tclapplescript2.0.shlb","siseq.tk" "siseqFAT"である。この場合,少なくとも私のマックでは,システムフォルダにインストールされている"Tclapplescript2.0.shlb"ではだめで,これを作業フォルダにコピーしたところ,Wishに認識された。また,バージョンが8.0以前のものの場合,アップルスクリプト用共有ライブラリの名前が異なるので注意。

3. まずWishをダブルクリックしてスタートする。

4. コマンドウィンドウで,"source siseq.tk"とタイプし,リターンすると,SISEQのウィンドウが現れる。

5. "siseq.tk"は,Tclのアップルスクリプト機能拡張を利用しており,Tcl側からは,単にsiseqを起動するだけである。ファイル名やコマンド名は"siseq.cf"ファイルに書き込まれて利用される。はじめにこの名前のファイルが存在すると上書きされる。終了後は,このファイルは捨てて構わない。

<9> パッケージの内容

実行可能バイナリ(bin)(マック68k, PPCどちらでも実行可能)

siseqFAT (Mac), siseqW.exe (Win)

なお,日本語化したものを,siseqJとして追加した。

テスト用データ(test)

さまざまなテスト用データがあります。使い方は,unix 用のシェルスクリプトtest.shを参考にしてください。それにしたがって得られる出力のファイルも含まれています。

説明書(doc)

About Siseq Tools(J)(マックライトII)

About Siseq Tools(E).doc (Microsoft Word version 6/95, 英語版)

README.123

README.old

なお,マック用のバイナリは,CodeWarrior Professional Version 2 (Academic) を用いてコンパイルしました。そのため,このバイナリの商業目的への利用はお断りいたします。

------------ end of file: About Siseq Tools ------------